* 늘 자신을 경계해야

로빈 도스: 기존 통계나 상식에 기초한 동일 가중치의 단순한공식만으로도 의미 있는 결론을 예측하는 매우 유용한 도구가 될 수 있다 / 결혼 생활의 안정성

modest-i 2020. 11. 7. 06:29

21. 직관 대 공식

왜 전문가가 알고리즘보다 못할까? 밀이 예상하는 한 가지 이유는 전문가는 머리를 쓰려고 애쓰고, 틀을 벗어나 생각하고, 여러 변수를 복잡하게

예측을 내놓기 때문이다. 복잡함이 더러는 통할 수도 있지만, 대개는 타당성을 떨어뜨린다. 차라리 단순히 특성을 몇 가지 결합하는 편이 나을 때가 많다. 여러 연구에서 인간의 결정은 예측 공식의 결정보다 못하다고 나타났는데, 심지어 그 공식에서 나온 수치를 인간에게 보여줘도 마찬가지다. 인간은 관련 정보를 더 많이 가지고 있어서 공식을 이길 수 있다고 생각하지민, 그렇지 않은 때가 더 많다. 밀에 따르면, 공식 대신 판단을 이용하는 편이 나은 경우는 거의 없다. 밀은 유명한 사고실험에서 어떤 사람이 오늘 밤 영화를 보러 갈지 예측하는 공식을 설명하면서, 그 사람이 오늘 다리가 부러졌다는 정보가 들어왔다면 공식을 무시해야 옳다고 지적했다. 여기서 “부러진 다리 규칙”이라는 이름이 붙었다. 물론 이 말의 요점은 다리가 부러지는 경우는 결정적이기도 하지만 대단히 드물다는 것이다. 전문가의 판단이 공식보다 못한 또 다른 이유는 인간은 복잡한 정보를 가지고 빠른 판단을 내릴 때 변덕이 심하기 때문이다. 같은 정보를 두 번 평가하게 하면 다른 답을 내놓는 일도 흔하다. 변덕의 정도는 종종 심각한 우려 대상이 되기도 한다. 흉부 엑스레이 사진을 보고 '정상' 또는 비정상'이라 하는 경험 많은 방사선 전문의들에게 똑같은 엑스레이 사진을 다른 상황에서 보여주면 20퍼센트는 다른 답을 내놓는다. 회계감사원 101명에게 기업 내부 감사의 신뢰도를 평가하게 한 연구에서도 일관성이 없는 정도가 비슷하게 나타났다. 그런가 하면 회계감사원, 병리학자, 심리학자, 조직 관리자, 기타 전문가들의 판단 신뢰도를 조사한 연구 41건을 검토한 결과, 판단이 들쭉날쭉한 경우는 흔하며 심지어 똑같은 사례를 불과 몇 분 만에 다시 검토하게 해도 판단이 달라지기도 한다는 것을 알 수 있었다. 신뢰할 수

없는 판단이라면 무엇을 예측하든 타당한 예측이 될 수 없다. 이처럼 들쭉날쭉한 판단이 만연한 이유는 아마도 시스템 1이 전후 맥락에 지나치게 의존하기 때문일 것이다. 우리는 주변에 존재하는 눈에 띄지 않는 자극이 우리 생각과 행동에 상당한 영향을 미친다는 것을 점화 효과 연구에서 배워 알고 있다. 이런 영향은 매순간 변동이 심하다. 더운 날 시원한 바람이 스칠 때 순간적 기쁨을 느껴, 그 순간만큼은 무엇이든 좀 더 긍정적이고 낙관적으로 평가할 수 있다. 가석방 심사를 할 때 도중에 식사를 하거나 간식을 먹다 보면 가석방 승인 여부가 달라질 수도 있다. 우리는 머릿속에서 무슨 일이 일어나는지 알 수 없는 탓에 주변 여건의 미세한 변화로 우리 판단이나 결정이 달라졌을 수 있다는 사실을 스스로는 절대 눈치채지 못할 것이다. 그런데 공식은 이런 문제와 무관하다. 투입된 정보가 같으면 공식은 언제나 똑같은 답을 내놓는다. 예측 가능성이 낮은 상황에서 (밀과 동료들이 검토한 대부분의 연구가 그랬다) 예측이 들쭉날쭉하다면 예측 타당성에 심각한 타격이 된다. 이 연구가 암시하는 결론은 놀랍다. 예측 정확도를 극대화하려면 최종 판단은 공식에 맡겨라! 타당성이 낮은 환경에서는 더욱 그러하다. 예를 들어 의대 입학 허가 결정에서, 흔히 최종 판단은 지원자를 면접하는 교수 손에 날렸다. 그런데 면접 교수가 최종 입학까지 결정한다면, 면접이 입학생 신발의 정확성을 떨어뜨리기 쉽다. 이 추측의 증거는 단편적이지만 근거는 명확하다. 면접 교수는 자신의 직관을 과신해 개인적 느낌에 지나치게 무게를 두고 다른 정보는 너무 가볍게 여겨, 판단의 타당성이 떨어진다. 마찬가지로 숙성이 덜 된 와인의 질을 평가해 미래 가격을 예측하는 전문가가 의지하는 정보원은 다름 아닌 와인 시음인데, 이 정보는 예측의 질을 높이기보다는 떨어뜨릴 게 거의 확실하다. 날씨가 와인의 질에 미치는 영향을 전문가들도 잘 안다 한들, 공식처럼 판단의 일관성을 유지하기는 어렵다.

 

 

 

 

밀의 최초 연구 이후 현장에 나타난 가장 중요한 발전은

로빈 도스의 유명한 논문 '부적절한 선형 모형이 결정에 기여하는 강력한 장점'이다.

 

사회과학에 널리 퍼진 통게 방식은

지금은 흔한 소프트웨어로 자리 잡은 '다중 회귀 multiple regresson'라 불리는 알고리즘에 따라

여러 예측 변수에 적절한 가중치를 부여하는 것이다.

 

논쟁의 여지가 없는 다중 회귀는 여러 예측 변수에 서로 다른 가중치를 부여해 한데 결합하는 최적의 공식을 찾아낸다.

 

 

 

그런데 도스가 관찰한 결과,

그런 복잡한 통계 알고리즘은 도움이 되지 않는다.

 

그보다는 결과를 예측하고 가치를 조정하기에 적절한 수치 몇 개를 선별해

(표준 점수나 순위를 이용해) 그것만 비교해도 충분하다.

 

그 몇 가지 예측 변수에 동일한 가중치를 부여해 결합하는 공식으로도,

애초의 표본에 최적화된 다중 회귀 공식만큼 새로운 사례를 정확하게 분석할 수 있다.

 

 

 

 

좀 더 최근의 연구는 여기서 한 걸음 더 나아가,

모든 예측 변수에 똑같은 가중치를 적용하는 공식이 더 나은 때가 많다는 사실을 보여준다.

 

이렇게 하면 표본을 추출할 때 생기는 문제에 영향을 받지 않기 때문이다.

 

동일한 가중치를 부여해도 아무 문제가 없다는 놀라운 결과는 현실적으로 중요한 점을 시사한다.

 

미리 통계조사를 하지 않아도 유용한 알고리즘을 만들 수 있다는 것이다.

 

 

 

기존 통계나 상식에 기초한 동일 가중치의 단순한 공식만으로도

의미 있는 결론을 예측하는 매우 유용한 도구가 될 수 있다.

 

 

 

 

도스가 제시한 인상적인 사례 하나는 아래 공식으로 결혼 생활의 안정성을 얼마든지 예측할 수 있다는 주장이다.

성관계 횟수 - 부부 싸움 횟수

여기서 마이너스 결과가 나오길 바라는 사람은 없을 것이다.

 

이 연구의 중요한 결론은

급하게 대충 만든 알고리즘이라도 최적의 가중치를 부여한 공식과 견주어 손색이 없을 때가 종종 있으며,

전문가의 판단을 능가하는 경우가 많다는 것이다.

 

 

 

 

이 논리는

자산 관리자의 주식 선별부터

의사나 환자의 치료법 선택에 이르기까지

많은 영역에 적용할 수 있다. 이 방법을 적용한

 

고전적 사례 하나는 신생아 수십만 명의 목숨을 구한 단순한 알고리즘이다.

태어나 몇 분 동안 정상적으로 숨을 쉬지 않는 아이는

뇌 손상이나 사망에 이를 위험이 높다는 것은 산부인과 의사들 사이에 널리 알려진 사실이었다.

 

1953년에 마취과 의사 버지니아 애프거가 개입하기 전까지,

의사와 산파 들은 아기에게 문제가 없는지를 임상적으로 판단했다.

이때 의사마다 주목하는 신호가 달랐는데,

어떤 의사는 호흡 곤란을 살폈고

어떤 의사는 아기가 얼마나 빨리 울음을 터뜨리는지를 했다.

 

이처럼 정해진 절차가 없다 보니 종종 위험신호를 놓쳤고,

많은 신생아가 죽어갔다.

 

 

 

 

 

이에 어느 레지던트가 애프거 박사에게 어떤 식으로 어린 신생아를 체계적으로 검사하느냐고 물었다.

애프거는 “간단해. 이렇게 하면 돼”라며,

다섯 가지 변수(심장박동 수, 호흡, 반사, 근육 긴장도, 혈색)와

세가지 점수 ( 각 변수의 정도에 따라 0, 1, 2)를 적었다.

 

애프거는 모든 분만실에서 이 절차를 사용하면 획기적인 변화가 오겠다는 생각에,

아기가 태어나고 1분 뒤에 이 규칙에 따라 아기를 점검하기 시작했다.

 

총점이 8점 이상이라면 혈색이 분홍빛에,

몸을 꼼지락거리고,

울음을 터뜨리고,

얼굴을 찡그리고,

맥박이 100 이상으로 건강한 상태일 것이다.

 

반면에 4점 이하라면 푸른빛이 돌고,

몸이 처지고,

활기가 없고,

맥박은 느리거나 약해서

즉각적인 조치가 필요할 것이다.

 

분만실 사람들은 애프거 점수를 적용하면서

마침내 아기의 상태를 점검하는 일관된 기준을 갖추게 되었고,

 

이 공식은 신생아 사망률 감소에 크게 기여했다.

애프거 검사는 지금도 분만실에서 날마다 사용된다.

 

아툴 가완디가 최근에 내놓은 <체크! 체크리스트 A>에는 체크리스트 활용과

단순한 규칙 준수의 장점을 보여주는 사례가 많이 실렸다.

 

 

 

 

 

 

알고리즘에 대한 적대감

알고리즘에 반대하는 편견은 관련 결정이 매우 중대할 때 더욱 확대된다. 밀은 이렇게 말했다. “일부 임상의는 '맹목적이고 기계적인 방정식이 치료가능한 환자를 엉터리로 분류하는 바람에 치료받지 못하는 경우를 상상하면서 경악하는데, 그들을 어떻게 달래야 할지 정말 난감하다.” 그에 반해 밀을 비롯한 알고리즘 지지자들은 실수를 줄일 알고리즘이 있는데도 직관에 의존해 부적절한 결정을 내리는 것은 비윤리적이라고 목소리를 높인다. 이들의 합리적 주장은 설득력이 있지만, 엄연한 심리적 현실과 배치된다. 대다수 사람에게는 실수의 원인이 중요하다. 알고리즘의 오류로 아이가 죽는다는 이야기는 똑같은 비극이 인간의 실수로 일어났다는 이야기보다 더 끔찍하고, 이러한 감정적 세기의 차이는 고스란히 도덕적 선호도로 옮겨진다.

다행히 알고리즘이 일상에서 차지하는 역할이 꾸준히 확대되고 있고 따라서 알고리즘에 대한 적대감도 누그러질 것이다. 우리는 책이나 음악을 고를 때 소프트웨어가 추천하는 목록의 도움을 받는다. 인간의 판단이 직접 개입하지 않고 신용 한도가 결정되는 것도 이제는 당연하게 여긴다. 이 외에도 이를테면 우리가 달성하려고 노력해야 하는 좋은 콜레스테롤 수치와 나쁜 콜레스테롤 수치의 비율 등 단순한 알고리즘 형태의 여러 지침이 갈수록 늘고 있다. 스포츠에서 일부 중요한 결정을 내릴 때 공식이 인간보다 나을 수 있다는 것을 일반인들도 이제는 잘 안다. 가령 프로미식축구팀에서 특정한 신인 선수에게 얼마를 지불해야 할지, 네 번째 다운에서 언제 펀트를 해야 할지 같은 결정이 그러하다. 알고리즘이 하는 일이 점점 많아지면서, 사람들이 밀의 당혹스러운 작은 책에 묘사된 결정 유형을 처음 마주했을 때 느끼는 불편함은 줄어들 것이다.

공식 응용하기

최고의 사원을 뽑으려고 진지하게 고민한다면, 이렇게 해보라.

우선 그 직책에서 성공하기 위해 필요한 특성을 몇 가지 고른다. (전문성, 붙임성, 신뢰성 등), 과욕은 금물이다. 여섯 개면 충분하다. 선택한 특성들은 가능한 한 서로 별개여야 하고, 몇 가지 사실적 질문을 던져 그 특성들을 평가할 수 있어야 한다. 다음으로 각 특성마다 사실적 질문 목록을 작성하고, 가령 1점에서 5점 사이의 점수를 준다는 식으로 측정 방식을 정하라. 각 특성을 매우 약하다' 또는 '매우 강하다'라는 식으로 평가할 수 있어야 한다. 이런 준비는 약 30분 정도 걸리는데, 채용할 사람의 자질을 명확히 차별화할 수 있는 작은 투자다. 이때 후광 효과를 피하려면, 특성 하나에 점수를 매긴 다음 다른 특성으로 넘어가는 식으로 한 번에 하나씩 정보를 수집 해야지. 이 특성에서 저 특성으로 왔다 갔다 해서는 안 된다. 마지막으로 여섯 개의 점수를 합하라. 최종 결정을 내리는 사람은 '눈을 감으면' 안 된다. 더 마음에 드는 사람이 있어도 최종 점수가 가장 높은 사람을 뽑겠다고 다짐하라. '부러진 다리'가 끼어들어 순위가 바뀌었으면 좋겠다는 소망을 억눌러라. 방대한 연구 결과를 믿어라. 흔히 하듯이 준비 없이 면접을 실시해 '그 사람 눈을 들여다보니 마음에 들더라' 하는 식으로 직관적 판단에 의지

에 사람을 뽑을 때보다 객관적 점수로 뽑을 때 최고의 지원자를 찾을 확률이 훨씬 높아진다.

인간의 판단 대 공식과 관련한 말들

“인간의 판단 대신 공식을 쓸 수 있다면, 그 방법을 고민이라도 해봐야 한다."

“그는 자신의 판단이 복잡하고 섬세하다고 생각하지만, 몇 가지 점수를 더하는 편이 더 나을 수 있다."

"지원자의 과거 성과를 보여주는 자료에 우리가 얼마나 비중을 둘지 미리 정하자. 그렇지 않으면 그 사람에 대한 첫인상에 지나치게 무게를 둘 수 있다.”

[출처] 19.12.28(토) <준토> 생각에 관한 생각|작성자 junto

 

20.11.07.  모디스티 각색