<문장원 기자> 지난 2016년 미국 대선은 그야말로 뒤집어졌다. 모두가 민주당의 힐러리 클린턴이 승리할 것이라는 여론 전문가들의 전망이 빗나갔기 때문이다. 분명 ‘인종주의적’이고 ‘여성혐오적’인 발언을 심심치 않게 한 공화당의 도널드 트럼프가 당선될리가 만무했다. 모두가 상식적인 기대가 현실화 될 것이라고 생각했다. 하지만 지금 워싱턴 D.C 백악관에 살고 있는 사람은 도널드 트럼프다. 당시 트럼프의 당선은 미국 지식인들에게도 큰 충격이었다.
트럼프 당선 직후 2016년 11월 8일 노벨경제학상 수상자인 폴 크루그먼 뉴욕시립대 교수는 뉴욕타임스에 ‘우리가 모르는 우리나라(Our Unknown Country)’라는 기고문에서 트럼프 당선으로 받은 충격을 이렇게 풀어냈다. 크루그먼은 “우리가 알 수 있는 것은 나 같은 사람 그리고 대다수 뉴욕타임스 독자들은 진정 우리가 살고 있는 이 나라를 이해하고 있지 못하다는 것”이라고 말했다. 이어 “우리는 고위직에 앉을 자격이 없고, 성격적으로 건강하지 않고, 너무 무섭지만 우스꽝 스러운 후보에게 시민들이 결국 투표하지 않을 것이라고 생각했다”고 했다.
‘구글 트렌드’는 트럼프의 당선을 알고 있었다
하지만 트럼프의 당선은 예측 가능했다. 데이터 과학자 세스 스티븐스 다비도위츠는 그 이유를 <모두 거짓말을 한다>에 서 밝히고 있다. 다비도위츠는 구글 트렌드 데이터를 바탕으로 예측이 가능했다고 말하고 있다. 구글 트렌드는 특정 단어가 지역별, 시간별로 얼마나 자주 검색되는지를 알려주는 구글 서비스다. 트럼프의 당선 예측은 오바마가 미국 최초의 흑인 대통령으로 당선되던 날부터 시작됐다. 2008년 11월 오바마가 당선되던 날, 미국의 일부 주(州)에서는 ‘최초의 흑인 대통령’보다 ‘깜둥이 대통령’을 더 많이 검색됐다. 그리고 ‘오바마’가 들어간 검색어 100개 중 1개에는 백인 우월주의 단체인 ‘KKK(Ku Klux Klan)’나 ‘깜둥이(nigger)’가 포함돼 있었 다. 백인 국수주의 사이트 ‘스톰프런트’의 검색과 가입도 평소보다 10배 늘었다.
다비도위츠는 이 검색 데이터를 바탕으로 2012년 미국의 인종주의 지도를 만들었다. 그 결과는 미국의 인종주의는 남부와 공화당의 전유물이라는 기존의 통념과 다르게 나왔다. 인종차별적 검색 비율이 높은 지역에는 버지니아 서부, 루지애나 남부, 미시시피뿐 아니라 뉴욕 북부, 펜실베이니아 서부, 오하이오 동부, 산업지역인 미시간, 농촌 지역인 일리노이가 포함돼 있었다. 인종주의는 실제 남북이 아닌 동서로 미국을 갈라놓고 있었고, 여기에 트럼프 당선의 핵심 키워드가 있었 다. 2015년 공화당 예비선거에서 트럼프의 지지율이 높은 지역은 바로 이 ‘깜둥이’라는 구글 검색이 가장 많았던 지역이 었다.
다비도위츠는 어느 정도 자신을 드러내야 하는 설문조사에서 아닌 척 숨겼지만, 사람들은 사적 공간에서 흑인을 조롱하는 마음을 마음껏 드러내고 있었다는 점을 지적한다. 다비도위츠는 이를 ‘은밀한 인종주의’라도 지칭하며 “구글 검색은 전문가들이 수년 동안 놓치고 있던, 유의미한 숫자의 미국인들 사이에 존재하는 악의와 혐오를 드러내 줬다”며 “검색 데이터는 우리가 여론조사에 의지하는 학자들과 저널리스트들이 생각하는 사회와 매우 다른 사회에서 살고 있다는 것을 드러냈다”고 말하고 있다.
이는 트럼프의 당선에 충격을 받은 크루그먼의 한탄으로 돌아온다. 크루그먼은 뉴욕타임스 기고문에서 “우리는 이 나라가 인종편견과 여성혐오에서 완전히 벗어났다고는 할 수 없어도, 오랜 시간이 흐르면서 훨씬 개방적이고 관용적인 사회가 됐다고 생각했다. 대다수 미국인들은 민주적 규범과 법의 지배를 중시한다고 생각했다” 며 “우리의 이상을 공유하지 않는 많은 이들이 있었다”고 절망했다. 크루그먼은 은밀한 인종주의가 드러난 트럼프 당선 일을 “끔찍한 폭로의 밤”이라고 했다.
빅데이터 선택에 따라 결과가 달라진다
책은 결과와 전혀 상관관계가 없어 보였던 데이터가 사실은 엄청난 결과를 가져올 수 있다는 점도 밝히고 있다. 다비도위츠는 경주마 경매에서 좋은 말을 고르는 기준을 예로 든다. 오랜 세월 동안 사람들은 어떤 말이 대회에서 우승할 것인지를 ‘예측’하는 방법으로 혈통을 중요하게 생각해왔다. 말 전문가들은 말의 부마, 모마, 조부마. 조모마, 형제자매에 대한 데이터를 바탕으로 최고의 혈통을 가진 말을 뽑아 좋은 말 이라고 결정했다. 하지만 결과적으로 이런 말들 중 4분의 3 은 우승하지 못했다. 수백억원이 오가는 경주마 경매시장에 서 ‘혈통’이라는 불확실한 근거로 말이 선택되는 비효율적인 상황이었다.
여기에 ‘좋은 말’을 고르는 새로운 데이터를 적용한 사람이 하버드 출신의 제프 세이더다. 다비도위츠는 세이더와의 인터뷰를 통해 수많은 데이터들 중 어떤 종류의 데이터를 선택 하느냐에 따라 혁신을 일으킬 수 있다고 말하고 있다. 세이더는 수년 동안 경주마들의 다양한 특성을 평가하고 성적과의 관계를 연구했다. 말의 콧구멍, 빠른근섬유의 부피, 배설물의 크기 등을 연구했다. 그 결과 심장의 크기, 특히 좌심실의 크기가 말의 성공에 중요한 예측자이자, 중요한 변수임을 알아 냈다. 또 비장의 크기도 커야 했다. 좌심실이 유난히 컸던 아메리칸 파로아라는 경주마는 2015년 미국 경마에서 37년 만에 3대 메이저대회를 한해에 휩쓴 ‘삼관마’가 됐다.
다비도위츠는 세이더의 기획에서 두 가지 배울 점이 있다고 지적했다. 하나는 어떤 분야에 혁신을 일으키기 위해 새로운 데이터를 이용하려 할 때는 기존의 방법이 형편이 없는 분야 들어가는 것이 가장 좋다는 것이다. 세이더가 혈통이라는 비 과학적인 데이터를 무시하고 좌심실의 크기로 좋은 말의 기준을 제시한 것처럼 말이다. 두 번째는 어떤 모델이 예측에 효과적인 이유에 대해 지나치게 많이 생각할 필요가 없다는 점이다. 좌심실의 크기가 말의 성공을 예측하는 중요한 변수지만 왜 그런지는 명확하게 설명하지 못했다. 다비도위츠는 “예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지는 알 필요는 없다”고 설명했다.
실제 이런 빅데이터의 사용은 정치적 선거 전략에서도 유용하다. 지난해 11월 영국 옥스퍼드셔에서 열린 한 패션 콘퍼런스에서 데이터 분석가 크리스토퍼 와일리는 좋아하는 패션 브랜드를 통해 그 사람의 성향을 알 수 있다고 주장했다. 영국의 데이터 분석업체 케임브리지 애널리티카(CA)의 연구원 이었던 와일리는 8,700만명의 페이스북 사용자로부터 수집한 데이터를 바탕으로 사용해 2016년 미국 대통령 선거에 영향을 준 알고리즘을 산출한 바 있다. 패션 트렌드 예측에서 박사 학위를 가지고 있는 와일리는 누군가의 선택이 자신의 정체성을 드러내는 최선의 방법 중 하나라는 것이라고 주장 했다.
와일리는 미국 학생들이 선호하는 브랜드인 ‘아베크롬비앤피치’나 운동복 브랜드 ‘룰루레몬’을 좋아하는 사람은 외향적이 었다. 패션 잡지 ‘보그’와 미국 대형 백화점 ‘메이시’, 영국 브랜드 ‘알렉산더 맥퀸’을 선호하는 사람은 진보적일 가능성이 크다고 말했다. 반면 청바지 브랜드 리(Lee)‘나 ’랭글러‘를 좋아하는 사람은 보수적이었다. 또 랭글러나 엘엘빈 같은 미국의 전통적인 브랜드를 선호하는 이용자들은 개방성이 낮았다.
와일리는 “패션 데이터를 사용해 스티브 배넌 (Steve Bannon)을 돕고 알트라이트(극단적 백인 우월주의에 기반한 미국의 온라인 보수 세력)을 구축할 수 있도록 도와주었다” 며 “우리는 무기화된 알고리즘으로 사람들의 현실에 대한 인식을 훼손하는데 패션이 큰 역할을 했다”고 말했다.
빅데이터는 ‘디지털 자백약’
이 책의 제목은 <모두 거짓말을 한다>이다. 즉 우리는 일상적으로 거짓말을 하며 정치적이거나 사회적인 설문조사에서도 거짓말을 한다. 설문조사가 대부분 익명으로 진행되지만 거짓말을 한다. 이를 ‘사회적 바람직성 편향’이라고 한다. 즉 설문 참여자들은 자신을 좋게 보이는 방식으로 거짓말을 한다. 당연히 공식기록과 큰 차이가 난다. 다비도위츠는 지난 2016년 도널드 트럼프의 승리를 예언하지 못한 데에도 이런 거짓말이 큰 역할을 했을 가능성이 높다고 본다. 하지만 사람들은 구글이라는 검색창 앞에서 진실을 이야기한다는게 다비도위츠의 주장이다.
사람들은 주로 다른 사람에게 쉽게 드러내기 힘든 분야에서 거짓말을 한다. 즉 구글 검색창에는 진실을 이야기한다. 대표적인 것이 ‘섹스’와 ‘혐오’ 등이다. 자신의 속마음을 그대로 드러냈다가는 사회적인 지탄을 받을 수 있는 부분이다.
다비도위츠는 연간 섹스 횟수에 대한 데이터를 예로 든다. 미국 18세 이상의 이성애자 남성은 1년에 63번 섹스를 한다 고 말했고, 그 중 23%에서 콘돔을 사용한다고 답했다. 이는 연간 16억 개 이상의 콘돔이 이성 간의 섹스에서 사용된다 는 것을 의미한다. 이성애자 여성은 1년에 55번의 섹스를 하고, 그 중 16%에서 콘돔을 사용한다고 답했다. 이는 연간 11억개의 콘돔이 이성 간의 섹스에서 사용된다는 것을 뜻한다.
다비도위츠는 “둘 다 거짓말을 하고 있다”고 확신한다. 실제 1 년에 팔리는 콘돔 개수는 6억 개보다 적다. 미국인들은 자신 들이 얼마나 자주 안전하지 않은 섹스를 하는지도 과장한다. 15세에서 44세 사이의 여성 중 약 11%는 현재 임신을 하지 않고, 피임을 하지도 않으면서 성생활을 하고 있다고 말한다. 그들이 얼마나 많이 섹스를 하는지에 대해 상대적으로 보수적인 가정을 한다고 할지라도, 매달 10% 정도는 임신을 한다고 기대할 수 있다. 하지만 이는 이미 미국의 총 임신 수보다도 큰 숫자다.
미혼 남성들은 1년에 평균 29개의 콘돔을 사용한다고 주장한다. 하지만 이는 미국 내에서 결혼한 사람과 싱글인 사람들 모두에게 팔린 콘돔의 숫자보다도 더 많은 수를 사용한다는 얘기와 같다. 결혼한 사람들도 그들이 얼마나 자주 섹스를 하는지 과장한다. 65세 이하의 결혼한 남성은 설문조사에서 평균적으로 1주일에 한번 섹스를 한다고 대답한다. 오직 1%만이 지난 한 해 간 섹스를 하지 않았다고 말한다. 결혼한 여성들은 남자들보다 적게 섹스를 한다고 대답하지만, 차이는 별로 크지 않다.
섹스는 부끄러울 뿐 사회적 문제는 아니다. 문제는 앞서 트럼 프의 당선을 가져온 인종이나 성적 취향, 종교에 대한 속마음 이다.사람들은 구글에 ‘흑인은 왜 무례한가요?’나 ‘유대인은 왜 그렇게 사악한가요?’ 같은 질문을 올린다. 다양한 집단에 관한 검색에 사용되는 부정적인 단어 1~5위를 순서대로 나 열했다.
이러한 고정관념에는 몇 가지 패턴이 보인다. 예를 들어 아프리카계 미국인은 ‘무례하다’는 고정관념에 직면하는 유일한 집단이다. 거의 모든 그룹이 ‘멍청하다’는 고정관념이 들어간 다. 유대인과 이슬람교도만 예외다. ‘사악하다’는 고정관념은 유대인과 이슬람교도, 동성애자에게 적용되지만 흑인, 멕시코인, 아시아인, 기독교인에게는 적용되지 않는다. 이슬람교도는 ‘테러리스트’라는 고정관념이 형성된 유일한 집단이다.
다비도위츠는 구글 검색 데이터에서 증오로 가득한 분노의 폭발을 시시각각 엿볼 수 있다고 한다. 2015년 12월 미국 캘리포니아 샌버너디노에서 대규모 총기 난사사건이 발생했다. 나흘 후 오바마 대통령은 포용과 관용의 중요성을 강조하는 연설을 했다. 연설은 그 자체만 놓고 보면 강력하고 감동적이었다. ‘로스앤젤레스 타임스’는 두려움이 “우리의 판단력을 흐리지 못하게 경고를 줬다”며 오바마를 칭찬했다. 뉴욕타임스는 이 연설이 “강인”하면서 동시에 “차분했다”고 평가했다. 오바마의 연설은 매우 성공적이라는 평가를 받았다. 표면적으로는 말이다.
하지만 구글 검색 데이터는 다르게 말한다. 오바마는 연설에서 “차별 거부는 모든 미국인과 모든 신념의 의무입니다”라 고 말했다. 하지만 이슬람교도를 ‘테러리스트’, ‘나쁜’, ‘폭력적 인’, ‘사악한’이라고 부르는 검색은 연설 동안과 직후에 두 배로 늘어났다. 오바마는 또 “우리에게는 우리가 이 땅에 발을 들이게 한 사람들에 대한 종교적인 시험을 거부해야 할 책임이 있습니다”라는 말도 했다. 하지만 당시 절박하게 안전한 피난처를 찾고 있던, 대부분이 이슬람교도인 시리아 난민에 관한 부정적인 검색은 60% 증가한 반면, 그들을 어떻게 도울 수 있는지에 관한 검색은 35% 감소했다. 오바마는 국민들에게 “자유가 두려움보다 강력하다는 것을 잊지 말라”고 부탁했다.
하지만 ‘이슬람교도를 죽이자’는 검색은 연설 동안 세 배로 늘어났다. 사실 오바마가 연설하는 동안과 그 이후 에 이슬람교도에 관해 우리가 생각할 수 있는 모든 부정적인 검색이 증가했고 우리가 생각할 수 있는 모든 긍정적인 검색은 감소했다.
다비도위츠는 “디지털 자백약을 제공하는 인터넷의 새로운 데이터는 이 연설이 주된 목적과 반대되는 효과를 낳았다고 암시한다”며 “인터넷 데이터는 오바마와 우리 모두가 생각하 듯 그의 연설이 성난 민심을 달래기보다는 오히려 격앙시켰다고 말한다”고 지적했다. 그러면서 “이처럼 효과 있을 것이라 생각한 것이 역효과를 낼 수 있다. 때로는 스스로에게 잘했다고 칭찬하려는 본능을 교정하기 위해 인터넷 데이터가 필요하다”고 했다.
구글 검색 데이터에서 증오와 관련해 다비도위츠가 찾은 가장 확실한 사실은 ‘깜둥이’라는 단어가 참 인기가 높다는 것이다. ‘깜둥이’는 단수 또는 복수의 형태로 매년 미국에서 이뤄지는 검색 700만 건에 포함된다(랩 가사에서 이 단어는 거 의 언제나 ‘nigger’가 아닌 ‘nigga’로 사용된다. 따라서 힙합 가 사는 큰 영향을 주지 않는다). ‘깜둥이 농담’에 관한 검색은 ‘유대인 농담’, ‘동양인 농담’, ‘남미인 농담’, ‘중국인 농담’, ‘게 이 농담’에 관한 검색을 합친 것보다 열일곱 배 많다. 아프리카계 미국인이 뉴스에 등장할 때면 언제나 그렇다. 여기에는 허리케인 카트리나가 상륙한 직후, 그러니까 텔레비전과 신문에서 살아남기 위해 고투하는 뉴올리언즈의 절박한 흑인 들을 보여줬을 때도 포함된다. 오바마의 첫 당선 때에도 검색 빈도가 상승했다. 마틴 루터 킹(Martin Luther King Jr.) 기념일에는 ‘흑인 농담’ 검색량이 평균 30% 정도 상승한다.
다비도위츠는 “이런 인종적 비방이 놀라울 정도로 만연하다는 사실을 대면하면 인종차별을 우리가 정확히 이해하고 있는지 의심스러워진다”며 “미국에 존재하는 커다란 문제를 설명할 이론이 있어야 한다”고 주장한다. 또 “절대다수의 흑인은 편견에 시달린다. 그리고 경찰의 제지, 구직 면접, 법원 판결에서 차별을 당하고 있다는 증거도 충분해 보인다”며 “반면 스스로 인종주의자라고 인정하는 백인은 극히소수” 라고 꼬집는다. 정말 모두 거짓말을 하고 있는 셈이다.
빅데이터 사용의 윤리적 문제
빅데이터는 우리가 그동안 놓치고 있었던 사실을 찾을 수 있도록 해주지만 다비도위츠는 여기에 윤리적인 문제도 함께 제기한다. 온라인에서 돈을 빌리려는 사람이 사용하는 단어를 데이터화해 채무 변제율과 연관시킨다. 특정 단어를 사용 하는 사람은 돈을 갚지 않을 가능성이 높기 때문에 처음부 터 돈을 빌려주지 않을 수 있다는 것이다. 하지만 다비도위츠는 “소비자는 자신의 신용 내력뿐 아니라 온라인 활동까지 염려해야 할 것”이라며 “터무니없어 보이는 요소로 평가를 받아 불이익을 받는다면 끔찍하다”고 말하고 있다.
또 자살과 이슬람포비아 검색을 바탕으로 이를 미리 막을 수 있을 것인가 하는 문제도 있다. 이슬람포비아를 검색한 사람을 모두 감옥에 보낼 수 없고, 경찰이 집을 방문할 수도 없다. 개인적인 수준에서 범죄 예측에 데이터를 사용하려면 신중해야 한다. 다비도위츠는 “데이터는 끔찍한 검색이 끔찍한 행동으로 이어지는 경우가 매우 드물다”며 “정부가 이런 검색을 바탕으로 특정한 범죄를 높은 확률로 예측할 수 있다 는 증거가 없다”고 경고한다. 영화에서나 가능한 일이라는 것 이다.
다비도위츠는 이 책의 요점으로 사회과학이 빅데이터를 통해 진정한 과학이 되고 있다고 말한다. 그러면서 이 새롭고 실제적인 과학이 우리의 삶을 향상시킬 준비를 하고 있다고 강조한다. 다비도위츠는 이렇게 결론 내린다. “데이터 분석의 미래는 밝다. 차세대 킨제이는 분명 데이터 과학자일 것이다. 차세대 푸코는 데이터 과학자일 것이다. 차세대 마르크스는 데이터 과학자일 것이다. 차세대 소크(미국의 세균학자)는 데 이터 과학자일 것이다.”
해당기사는 MeCONOMY magazine April 호에 게재된 내용입니다.