넷플릭스 '우편을 통한 기계학습'에서 출발
코로나19로 재택근무나 온라인 교육이 늘어나면서 자연스럽게 넷플릭스 시청도 늘어나는 추세인데요. 인터넷 환경이 열악한 유럽과 남미에서는 트래픽 감소를 위해 콘텐츠 스트리밍의 품질을 낮추겠다고 발표했는데요. 넷플릭스의 인기가 전세계 적으로 얼마나 대단한지 알 수 있는 대목입니다.
원래 넷플릭스는 2010년까지만 해도 '연체료를 받지 않는' DVD를 빨간 봉투에 담아 우편을 통해 서비스를 제공했는데요. DVD를 반납할 때 1점에서 5점까지 영화에 점수를 매길 수 있도록 평가표도 동봉했다고 합니다. 책 <수학의 쓸모>에 나온 표현을 빌리자면 넷플릭스는 '우편을 통한 기계학습'에서 출발했습니다. 이런 평가 데이터를 축적하며 넷플릭스의 알고리즘은 패턴을 찾아갔습니다. 데이터가 축적될수록 가입자들은 더 나아진 영화추천 정보를 제공받았습니다.
이렇게 넷플릭스의 급격한 성장의 주역은 개인에 맞춘 추천시스템이라고 해도 과언이 아닌데요. 오늘날 AI를 이용한 개인화 작업을 넷플릭스보다 더 잘하는 조직은 거의 없습니다. 당연히 이러한 추천 엔진에는 수 많은 수학이 정교하게 들어가 있죠. 그 중 가장 핵심적인 한 가지 개념만 꼽자면 '개인화'는 '조건부확률'을 의미한다는 사실입니다. 학창 시절 확률과 통계를 배우신 이웃님들이라면 한 번쯤 들어봤을 겁니다. 조건부확률이란 어떤 사건이 이미 일어났을 때 다른 사건이 일어날 확률을 말합니다. 예를 들어 보자면 다음과 같은 문제를 조건부 확률로 구할 수 있는데요.
넷플릭스의 가입자가 HBO의 <밴드 오브 브라더스>를 좋아한다고 가정한다면, 노르망디 상륙작전과 이후 사태에 대한 이야기를 담은 <라이언 일병 구하기>를 좋아할 가능성이 얼마나 될까?
넷플릭스 추천의 시작은 제2차 세계대전으로부터
개인화의 바탕이 되는 핵심 개념인 조건부 확률이 사실은 1944년 유럽 하늘에서 탄생했다고 합니다. 2차 세계대전 동안 유럽 상공에서 벌어진 공중전의 규모는 엄청났다고 하는데요. 1943년 8월의 슈바인푸르트-레겐스부르크 공습 작전에서 연합군은 16곳의 기지에 B-17 폭격기를 376개나 출동시켰습니다. 이 중 60대의 비행기는 돌아오지 못했습니다.
이에 연합군은 비행기 손실률을 줄일 방안이 필요했는데요. 헝가리계 미국 통계학자인 에이브러햄 왈드(Abraham Wald)는 조건부확률 만으로 기종별 생존 가능성을 제안할 수 있는 추천 시스템을 만들었습니다. 이는 바로 넷플릭스에서 사용하는 AI 추천시스템에 사용되는 핵심적인 개념이죠.
에이브러햄 왈드는 군에 통계 컨설팅을 제공하는 컬럼비아대학교의 통계연구단(Statistical Research Group, SRG)에 들어가게 됐는데요. 왈드의 연구단 활동 결과 중 가장 유명한 것은 군수공장이 탱크와 비행기를 제작할 때 어떻게 불량률을 줄일 수 있는지 밝힌 논문이었습니다. 비행기 기종에 따라 개별화된 생존성 제안 방식은 이에 비해서는 잘 알려지지 않았었다고 합니다.
2차대전 당시 연합군 측 해군은 폭격을 마치고 돌아온 비행기에서 눈에 띄는 손상 패턴을 발견했는데요. 대다수의 총알 구멍이 동체에 나있었습니다. 이에 해군은 동체에 장갑을 덧대면 비행기가 더 튼튼하다는 결론에 도달했습니다. 해군 측은 이 데이터를 왈드에게 건냈는데요. 왈드는 이 결론이 틀렸다는 사실을 발견합니다. 왜냐하면 엔진에 아무 피해가 없는 건 엔진에 총알을 맞은 비행기가 돌아오지 못했기 때문일 가능성이 컸기 때문입니다. 따라서 동체가 아닌 엔진에 장갑을 덧대야 했던거죠.
하지만 실제 기록을 확인해보면 이 이야기는 사실에 기반을 뒀다기 보다는 각색된 이야기라고 하는데요. 그렇다고 하더라도 여기서 중요한 점은 에이브러햄 왈드가 적절한 데이터가 부족한 상황에서도 특정 부위를 공격당한 비행기가 살아돌아올 조건부 확률을 구해냈다는 것이었죠.
왈드가 내놓은 '생존성 제안 시스템'은 지휘관이 전투 피해에 관한 데이터를 이용해 어떠한 비행기 기종이든 생존성을 높이는 맞춤형 방법을 제안할 수 있도록 고안된 시스템인데요. 이 알고리즘은 1980년대까지는 공개되지 않았지만 그 이후에도 비밀리에 사용됐다고 하는데요. 베트남 전쟁에서 미 해군은 왈드의 알고리즘을 A-4 스카이호크에 적용했습니다. 또한, 미 공군은 왈드의 알고리즘을 이용해 미국 역사상 가장 오래 활약한 폭격기인 B-52 스트래토포트리스의 장갑을 향상시켰다고 합니다. 말 그대로 수학 하나로 수 많은 전쟁에서 병사들을 구한 셈이죠.
왈드와 넷플릭스의 공통점, '데이터 없이 조건부 확률 구하기'
왈드가 비행기의 생존성을 높이기 위해 내놓은 방안은 넷플릭스의 영화추천 시스템과 유사합니다. 둘 다 조건부확률을 구해야 하지만 데이터가 온전하지 않다는 것이죠. 1943년 해군은 총격을 받아 추락한 비행기의 데이터가 없었습니다. 넷플릭스는 다른 모든 가입자로부터 얻은 데이터로 각 개인에게 영화를 추천하고 싶지만 대다수의 가입자가, 대다수의 영화를 보지 않았기 때문에 데이터가 온전하지 않습니다. 그럼에도 두 경우 모두 원하는 조건부 확률을 구할 수 있었는데요. 비결은 바로 없는 데이터를 모형을 통해 채워 넣는 것이었습니다.
왈드는 B-17 폭격기가 적과 싸우는 전형적인 양상을 재현하며 공중전 가상 모형을 만들었고 이를 귀환한 비행기 동체에 남아있는 총알 자국 패턴과 결합시켰습니다. 가정한 모형이 최대한 현실에 부합할 수 있도록 왈드는 적의 전투기들이 취할 법한 공격 각도를 분석했고, 엔지니어들과 상의했으며 심지어 탄흔 자국을 조사하기 위해 비행기에 모조 총알 수천 발을 쏘는 실험도 수행했다고 합니다. 이 덕분에 존재하지 않던 격추돼 돌아오지 못한 비행기의 데이터도 채워넣을 수 있었고 그 덕분에 어떠한 비행기 기종이든 생존성을 높이는 맞춤형 방법을 제안할 수 있었습니다.
넷플릭스 역시 빠진 데이터를 가입자가 영화를 감상하는 상황에 대한 모형을 세워 그 문제를 해결했습니다. 예를 들어 넷플릭스 가입자가 '재치 있는 괴짜 코디이에 관한 친화성'에 따라 미국 텔레비전 시트콤 <서티 록>과 <못말리는 패밀리>에 비슷한 평가 등급을 매겼다고 합시다. 그러면 넷플릭스는 이를 이용해 가입자가 <파크스 앤드 레크레이션>에 어떤 등급을 매길지 예측할 수 있습니다. 이를 수학 및 과학자들은 '이용자-기반 협업 필터링(User-based collaborative filtering)'이라고 부릅니다. 즉, 기존 사용자의 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술이죠.
이렇게 조건부확률을 이용해 방대한 데이터 집합에서 찾아낸 가입자의 잠재적인 특성을 이용해 넷플릭스는 AI를 이용한 개인화 작업을 가장 잘 하는 기업으로 거듭났습니다.
##참고자료##
- 닉 폴슨,제임스 스콧, 수학의 쓸모(2020), 더퀘스트