기계, 인간 표정 속 미묘한 감정 읽는 시대 '성큼'

이전에는 어떻게 표정을 읽었나

컴퓨터가 사람의 미묘한 감정을 인간보다 더 잘 읽어낼 수 있을까요? 이미 마이크로소프트사에서 출시한 '감정감지기(emotion)' 등 인간 얼굴 표정 속 감정을 읽는 기술은 나와 있습니다. 이 프로그램을 적용했을 때 '행복' 지수가 99.9%로 나온 서울대학교 최몽룡 명예교수의 사진은 한 때 각종 온라인 커뮤니티에서 회자되기도 했습니다.

당시 방송 화면을 마이크로소프트 감정감지기에 넣어봤습니다. 출처: YTN(변형) — 당시 방송 화면을 마이크로소프트 감정 감지기에 넣어봤습니다. 출처: YTN 보도 활용

이제까지 얼굴 표정을 인식하는 모델들은 하나의 틀을 모든 얼굴에 적용하는 개념을 사용했습니다. 다양한 얼굴 표정이 담긴 이미지 여러장을 컴퓨터에게 학습시킵니다. 즉, 한 세트의 교육 자료를 주는 건데요. 컴퓨터는 주어진 이미지들을 이용해 웃을 때 입이 어떻게 구부러지는지, 눈은 어떤 모양이 변하는지 학습합니다. 그런 후 낯선 사진들을 보여줘 이 사람이 웃는지 그렇지 않은지 판단하도록 하는 거죠.

그러나 한계가 있었습니다. 사람이 감정을 표출하는 방식은 문화, 성별, 연령 등에 따라 다르기 때문인데요. 시간이나 수면 정도, 그리고 대화 상대와의 친밀도에 따라 산출되는 값이 천차만별입니다. 따라서 기계가 사람의 표정 속 미묘한 기분을 완벽히 분별하는 건 힘든 일이었습니다. 하지만 사람의 두뇌는 본능적으로 이런 상황에 대한 편차를 잡아내죠. 기계는 그렇지 못합니다.

'MoE'와 '모델 개인화' 기술 결합

묘한 표정변화도 읽어낼 수 있을까요. 출처: Sia, chandelier뮤직비디오 — 기계가 미묘한 표정 변화 읽을까. 출처: Sia, chandelier뮤직비디오

MIT 미디어랩의 목표는 기존의 감정 인식 기술 개선입니다. 특히 미묘한 표정 변화를 포착하는 데 있어서 기존 시스템을 능가하는 학습 모델을 개발했습니다. 또한 약간의 추가 훈련 데이터를 사용함으로써 새로 개발한 모델은 완전히 새로운 그룹의 사람들에게 적용될 수 있다고 합니다.

연구진은 'Mixture of Experts(MoE)'라는 기술과 모델 '개인화 기술'을 결합한 '개인화 전문가 네트워크(Personalized Expert Network, PEN)'이라는 기술로 세분화된 얼굴 표정 데이터를 산출했는데요. 사람의 감정 인식을 위해 MoE와 모델 개인화 두 기술을 결합한 건 이번이 처음이라고 합니다.

전체 과정은 3가지로 처리됩니다. 신경망 모델을 여러 '전문가'로 나누고, 각자 역할을 나눠 표정을 분석합니다. 여기서 '전문가'는 사람이 아니라 신경망 모델을 가리킵니다. 여러 '전문가'는 새로운 사람의 표정이 주어지면 기존에 알고 있던 사람을 각각 기준으로 잡아 '이 사람이 이런 표정을 지었다면 어떤 기분일지' 분석합니다.

그 후 '게이팅 네트워크' 기술이 적용됩니다. 게이팅 네트워크는 새로 입력된 얼굴과 기존에 알던 얼굴이 몇 %나 비슷한지를 계산하는 역할을 해요. 그리고 '전문가'가 알아낸 각각의 표정에 게이팅 네트워크가 분석한 비율을 반영해서 최종 결과를 개인 맞춤형으로 산출합니다.

연구진은 이 모델들을 RECOLA라는 데이터베이스에 공개된 동영상을 토대로 학습시켰습니다. 학습에 이용한 데이터베이스에는 대화하는 사람 18명이 담긴 영상이었는데요. 이 중 9명에 대한 '스크린샷' 여러장을 보고 표정 분석을 전문적으로 할 수 있는 사람 6명이 이 영상에 나오는 사람이 기분이 좋은지 나쁜지를 -1~1점으로 평가했습니다. 또한 '흥분했는지', '침착했는지'에 대해 -1~1점으로 점수를 매겨 컴퓨터에게 제공했다고 해요. 컴퓨터를 위한 일종의 '교육자료'를 만들어준 거죠. 여기까지는 이전의 학습 방법들과 비슷합니다.

이번 연구 결과는 처음 본 사람이 흥분한 상태인지, 기분 좋은 상태인지를 '이미 알고 있는 비슷한 사람'을 토대로 판단하게 했습니다. '게이팅 네트워크'는 컴퓨터가 새로운 사람을 보고 기존의 사람들 중 '어떤 사람과 얼마만큼 비슷한지'를 판단하게 했습니다. 그리고 인간인 '전문가'는 9명이 각각 '어떤 기분인지'를 뽑았어요. 따라서 최종 결과는 전문적인 사람이 직접 판단한 개개인의 기분 수치와 게이팅 네트워크가 판단한 비슷한 정도를 곱해 결과를 냈죠.

이 연구의 의의는 '이건 누구다'라는 소수의 데이터를 따로 줘 '인구 대 인구', 또는 '개인 대 개인'에 적응할 수 있는 모델의 가능성을 보여줬다는 점입니다. 새로운 문화권에서 나타나는 '미묘한 얼굴 변이'를 약간의 추가적인 데이터로 가능하게 하는 거죠.

기계와 인간의 상호작용

이 기술은 기계와 인간의 상호작용을 향상시킬 수 있는데요. 논문의 공동 저자인 Oggi Rudovic은 개인 로봇이나 교육 목적 로봇이 로봇과 인간의 상호작용을 하려면, 다양한 사람의 감정적 상태를 각각 알아낼 수 있어야 한다고 합니다. 예를 들어, 자폐아를 돕는 도우미 로봇 등에는 개인화 기술이 도움이 많이 될 거라고 해요.

또한 일상적으로 모바일 장치로 녹화되는 이용자의 영상이나, 대화 등을 바탕으로 이용자가 스트레스나 고통 등 다양한 부정적인 상황에 처해있음을 인식하고 조언할 수 있겠죠. 나아가 우울증이나 치매의 조기 발견에도 도움을 줄 수 있을 거란 관측이 나옵니다.

##참고자료##

Feffer, Michael, and Rosalind W. Picard. "A Mixture of Personalized Experts for Human Affect Estimation." International Conference on Machine Learning and Data Mining in Pattern Recognition. Springer, Cham, 2018.

김진솔 다른기사 보기