중국에서 사람 목소리를 복제하는 AI가 등장해 관심을 모으고 있습니다.
중국 포털 사이트 '바이두'가 이번에 개발한 인공지능 딥 보이스(Deep Voice)는 사람이 1분 동안 녹음한 분량 정도의 음성데이터를 가지고 학습을 통해 목소리를 복제한다고 합니다.
딥 보이스를 개발한 연구팀은 2,400명의 음성 데이터 800시간 분량을 바탕으로 기계 학습을 시켰습니다. 최적화를 위해서는 최소 5초 단위의 음성 데이터 100개가 필요한데요. 5초 단위 데이터 10개만 있어도 95%의 인식률을 보인다고 합니다.
목소리가 한 번 복제되면 텍스트를 음성으로 바꿀 수 있습니다. 이 시스템을 활용하면 질병이나 사고로 목소리를 잃은 사람들의 과거 목소리 데이터를 복원할 수 있다고 하네요. 또 부모의 목소리를 복제해 아이들에게 책을 읽어줄 수도 있다고 합니다.
바이두 커뮤니케이션 팀 관계자는 "음성 통합 모델들 중에서 적은 수의 샘플 가지고 효율적으로 학습할 수 있는 모델을 찾는게 중요했다"면서 "많은 모델 중 지금은 몇개를 선별해 활용하고 있다"고 밝혔습니다.
딥 보이스는 남성 목소리를 여성 목소리로, 혹은 그 반대로 변형시킬 수도 있습니다. 연구진은 이를 활용하면 게임 캐릭터 목소리를 맘대로 설정할 수 있다고 합니다. 또 모국어로 말을 하면 외국어로 번역해 사용자의 음성으로 재생시켜주는 시스템을 만들 수도 있다고 하네요.
목소리를 복제하는 AI가 개발된 건 이번이 처음은 아닙니다. 2017년에 캐나다에서 개발된 '라이어버드(Lyrebird)' 역시 사람의 목소리를 복제할 수 있는데요. 라이어버드는 당시 도널드 트럼프 미국 대통령과 버락 오바마 전 미국 대통령의 목소리를 복제해 화제가 된 적이 있습니다.
캐나다 몬트리올 대학(University of Montreal) 박사 과정 학생들이 만든 이 라이어버드는 단순히 목소리 복제에 그치지 않습니다. 화난 목소리, 스트레스 받은 목소리 등의 감정 변화까지 조정할 수 있다고 합니다. 또 0.5초만에 1,000개의 문장을 생성하기도 하죠.
라이어버드 개발진도 목소리를 잃은 사람의 목소리를 복원하거나 부모와 멀리 떨어진 아이들에게 부모님의 목소리를 들려주는 등 좋은 목적으로 쓰일 수 있다고 설명했는데요.
반대로 목소리 복제가 사기에 이용되거나 개인 정보 침해 문제를 일으킬 수 있다는 우려가 나옵니다. 또한 라이어버드 개발자들은 AI의 발달로 미래에는 대화를 녹음한 녹취 파일이 법적으로 증거가 되지 못할 것이라고 예견했습니다. 복제한 목소리일 수도 있기 때문이죠.