'인공지능 알고리즘'으로 셀카 보정 쉬워진다

눈에 피로감이 없는 새로운 디스플레이가 개발됐다. 출처: pixabay — 사진 수정, 이제 어렵지 않아! 출처: pixabay

국내 연구진이 시각 인공지능 기술의 핵심 알고리즘과 전문 기술 없이도 얼굴 사진을 쉽게 편집할 수 있는 기술을 일반에 공개했습니다. 시각지능 학습에 필요한 이미지 데이터도 함께 공개했는데요. 국내 인공지능 산업 생태계에 큰 도움이 될 전망입니다.

한국전자통신연구원(ETRI)은 사물 인식, 행동 추적 등 시각 인공지능 구현에 필요한 핵심 기술인 백본 네트워크(VoVNet)와 포토샵 없이도 얼굴을 마음대로 편집할 수 있는 기술(SC-FEGAN)을 공개한다고 밝혔습니다. 아울러 연구진은 시각 인공지능 기술을 학습시키는데 필요한 도심환경 사물 560종 대상의 사물인식 학습 데이터 20만 장을 공개했습니다.

백본(Backbone network)?

다양한 영상처리기술에서 특징 추출부로 중추역할을 담당하는 네트워크를 말합니다.

VoVNet?

'Variety of View Network' 다양한 공간 영역의 특징을 추출할 수 있는 네트워크라는 의미입니다.

SC-FEGAN(Face Editing Generative Adversarial Network with User's Sketch and Color)?

GAN 기반 사용자의 스케치, 색상 입력을 반영해 얼굴 이미지를 사실적으로 수정하는 기술입니다.

사진 수정, 자연스러워진다

ETRI 연구진이 개발한 백본네트워크 Vovnet 기술을 응용해 영상에서 자동으로 안면을 인식해 모자이크를 처리한 모습. 출처: ERTI

사람의 눈과 달리 컴퓨터가 영상 속 이미지를 분별하고 인식하기 위해서는 복잡한 과정이 필요합니다. ETRI가 공개하는 백본 네트워크는 사진 속 객체들의 특징을 찾아내 정보를 추출하고 분석해 인공신경망으로 모델을 만들어내는 기술입니다. 본 기술을 활용하면 사물 검출, 객체의 부분별 분할 인식, 안면 인식 등 다양한 기능들을 구현할 수 있습니다. 덕분에 시각지능의 핵심 기반 기술로 평가받죠. 개발자들은 본 기술을 통해 손쉽게 원하는 서비스나 혁신적인 기능을 구현해 부가가치를 창출했습니다.

ETRI 연구진이 개발한 SC-FEGAN 기술을 이용해 악세사리를 착용하지 않았던 사진에(왼쪽) 간단한 스케치를 통해 자연스럽게 귀고리를 착용한 사진으로 만든 모습(오른쪽). 출처: ETRI<br> — ETRI 연구진이 개발한 SC-FEGAN 기술을 이용해 악세사리를 착용하지 않았던 사진에(왼쪽) 간단한 스케치를 통해 자연스럽게 귀고리를 착용한 사진으로 만든 모습(오른쪽). 출처: ETRI

연구진이 공개하는 또 하나의 핵심 기술은 전문 편집 프로그램 없이도 사람의 얼굴 사진을 쉽고 자연스럽게 편집할 수 있는 기술(SC-FEGAN)입니다. 본 기술을 활용하면 사진 속 인물이 하고 있지 않던 액세서리를 추가하거나 머리 모양, 표정까지도 바꾸는게 가능합니다. 심지어 낙서 등으로 인해 일부가 훼손되거나 빈 공간이 생겨도 원하는 내용을 간단하게 그려 복원할 수도 있다고 합니다. 얼굴 사진에 특화되어 다양한 편집이 가능한 알고리즘인 셈입니다.

ETRI 연구진이 개발한 백본네트워크 Vovnet 기술을 응용해 기존 기술과 달리 회전이 이뤄진 영상에 대해서도 사람의 행동 역학을 정확하게 판별하는 모습. 출처: ETRI

본 기술에는 딥러닝 기법 중 하나인 갠(GAN) 기술이 사용됩니다. 갠 기술은 인공적으로 데이터를 만들고 이를 판별하면서 진짜 같은 가짜 데이터를 만들어내는데 효과적인 기술입니다. 갠은 이미지를 합성하거나 변환하는데 효과적이지만 사용자의 의도나 조건 등을 반영하지 못한다는 단점이 존재했는데요. 하지만 연구진은 기술을 보완해 입력값을 넣으면 원하는 결과를 낼 수 있도록 기술을 개발했습니다.

갠(GAN) 기술?

데이터를 생성하는 네트워크와 네트워크가 생성한 데이터를 판별하는 네트워크를 대립구도로 학습해 좋은 성능의 데이터 생성 네트워크를 학습하는 기술입니다.

국내 시각 인공지능 기술은 '성장' 하고 있다

ETRI 연구진이 개발한 백본네트워크 Vovnet 기술을 응용해 대전시 CCTV 100대에서 자동으로 객체를 분별해 인식하는 모습. 출처: ETRI

덕분에 인물 사진과 사용자가 원하는 입력값을 알고리즘에 넣으면 조건에 적합하면서도 해당 사진 속 주변환경과 자연스럽게 어울리는 이미지를 만들 수 있습니다. 본 기술은 컴퓨터 그래픽, 웹 디자인, 산업디자인 등 분야에서 작업 시간을 대폭 줄일 것으로 기대됩니다. 또한 결과물의 품질을 높이는 기술이기 때문에 관련 업계에서 많은 활용이 이뤄질 것으로 예상됩니다.

ETRI는 시각 인공지능을 기술을 학습하는데 꼭 필요한 높은 품질의 데이터도 함께 공개했습니다. 데이터에는 전봇대, 신호등, 자동차 등 CCTV에 주로 녹화되는 도심 환경에 주로 등장하는 사물들이 들어있습니다. 연구진은 "단순히 임의의 사물로 이뤄진 많은 양의 데이터보다 시각지능 기능 구현 및 학습에 적합한 데이터가 보다 효과적"이라고 설명했는데요. 이미 작년부터 관련 자료를 공개해왔는데요. 현재 누적 공개 데이터 개수는 총 20만 장이라고 합니다.

ETRI 연구진이 시각지능을 구현하기 위한 핵심 기술인 백본 네트워크 Vovnet 소스코드를 검토하고 있는 모습. 출처: ETRI

ETRI 박종열 시각지능연구실장은 "국내 시각 인공지능 기술이 급속도로 성장하고 있지만 외국 의존도가 점차 높아지고 있어 관련 기술을 공개해 국내 산·학·연이 보다 경쟁력 있는 기술을 확보하고 생태계 조성을 위해 적극 지원할 예정"이라고 밝혔다. 연구진은 향후 시각지능 관련 핵심 기반 기술들과 높은 품질의 데이터를 지속적으로 공개할 예정입니다. 또한 얼굴 뿐 아니라 냉장고, 가구 등 다른 객체를 대상으로도 쉽게 편집을 할 수 있도록 기술을 고도화할 계획입니다.

연구진의 기술은 백본 네트워크 기술은 아래의 링크에서 확인할 수 있습니다. 본 기술은 과학기술정보통신부 혁신성장동력사업의 일환으로 진행돼 관련 특허출원 47건, 특허등록 4건, 논문 34편(SCI 6편), 기술 이전 12건의 성과를 냈다고 합니다.

VoVNet : http://github.com/youngwanLEE/VoVNet-RefineDet
SC-FEGAN : http://github.com/run-youngjoo/SC-FEGAN
이미지 데이터 : http://aiopen.aihub.or.kr

강지희 다른기사 보기