세계 최고 수준의 '딥러닝 의사결정' 설명기술, 국내 연구진이 개발

KAIST 김재철AI대학원 최재식 교수 연구팀이 인공지능 딥러닝의 의사결정에 큰 영향을 미치는 '입력 변수의 기여도를 계산'하는 세계 최고 수준의 기술 개발에 성공했습니다.

최근 딥러닝 모델은 이미지 분류, 시계열 예측 등 다양한 분야에서 높은 성능을 자랑합니다. 성능 향상에 따라 자율 주행이나 자동 번역과 같이 딥러닝의 실생활 적용 사례가 늘어나고 있죠. 하지만, 딥러닝 모델의 비선형성과 복잡한 구조로 인해 모델의 예측에 대한 설명이나 근거 제시는 부족합니다.

딥러닝의 부족한 설명성은 의료나 금융 등 근거와 투명성이 필수적인 분야로의 확장을 어렵게 만듭니다. 딥러닝의 예측을 설명하기 위한 다양한 연구 중 입력 기여도는 중요하게 고려되는 입력 특성을 직관적으로 시각화가 가능하다는 장점으로 인해 활발히 연구되고 있습니다. 하지만 기존 입력 기여도의 계산은 경사도를 활용해 잡음에 취약하고 높은 연산량을 요구합니다. 따라서 적용 분야의 확장을 위해 딥러닝의 부족한 설명성은 반드시 해결해야 할 문제입니다.

최교수 연구팀은 딥러닝 모델이 국소적인 입력 공간에서 보이는 입력 데이터와 예측 사이의 관계를 기반으로, 입력 데이터의 특징 중 모델 예측의 기여도가 높은 특징만을 점진적으로 추출해나가는 알고리즘과 그 과정에서의 입력과 예측 사이의 관계를 종합하는 방법을 고안했습니다. 이를 통해 모델의 예측 과정에 기여하는 입력 특징의 정확한 기여도를 계산했습니다. 해당 기술은 모델 구조에 대한 의존성이 없어 다양한 기존 학습 모델에서도 적용이 가능합니다. 또한, 딥러닝 예측 모델의 판단 근거를 제공함으로써 신뢰도를 높여 딥러닝 모델의 활용성에도 크게 기여할 것으로 기대됩니다.

모델의 예측에 대한 입력 특징의 기여도를 계산하는 문제는 해석이 불가능한 딥러닝 모델의 작동 방식을 설명하는 직관적인 방법 중 하나입니다. 특히, 이미지 데이터를 다루는 문제에서는 모델의 예측 과정에 많이 기여한 부분을 강조하는 방식으로 시각화해 설명을 제공하는데요.

딥러닝 예측 모델의 입력 기여도를 정확하게 계산하기 위해서 모델의 경사도를 이용하거나, 입력 섭동(행동을 다스림)을 이용하는 등의 연구가 활발히 진행되고 있습니다. 그러나 경사도를 이용한 방식의 경우 결과물에 잡음이 많아 신뢰성을 확보하기 어렵고, 입력 섭동을 이용하는 경우 모든 경우의 섭동을 시도해야 하지만 너무 많은 연산을 요구하기 때문에, 근사치를 추정한 결과만을 얻을 수 있습니다.

연구팀은 이러한 문제 해결을 위해 입력 데이터의 특징 중에서 모델의 예측과 연관성이 적은 특징을 점진적으로 제거해나가는 증류 알고리즘을 개발했습니다. 증류 알고리즘은 딥러닝 모델이 국소적으로 보이는 입력 데이터와 예측 사이의 관계에 기반해 상대적으로 예측에 기여도가 적은 특징을 선별 및 제거합니다. 이러한 과정의 반복을 통해 증류된 입력 데이터에는 기여도가 높은 특징만 남게 되는데요. 또한, 해당 과정을 통해 얻게 되는 변형된 데이터에 대한 국소적 입력 기여도를 종합해 신뢰도 높은 최종 입력 기여도를 산출합니다.

연구팀의 이러한 입력 기여도 측정 기술은 산업공정 최적화 프로젝트에 적용해 딥러닝 모델이 예측 결과를 도출하기 위해서 어떤 입력 특징에 주목하는지 찾을 수 있었습니다. 또한 딥러닝 모델의 구조에 상관없이 적용할 수 있는 이 기술을 바탕으로 복잡한 공정 내부의 다양한 예측변수 간 상관관계를 정확하게 분석하고 예측함으로써 공정 최적화(에너지 절감, 품질향상, 생산량 증가)의 효과 도출이 가능했습니다.

증류 절차 방식과 기존의 통합 경사도 방식의 비교 묘사도. 입력 기여도 계산에 결함을 일으키는 구역이 있을 때, 기존 방식은 최소한으로 통과하게 되는 구간이 존재하지만, 제안한 알고리즘은 해당 구역을 건너뛰게 됨으로써 결과의 잡음을 최소화할 수 있다. 출처 : KAIST

연구팀은 잘 알려진 이미지 분류 모델인 VGG-16, ResNet-18, Inception-v3 모델에서 개발 기술이 입력 기여도를 계산하는 데에 효과가 있음을 확인했습니다. 해당 기술은 구글(Google)이 보유하고 텐서플로우 설명가능 인공지능(TensorFlow Explainable AI) 툴 키트에 적용된 것으로 알려진 입력 기여도 측정 기술(Guided Integrated Gradient) 대비 LeRF/MoRF 점수가 각각 최대 0.436/0.020 개선됨을 보였습니다. 특히, 입력 기여도의 시각화를 비교했을 때, 기존 방식 대비 잡음이 적고 선명한 결과를 보였습니다.

연구팀이 개발한 딥러닝 모델의 입력 기여도 측정 기술은 이미지 외에도 다양한 예측 모델에 적용돼 모델의 예측에 대한 신뢰성을 높일 것으로 기대됩니다.

전기영 연구원은 "딥러닝 모델의 국소 지역에서 계산된 입력 기여도를 기반으로 상대적인 중요도가 낮은 입력을 점진적으로 제거하며, 이러한 과정에서 축적된 입력 기여도를 종합해 더욱 정확한 설명을 제공할 수 있음을 보였다ˮ라며 "딥러닝 모델에 대해 신뢰도 높은 설명을 제공하기 위해서는 입력 데이터를 적절히 변형한 상황에서도 모델 예측과 관련도가 높은 입력 특성에 주목해야 한다ˮ라고 말했습니다.

연구결과는 오는 12월 1일, 국제 학술대회 `신경정보처리학회(Neural Information Processing Systems, NeurIPS) 2022'에서 발표될 예정입니다.

이웃집과학자 다른기사 보기