한국인이 개발한 혁신적인 유전체 분석 알고리즘
한국인이 개발한 혁신적인 유전체 분석 알고리즘
  • 이웃집과학자
  • 승인 2024.07.28 18:24
  • 조회수 1635
  • 댓글 0
이 기사를 공유합니다

 

서울대학교 연구진이 유전체 분석을 혁신할 수 있는 새로운 원천 알고리즘을 개발하여 공개했습니다. 유전체 분석은 질병 진단과 신약 개발 등의 첨단 바이오 테크놀로지에 필수적인 핵심 기술인데요. 유전체 분석은 실험적인 분석 과정뿐 아니라, 그 이후에 대규모의 생물정보 데이터 처리 단계가 필수입니다. 한 사람당 30억개의 염기서열을 분석하는 유전체 자료는PB (페타바이트) 규모에 달하여, 정확한 염기쌍을 효율적이고 빠르게 찾는 알고리즘은 매우 중요한 원천기술입니다. 지금까지 이러한 원천 알고리즘은 전적으로 영-미의 기술에 의존했었습니다.

 

서울대 연구진이 개발한 “SigAlign” (Similarity-guided Alignment)은 현재 널리 사용되고 있는 알고리즘 (BWA-MEM, HISAT2, Bowtie2) 등에 비해 수십 배 빠른 속도로 더 정확한 결과를 도출했습니다. 표준 컴퓨팅 환경에서의 방대한 비교분석에서 초당 10만 개 이상의 데이터를 처리할 수 있는 유일한 알고리즘입니다. 또한, SigAlign은 기존 알고리즘들이 수십 개의 난해한 설정값 (parameter) 옵션들을 조정해야 되고, 이런 조정과정을 거쳐도 결과를 예측하기 어려운 단점을 획기적으로 극복해, 5개의 순수한 생물학적 설정값 (불일치 점수를 제외하면 단 2개의 설정값) 만으로 유전체 분석의 모든 과정과 결과를 투명하고 예측 가능하게 만들었습니다.

 

인간게놈 프로젝트에서는 13년 (1990-2003)이 걸렸던 한 사람의 유전체 분석이 최근 단 하루만에 가능하게 된 것은 30억 개의 염기서열을 작은 토막 (100-400개 단위) 으로 만들어 빠르게 분석하는 차세대염기서열 분석 (NGS, next generation sequencing) 기술과 이를 정확하고 빠르게 처리할 수 있는 생물정보학 알고리즘의 공헌이 절대적인데요. 유전체 시대의 바탕이 되는 유전체 분석 기술은 실험적인 염기서열 분석 기술 (예 Illumina의 NovaSeq; Oxford Nanopore의 ElysIon 등)과 방대한 정보를 빠르고 정확하게 처리하기 위한 생물 정보 데이터 처리 알고리즘으로 나뉩니다. 지금까지 실험적 분석기기는 물론, 자료처리 알고리즘들도 미국과 영국 등의 국가가 개발을 독점했었습니다.

 

기존의 생물정보 알고리즘은 방대한 자료의 처리를 위해 속도의 향상에 집중해왔죠. 최근 널리 사용되는 알고리즘들은 정확도를 유지하면서 최대한 성능 (=속도)을 향상시키기 위해서, 점점 더 많은 기술적인 설정값을 추가하여 각 단계의 연산을  간소화하는 방향으로 개발되고 있습니다. 그러나, 현재 널리 사용되는 분석알고리즘들은 공통적으로 몇 가지의 문제점을 가지고 있습니다. 1) 전문가들도 설정값의 의미를 이해하기 어려워서, 새로운 분야나 특성이 다른 자료의 분석에서는 전혀 다른 결과가 나올 수 있다 (예: 불필요하게 정확도가 떨어지는 결과까지 제시하여 이후의 처리과정이 어려워짐). 2) 분석 프로그램 간의 호환성이 매우 낮아, 매우 다른 결과를 제시한다. 3) 서로 다른 결과가 왜 나왔는지, 어떤 결과가 정확한지를 알기가 굉장히 어렵다. 요약하면, 속도를 향상시키기 위한 난해성, 비호환성, 불투명성 등의 문제가 계속해서 누적되어 온 것인데요. 이는 데이터 처리 과정과 결과의 신뢰성을 떨어뜨리며, 이후에 유전체 정보를 활용한 생의학적인 후속 연구개발에도 영향을 미칩니다.

 

이번에 새로 개발된 SigAlign은 가장 원천적인 유전체 분석의 단계인 염기쌍 매칭 (=alignment) 방법을 획기적으로 개선한 알고리즘입니다. 모든 유전체 분석에 적용 가능한 원천기술인데요. 서울대학교 연구진은 생물학적인 의미가 담긴 단순한 설정값만으로도 가장 빠르게 유전체 분석이 가능함을 입증했고, 방대한 비교분석 실험에서도 대부분의 상황에서 더 빠르고 정확한 분석이 가능함을 검증했습니다. 예를 들어, SigAlign은 장내미생물의 분석에서 다른 알고리즘에 비해 최대 50배이상 빠른 속도와 가장 높은 정확도를 보였습니다. 또한, SigAlign은 기술적으로도 매우 효율적인 메모리 사용이 가능하도록 개발되어, 고성능 컴퓨터 (CPU 100개, 메모리 1-2 TB)가 필요했던 기존의 알고리즘과는 달리 향후 휴대폰이나 소형 IoT기기에서도 사용이 가능한 분석 알고리즘입니다.

SigAlign 알고리즘의 원리에 대한 그림설명 (게재된 논문의 Graphical Abstract). SigAlign은 분석하고자 하는 자료의 특성에 맞는 생물학적인 유사도와 관련된 5가지의 설정값, 특히 “최소 일치값” (minimum length)과 “길이 당의 최대 벌점” (maximum penalty per length) 의 두가지 조건만 설정하면 모든 유전체 분석이 매우 빠르고 정확하며 100% 재현될 수 있도록 설계된 점이 특징이다.출처: 서울대학교
SigAlign 알고리즘의 원리에 대한 그림설명 (게재된 논문의 Graphical Abstract). SigAlign은 분석하고자 하는 자료의 특성에 맞는 생물학적인 유사도와 관련된 5가지의 설정값, 특히 “최소 일치값” (minimum length)과 “길이 당의 최대 벌점” (maximum penalty per length) 의 두가지 조건만 설정하면 모든 유전체 분석이 매우 빠르고 정확하며 100% 재현될 수 있도록 설계된 점이 특징이다.출처: 서울대학교

연구진이 개발한 유전체분석 알고리즘의 정확성과 투명성 및 직관적인 사용편의성 등은 유전체 분석이 필요한 모든 분야의 분석을 최적화 시킬 수 있는 방법이 될 것으로 예상됩니다. 예를 들어, 인간의 질병진단, 미생물 분석, 종양분석, 단일세포 분석 등은 매우 다른 특성을 가진 영역으로, 기존의 분석방법은 최적화를 위해 매우 많은 전문인력과 시간이 필요했다.하지만 새로 개발된 알고리즘은 전문교육을 받지 않은 사람이라도 쉽게 자기 연구분야의 지식을 바탕으로 최적화가 가능합니다. 따라서, 현재 유전체 기술이 적용되고 있는 분야는 물론, 향후 적용될 모든 생물학적 연구분야에 활용 가능할 것입니다.

 

생물정보 분석은 데이터를 통해 가치를 창출하는 고부가가치 산업군으로, 생명정보기술의 “쌀”이라고 할 수 있는 원천기술입니다. 현재 해외에서는 많은 스타트업이 이 분야에 뛰어들고 있으며, 아마존과 구글 같은 빅테크 기업들도 생물 정보 분석 서비스에 진출하고 있습니다. 한국인의 아이디어와 기술로 만들어진 SigAlign은 이러한 글로벌 경쟁 속에서 독보적인 경쟁력을 가진 도구로, 한국의 생물 정보 산업 발전에도 큰 기여를 할 것으로 기대되는데요.

 

대규모 생물 정보 분석은 지금까지 알고리즘 보다는 주로 하드웨어의 발전을 통해 가속화되어왔다. 즉, 더 많은 CPU와 메모리를 갖는 슈퍼컴퓨터를 통해서 속도를 향상시키는 방법을 사용해 왔습니다. 앞에서 언급한 난해성과 비호환성, 불투명성 등의 문제 이외에도, 하드웨어 의존은 분석비용 상승과 전력소모량 증가 등의 새로운 문제를 만들 수 있습니다. SigAlign은 새로운 개념의 알고리즘으로 속도와 컴퓨팅 효율면에서도 뛰어난 성능을 가지고 있어서, 그만큼 하드웨어 의존성을 줄일 수 있고 비용을 절감할 수 있습니다. 

 

연구진은 이번에 발표한 SigAlign 알고리즘을 특허화하기 보다는 공개-개방해서 많은 사람들이 자유롭게 사용할 수 있도록 했습니다. 이는 더 많은 사람들이 연구성과를 활용하여 더 좋은 연구를 효율적으로 수행하게 하기 위한 선택아라고 합니다. 그러나, 알고리즘이 공개된다고 해도, 이를 활용한 다양한 솔루션의 개발은 난이도가 높은 작업으로, 연구진이 지속적으로 주도권을 가지고 새로운 응용 분야를 개척하고 발전시킬 것이라고 밝혔습니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 충청남도 보령시 큰오랏3길
  • 법인명 : 이웃집과학자 주식회사
  • 제호 : 이웃집과학자
  • 청소년보호책임자 : 정병진
  • 등록번호 : 보령 바 00002
  • 등록일 : 2016-02-12
  • 발행일 : 2016-02-12
  • 발행인 : 김정환
  • 편집인 : 정병진
  • 이웃집과학자 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2016-2024 이웃집과학자. All rights reserved. mail to contact@scientist.town
ND소프트