질병 유전자 예측하는 강력 통계 분석법
질병 유전자 예측하는 강력 통계 분석법
  • 김동진
  • 승인 2018.03.28 23:00
  • 조회수 1765
  • 댓글 0
이 기사를 공유합니다

미래에는 우리 몸의 어떤 유전자가 무슨 질병을 일으키는지 상당 부분 밝혀지게 될까요? 최근 국내연구진이 질병 유전자를 예측하는 방법을 개발했다고 하네요.

UNIST 생명과학부 남덕우 교수. 출처: UNIST

UNIST 생명과학부의 남덕우 교수팀은 최근 질병 유전자 후보군을 '정확하게 많이' 찾아내는 통계 알고리즘 'GSA-SNP2'을 개발했습니다. 이 알고리즘은 1만 명 이하의 적은 유전체 데이터만 있어도 효과적으로 작동한다는데요. 질병 유전자 후보군을 발굴하는 비용과 시간을 크게 줄일 방법으로 주목받고 있습니다.

 

남 교수는 "몇 천 명 단위에서도 의미 있는 유전자 그룹을 찾아낼 수 있는 저비용 고효율 통계분석도구"라며 "이 알고리즘을 통해 신약 개발을 위한 유전자 표적을 발굴하거나 질병에 대한 이해를 더 빠르게 진행시킬 수 있다"고 강조했습니다.

 

염기서열상 나타나는 차이를 뜻하는 스닙(SNP). 출처: David Eccles

사람의 DNA 염기서열은 조금씩 다르게 나타나는데요. 이로 인해 질병에 대한 감수성 등 다양한 표현형이 결정됩니다. 이런 염기서열의 차이를 '단일염기다형성(Single Nucleotide polymorphism, SNP)'이라고 하며 '스닙'이라고 읽습니다. 대규모 유전체 데이터를 통계적으로 분석하면 특정 질병과 관련된 스닙(SNP)들을 찾을 수 있다고 하네요. 


천문학적인 비용과 시간을 들여서 데이터를 생산해도 현재 사용하는 통계분석 방법들은 유의미한 스닙(SNP)을 많이 찾지 못한다고 합니다. 질병 유전자가 아닌데 질병 유전자로 판단하는 '허위양성' 결과를 엄격하게 통제하도록 설계됐기 때문인데요. 결국 수만 명의 유전형 데이터를 생산하고 수십만에서 백만 개 이상의 스닙(SNP)을 대상으로 분석해도 질병 유전자 후보군 수십 개 정도를 얻는 데 그치게 된다고 합니다.

 

통계 알고리즘을 통해 질병 유전자 후보군을 찾아낼 수 있다고 합니다. 출처: Pixabay

남 교수는 "허위양성을 통제해서 정확한 결과를 얻는 것도 중요하지만, 너무 많은 스닙(SNP)을 걸러내면 실제 신약개발 등에서 효용성이 낮아진다"며 "질병 유전자 후보군을 많이 발굴해낼 수 있는 '통계적 예측력(statistical power)'도 높여야 실용적인 통계 알고리즘이 된다"고 말했습니다. 

 

남 교수팀은 허위양성을 잘 통제해 정확한 결과를 얻으면서도 통계적 예측력을 높이는 알고리즘 개발을 목표로 삼았습니다. 이를 위해 '유전자 그룹(pathway) 상관관계 분석법'을 활용하면서 유전자 스코어에 '큐빅 스플라인(cubic spline)'이라는 수학적 보정기법을 적용했다고 합니다.

 

GSA-SNP2가 마그마(왼쪽 3~6번째), 마젠타(오른쪽 끝) 등과 비등한 수준의 허위양성통제을 가지고 있습니다. 출처: UNIST

유전자 그룹은 특정 기능을 수행하는 데 관여하는 유전자 집단입니다. 이들은 수백에서 수천가지 그룹들로 선별돼 데이터베이스로 정리돼 있습니다. 이 정보를 이용하면 개별 스닙(SNP) 비교에서는 놓쳤던 의미를 새롭게 찾을 수 있는데요. 남 교수팀은 이 기법을 쓰면서 이미 질병과 상관관계가 높게 나타난 스닙(SNP)들은 제외하고 유전자 스코어를 보정함으로써 기존의 대표적인 알고리즘 '마젠타(MAGENTA)'에 버금갈 정도로 허위양성예측을 통제하면서 통계적 예측력은 높였습니다.

 

남 교수는 "질병 유전자 후보로 강하게 판단되는 스닙(SNP)을 빼면 임의의 유전자 분포를 얻게 된다"며 "이 상태에서 다시 통계적으로 유의미한 걸 찾아내도록 설계했기 때문에 기존 방법들보다 2배 이상 예측력이 높아졌다"고 설명했습니다. 

 

GSA-SNP2는 기존 방법들에 비해 2~5배의 높은 통계적 예측력을 보여주고 있습니다. 출처: UNIST


위 그래프에서는 알고리즘 'GSA-SNP2' 예측력이 0.8에 달하는 것을 볼 수 있는데요. 남 교수는 <이웃집과학자>와의 인터뷰에서 "새로운 통계 알고리즘을 적용하면 100개의 질병유전자가 있을때 80개를 찾아 낼 수 있다는 뜻"이라며 "해외에서 개발돼 널리 쓰이고 있는 마젠타, 마그마 방법보다 예측력이 높다"라고 덧붙였습니다.


이번 연구는 UNIST 생명과학부의 윤소라 대학원생과 응우옌 하이(Nguyen C. T. Hai) 박사가 공동 1저자로 이름을 올렸으며 포스트게놈 다부처유전체사업에서 연구비를 지원 받았습니다. 연구 결과는 영국 옥스퍼드대학 출판사에서 발행하는 저명한 생물학 저널 <뉴클레익 에시드 리서치(Nucleic Acids Research)> 온라인판에 게재됐습니다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.