본문 바로가기
  • Believe in yourself
[분자생물학] NGS

NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (7)

by 다롱OI 2022. 8. 9.

| 4 | 유전자 복제수Copy number variation, CNV 및 구조적 변화structural variation 검출

 

1) 유전자 복제수 및 구조적 변화

인간의 세포는 보통 부모로부터 받은 2개의 유전자를 가지고 있으므로 대부분의 유전자 복제수(gene copy) 2이다. 일부 유전자에서는 이러한 복제 수가 늘어나거나(중복, duplication) 줄어들(결손, deletion) 수 있으며 이것을 유전자 복제수 변화(copy number variation, CNV)라 부른다. 유전자 복제수 변화는 정상인들에서도 있을 수 있으며 이 경우 세포의 기능에 영향을 미치지 않는 경우(benign)가 대부분이며 이것을 유전자 복제수 다형성(CNV polymporphism)이라고 한다. 반면 유전자 복제수가 변화하여 세포의 기능에 중요한 영향을 미치면 질환이 발생할 수 있다. 구조적 변화(Structural variation)는 조금 더 포괄적인 개념으로 유전자의 구조적 위치나 순서 혹은 복제수가 변화하는 것을 말한다.

그림 28. 유전체 재배열의 종류

 

2) 유전자 복제수 및 구조적 변화 검출 프로그램

NGS 데이터에서 복제수 또는 구조적 변화를 검출하는 데에는 여러 가지 원리의 알고리즘이 사용될 수 있다. Paired-end read mapping(PEM) 알고리즘은 일루미나 장비의 데이터에 적용할 수 있는 방법으로 짝지어진(paired) 시퀀싱 리드가 매핑되는 패턴(매핑 간격, 매핑 방향 등)을 이용하여 구조적 변이를 발굴한다. 예를 들어, 짝지어진 두 개의 시퀀싱 리드가 예상되는 사이즈에 비하여 더 큰 간격으로 맵핑되는 경우 분석 샘플의 해당 영역에 결손(deletion)이 있다고 추정할 수 있다. 혹은 시퀀싱 리드의 깊이(depth)의 차이를 비교하여 다른 엑손 혹은 다른 샘플에 비하여 시퀀싱 깊이가 증가 혹은 감소한 것을 분석하여 중복(duplication) 혹은 결손을 추정할 수 있다. 이 방법을 read depth 방법이라 하며 유전자복제수 검출에 유리하며 엑솜이나 타겟 패널 분석에 적용 가능하기 때문에 가장 많이 사용된다. 또 다른 방법은 시퀀싱 리드가 중간에 전혀 다른 부위에 매핑된 절단점(breakpoint)을 찾아 분할하여 분석함으로써 결손 혹은 삽입(insertion) 등을 찾아내는 것으로서 스플릿 리드(split-read) 분석이라 부른다. 스플릿 리드 분석은 구조적 변화를 효율적으로 검출할 수 있는 방법이나 유전자 재조합의 절단점 부위에 시퀀싱 리드가 존재해야 분석이 가능하며, 보통 유전자 재조합이 인트론(intron)에 존재하기 때문에 엑손(exon)만 분석하는 엑솜, 타겟 패널 등의 방법에서는 검출이 어려울 수 있으며 전장유전체 시퀀싱에 보다 효과적으로 적용 가능하다.

그림 29. NGS를 이용한 유전자 복제수 및 구조 변이 발굴의 원리

 

지금까지 개발된 알고리즘과 프로그램의 수는 40개 이상으로 매우 다양하며 비교적 최근까지 업데이트가 되고 있는 대표적인 프로그램은 다음과 같다. 각 프로그램별로 장단점이 있고 검출할수 있는 유전자 복제수의 크기가 각각 다르나 대체적으로 위양성(false-positive)이 많기 때문에 알고리즘에서 검출된 후 다른 방법으로 확인이 필요한 경우가 많다.

표 11. 대표적 유전자 복제수 및 구조적 변화 검출 프로그램

 

그림 30. 유전자복제수 검출의 예(엑손 결실)

 

때로는 유전자복제수 변화가 여러 개의 유전자를 포함하는 비교적 큰 부위에서 일어날 수 있으며 이러한 변화도 적절한 분석 알고리즘을 이용하여 검출이 가능하다.

 

그림 31. 유전자복제수 검출의 예(큰 부위의 염색체 결실)

 

 

| 5 | NGS 분석 서버

 

1) NGS 데이터의 크기 및 분석 시간

NGS 원데이터(raw data) FASTQ 파일이나 매핑이 완료된 SAM 파일은 하나의 커다란 텍스트(text) 파일이다. 이러한 텍스트(text) 파일은 효율적으로 저장 혹은 분석하기 위하여 압축 과정을 거치며 FASTQ 파일은 gzip, SAM 파일은 바이너리 BAM 파일로 보통 압축한다. 압축된 파일은 보통 수십 메가바이트(megabyte)에서 수십 기가바이트(gigabyte)까지 다양하며 이러한 대용량 데이터를 처리하기 위해서는 고성능(high performance computing) 서버가 필요한 경우가 많으며 최근에는 클라우드 서버에서 분석하는 경우도 늘고 있다. 대용량의 데이터를 빠른 속도로 분석하기 위하여 병렬 연산(parallel computing)을 할 수 있으며, 이것은 데이터를 쪼개서 각각 컴퓨터의 CPU 코어에 할당하여 나누어 분석하도록 한 다음 결과를 다시 모으는 방식이다.

그림 32. NGS 데이터의 분산 컴퓨팅

 

2) 클라우드Cloud 시스템

클라우드 컴퓨팅(Cloud computing)은 인터넷을 통해 가상화된 컴퓨터의 시스템리소스를 이용하는 것으로 데이터를 자신의 컴퓨터가 아닌 클라우드(인터넷)에 연결된 다른 컴퓨터로 처리하는 것을 의미한다. 고성능 연산이 필요한 유전체 분석에 있어 일반 사용자가 고가의 분석용 서버를 구매하고 프로그램을 설치하고 구동하며 관리하는 것이 쉽지는 않기 때문에 이러한 고성능 시스템을 클라우드 기반으로 필요한 시간만큼 이용하는 것이다. 구글, 마이크로소프트, 아마존 등 다양한 IT 기업에서 이와 같은 유전체 분석 클라우드 서비스를 제공하고 있다.

표  12. NGS 데이터의 클라우드 분석 시스템

 

 

| 6 | 상용화Commercial 및 맞춤형custom 프로그램

 

NGS 분석 프로그램 중에는 모든 사람들이 사용할 수 있도록 무료로 공개된 오픈소스(open-source) 프로그램과 상업적 목적으로 개발된 유료 프로그램이 있다. 오픈소스 프로그램은 보통 명령어 형태로 되어 있는 경우가 많아 프로그래밍에 대한 지식이 필요하며 사용자들이 맞춤형으로 최적화해야 하는 단점이 있다. 이에 비해 상용화 프로그램은 사용자 편의성이 좋은 그래픽 인터페이스(graphic user interface) 기반이 많고 분석이 정형화되어 있으며 프로그래밍에 대한 기본 지식이 없어도 분석이 가능한 장점이 있다. 그러나 프로그램의 유연성이 높지 않고 최신 알고리즘에 대한 업데이트가 느리기 때문에 사용자가 원하는 사항을 모두 만족시키기 어려운 단점이 있다.

표 13. NGS 분석 프로그램

 

 

출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서