본문 바로가기
  • Believe in yourself
[분자생물학] NGS

NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (12)

by 다롱OI 2022. 8. 10.

2. 데이터의 질 관리 지표, QC parameters

데이터의 질 관리 지표는 매 검사마다 확인해야 하며 각 염기의 품질점수, 시퀀싱 양(output), 시퀀싱 깊이(depth of coverage), Ti/Tv 비율 등 다양한 파라미터를 활용할 수 있다.

 

Depth of coverage

시퀀싱 깊이(Depth of coverage)는 특정한 위치에 시퀀싱 리드가 몇 개가 분석되었는지에 대한 지표로서 흔히 “×” 기호로 표시한다. 예를 들어 특정 위치를 포함하는 시퀀싱 리드가 10개이면 시퀀싱 깊이는 “10×”로 표현한다. 확률적으로 시퀀싱 오류(error)를 배제하고 정확한 유전형을 알기 위해서는 충분한 수의 시퀀싱 리드가 필요하며 일반적으로 생식세포(germ-line) 변이를 이형접합자(heterozygote)까지 구분하기 위해서는 20× 혹은 30× 이상의 시퀀싱 깊이가 필요한 것으로 받아들여지고 있다. 낮은 비율의 체세포(somatic) 변이를 검출하기 위해서는 더 많은 시퀀싱 리드가 필요하며 수백~수천× 이상의 시퀀싱 깊이가 요구되기도 한다. 통상적으로 평균 시퀀스 깊이를 NGS 데이터 통계로 사용하지만 타겟 부위 모두에서 고르게 충분한 시퀀싱 깊이가 확보되는 것이 필요하고 특정 기준(. 30× 이상)을 만족하는 부위가 전체 타겟 부위에서 얼마나 되는지에 대한 통계를 내는 것이 중요하며 이러한 지표를 수평적 깊이(horizontal coverage)라고도 부른다.

그림 46. 시퀀싱 깊이(Depth of coverage)의 개념 및 변이 검출의 정확도와의 연관성
그림 47. 수평적 깊이: 특정 한계치(예. 20x) 이상의 깊이를 가진 부위의 비율
그림 48. 유전자 별 수평적 깊이의 확인(예)

 

Uniformity of coverage

시퀀싱 깊이는 모든 타겟 부위에서 일정한 수준으로 고르게 나오는 것이 효율의 측면에서 좋다. 이것을 깊이의 균일성(uniformity)이라 부르고, 변동 계수(coefficient of variation, CV) 등 여러 지표를 활용하기도 한다.

그림 49. 시퀀싱 깊이가 균일하지 않은(상) 결과와 균일한(하) 결과의 비교

 

GC bias

구아닌(Guanine, G)과 사이토신(cytosine, C)의 비율이 높은 부위(GC-rich) PCR 증폭 혹은 프로브 교합(probe hybridization)을 할 때 효율이 낮기 때문에 GC 비율이 적절한 다른 부위에 비해 시퀀싱이 상대적으로 덜 되며 이것을 GC 편향(bias)이라 부른다. GC 편향은 NGS 검사에서 피할 수 없는 부분이나 이러한 편향이 과하지 않은지 확인해볼 필요는 있다.

 

Transition/transversion(Ti/Tv) ratio

네 가지 염기 중 아데닌(adenine, A)과 구아닌(guanine, G)은 퓨린(purine) 계통에 속하며, 사이토신(cytosine, C) 및 티민(thymine, T)은 피리미딘(pyrimidine) 계통에 속한다. 염기전이(Transition)는 같은 계열끼리 변하는 것(. A → G)이며 염기교차(transversion)는 계열이 다른 염기로 바뀌는 것(. A → C)을 뜻한다. 이것이 무작위적으로 일어난다면 확률적으로 염기전이와 염기교차의 비율(Ti/Tv 혹은 Ts/Tv ratio) 0.5에 가까워 진다. 그러나 인간의 변이는 생물학적 특성으로 인해 염기전이가 더 흔하게 일어나 그 비율은 평균적으로 2 이상으로 높다. 시퀀싱 품질 지표가 낮을 경우 무작위로 에러가 생길 가능성이 높아지고 Ti/Tv 비율도 낮아지게 된다. NGS 검사에서는 발견된 변이들의 Ti/Tv 비율을 산출함으로써 정도관리에 활용할 수 있다.

그림 50. 염기전이(Transition) 및 염기교차(transversion)

 

Mapping quality
시퀀싱 리드가 표준 유전체의 특정 부위에 정확하게 매핑되면 매핑 품질(mapping quality)가 높다고 할 수 있다. 반면에 매핑은 되나 정확하게 일치하지 않는(mismatch) 부위가 많을 때 매핑 품질 지수는 떨어진다. 또한 어떤 시퀀싱 리드는 이와 동일한 서열이 표준 유전체의 여러 부위에 존재하여 알고리즘에서 어느 부위에 매핑을 할지 우선순위를 매기기 어려운 경우가 있으며, 비슷한(homologous) 유전자가 여러 개 있는 유전자나 위유전자(pseudogene)이 있는 유전자 혹은 유전체에 반복 서열이 많은 부위가 문제가 될 수 있다. 이 역시 매핑 품질이 낮게 되며 이러한 부위에서는 검출된 변이가 정확하지 않을 수 있으니 주의해서 확인해야 한다. 또한 비특이적 증폭, 목표부위 밖(off-target)의 DNA의 캡쳐, 오염(contamination) 등에 의해서도 매핑 품질이 떨어질 수 있다.

그림 51. 매핑 과정의 에러

 

| 6 | NGS 결과의 검증

 

NGS 결과는 품질지표, 변이비율(variant allele frequency, VAF), 방향 편향(strand bias) 등 다양한 지표를 확인하고 IGV 등 시각화 프로그램으로 확인하여 진양성(true positive) 여부를 판단한다. 또한 임상적으로 환자의 질환 또는 증상과 관찰된 결과가 부합하는지 여부를 종합적으로 고려해야 하기 때문에 의학적 지식을 가진 전문가의 확인이 필요하다. 점 돌연변이 결과는 직접염기서열분석(direct sequencing) 검사로 추가로 확인할 수 있으나, 각 검사실의 경험이 축적되고 NGS 검사의 정확도가 크게 향상되면서 직접염기서열분석으로 굳이 확인하지 않아도 대부분의 변이가 문제 없이 보고될 수 있다는 인식이 늘고 있다. 유전자복제수 변화는 multiplex ligation-dependent probe amplification(MLPA) 혹은 염색체마이크로어레이(chromosomal microarray) 등으로 확인 가능하다.

 

 

출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서