2. 데이터의 질 관리 지표, QC parameters
데이터의 질 관리 지표는 매 검사마다 확인해야 하며 각 염기의 품질점수, 시퀀싱 양(output), 시퀀싱 깊이(depth of coverage), Ti/Tv 비율 등 다양한 파라미터를 활용할 수 있다.
Depth of coverage
시퀀싱 깊이(Depth of coverage)는 특정한 위치에 시퀀싱 리드가 몇 개가 분석되었는지에 대한 지표로서 흔히 “×” 기호로 표시한다. 예를 들어 특정 위치를 포함하는 시퀀싱 리드가 10개이면 시퀀싱 깊이는 “10×”로 표현한다. 확률적으로 시퀀싱 오류(error)를 배제하고 정확한 유전형을 알기 위해서는 충분한 수의 시퀀싱 리드가 필요하며 일반적으로 생식세포(germ-line) 변이를 이형접합자(heterozygote)까지 구분하기 위해서는 20× 혹은 30× 이상의 시퀀싱 깊이가 필요한 것으로 받아들여지고 있다. 낮은 비율의 체세포(somatic) 변이를 검출하기 위해서는 더 많은 시퀀싱 리드가 필요하며 수백~수천× 이상의 시퀀싱 깊이가 요구되기도 한다. 통상적으로 평균 시퀀스 깊이를 NGS 데이터 통계로 사용하지만 타겟 부위 모두에서 고르게 충분한 시퀀싱 깊이가 확보되는 것이 필요하고 특정 기준(예. 30× 이상)을 만족하는 부위가 전체 타겟 부위에서 얼마나 되는지에 대한 통계를 내는 것이 중요하며 이러한 지표를 수평적 깊이(horizontal coverage)라고도 부른다.
Uniformity of coverage
시퀀싱 깊이는 모든 타겟 부위에서 일정한 수준으로 고르게 나오는 것이 효율의 측면에서 좋다. 이것을 깊이의 균일성(uniformity)이라 부르고, 변동 계수(coefficient of variation, CV) 등 여러 지표를 활용하기도 한다.
GC bias
구아닌(Guanine, G)과 사이토신(cytosine, C)의 비율이 높은 부위(GC-rich)는 PCR 증폭 혹은 프로브 교합(probe hybridization)을 할 때 효율이 낮기 때문에 GC 비율이 적절한 다른 부위에 비해 시퀀싱이 상대적으로 덜 되며 이것을 GC 편향(bias)이라 부른다. GC 편향은 NGS 검사에서 피할 수 없는 부분이나 이러한 편향이 과하지 않은지 확인해볼 필요는 있다.
Transition/transversion(Ti/Tv) ratio
네 가지 염기 중 아데닌(adenine, A)과 구아닌(guanine, G)은 퓨린(purine) 계통에 속하며, 사이토신(cytosine, C) 및 티민(thymine, T)은 피리미딘(pyrimidine) 계통에 속한다. 염기전이(Transition)는 같은 계열끼리 변하는 것(예. A → G)이며 염기교차(transversion)는 계열이 다른 염기로 바뀌는 것(예. A → C)을 뜻한다. 이것이 무작위적으로 일어난다면 확률적으로 염기전이와 염기교차의 비율(Ti/Tv 혹은 Ts/Tv ratio)은 0.5에 가까워 진다. 그러나 인간의 변이는 생물학적 특성으로 인해 염기전이가 더 흔하게 일어나 그 비율은 평균적으로 2 이상으로 높다. 시퀀싱 품질 지표가 낮을 경우 무작위로 에러가 생길 가능성이 높아지고 Ti/Tv 비율도 낮아지게 된다. NGS 검사에서는 발견된 변이들의 Ti/Tv 비율을 산출함으로써 정도관리에 활용할 수 있다.
Mapping quality
시퀀싱 리드가 표준 유전체의 특정 부위에 정확하게 매핑되면 매핑 품질(mapping quality)가 높다고 할 수 있다. 반면에 매핑은 되나 정확하게 일치하지 않는(mismatch) 부위가 많을 때 매핑 품질 지수는 떨어진다. 또한 어떤 시퀀싱 리드는 이와 동일한 서열이 표준 유전체의 여러 부위에 존재하여 알고리즘에서 어느 부위에 매핑을 할지 우선순위를 매기기 어려운 경우가 있으며, 비슷한(homologous) 유전자가 여러 개 있는 유전자나 위유전자(pseudogene)이 있는 유전자 혹은 유전체에 반복 서열이 많은 부위가 문제가 될 수 있다. 이 역시 매핑 품질이 낮게 되며 이러한 부위에서는 검출된 변이가 정확하지 않을 수 있으니 주의해서 확인해야 한다. 또한 비특이적 증폭, 목표부위 밖(off-target)의 DNA의 캡쳐, 오염(contamination) 등에 의해서도 매핑 품질이 떨어질 수 있다.
| 6 | NGS 결과의 검증
NGS 결과는 품질지표, 변이비율(variant allele frequency, VAF), 방향 편향(strand bias) 등 다양한 지표를 확인하고 IGV 등 시각화 프로그램으로 확인하여 진양성(true positive) 여부를 판단한다. 또한 임상적으로 환자의 질환 또는 증상과 관찰된 결과가 부합하는지 여부를 종합적으로 고려해야 하기 때문에 의학적 지식을 가진 전문가의 확인이 필요하다. 점 돌연변이 결과는 직접염기서열분석(direct sequencing) 검사로 추가로 확인할 수 있으나, 각 검사실의 경험이 축적되고 NGS 검사의 정확도가 크게 향상되면서 직접염기서열분석으로 굳이 확인하지 않아도 대부분의 변이가 문제 없이 보고될 수 있다는 인식이 늘고 있다. 유전자복제수 변화는 multiplex ligation-dependent probe amplification(MLPA) 혹은 염색체마이크로어레이(chromosomal microarray) 등으로 확인 가능하다.
출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서
'[분자생물학] NGS' 카테고리의 다른 글
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (15) (0) | 2022.08.10 |
---|---|
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (13) (0) | 2022.08.10 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (11) (0) | 2022.08.10 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (10) (0) | 2022.08.10 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (9) (0) | 2022.08.10 |