| 3 | 변이 검출 - Variant calling
SAM/BAM 파일이 생성되면 각 시퀀싱 리드를 분석하여 특정 위치에서 표준 유전체 서열과 다른 변이(variation)가 있는지 찾아내는 작업을 한다. 이것을 변이 검출(variant calling)이라 부른다. 이것은 한 위치에 여러 개의 시퀀싱 리드를 종합하여 변이가 있는지 확률적으로 판단하게 된다. 각 시퀀싱 리드에는 NGS 장비에서 분석할 때 발생할 수 있는 에러, 매핑 과정에서 발생할 수 있는 오류 등이 혼재되어 있기 때문에 이러한 것들을 배제하고 진양성(true positive) 변이를 걸러낼 수 있는 통계적 알고리즘들이 사용된다. 여기에 이용되는 프로그램의 종류, 프로그램에서 설정한 파라미터, 데이터 전처리, 결과 필터링(filtering) 과정에 따라 동일한 데이터에 대해서 다른 결과가 나올 수 있어 위양성(false positive) 또는 위음성(false negative)의 가능성에 대한 주의가 필요하다.
검출된 변이는 variant call format(VCF) 형식의 파일로 저장이 된다(https://samtools.github.io/hts-specs/VCFv4.3.pdf). VCF에는 변이가 존재하는 염색체(CHROM), 유전체 위치(POS), 해당 위치에서 표준유전체의 염기서열(REF), 샘플에서 관찰된 변이의 서열(ALT), 품질 지수(QUAL), 필터링 기준 충족 여부(FILTER), 추가 정보(INFO) 등이 있다. VCF 파일은 텍스트 파일 형식으로 되어 있으며 파일 크기를 줄이기 위하여 바이너리(binary) 형식으로 전환한 BCF2 형식도 분석에 사용될 수 있다.
유전 변이는 크게 생식세포(germ-line) 및 체세포(somatic) 변이로 나뉠 수 있다. 생식세포 편이는 보통 부모로부터 물려받는 변이로서 한 사람의 모든 세포는 같은 변이를 가진다. 인간의 유전체에서는 보통 아버지와 어머니에게서 각각 물려받은 2개의 유전자를 가지고 있고 이것을 대립유전자(allele)이라 부른다. 생식세포 변이는 2개의 대립유전자 중 하나(이형접합자, heterozygote) 혹은 2개 모두(동형접합자, homozygote)에서 변이가 관찰될 수 있기 때문에 전체 시퀀싱 리드의 약 50% 혹은 100%로 변이가 관찰된다.
체세포 변이는 한 사람의 모든 조직에서 변이가 관찰되지 않고 일부 조직 혹은 일부 세포에서만 변이가 관찰되는 것으로서, 후천적으로 발생하는 경우가 많으며 암 돌연변이가 대표적이다. 변이를 가진 세포의 비율이 다양하기 때문에 NGS 분석을 하면 변이의 비율이 50%/100%로 고정되지 않으며 다양한 비율로 관찰될 수 있다. 암 조직에서도 돌연변이를 가진 세포의 비율이 낮은 경우가 많기 때문에 아주 낮은 비율의 돌연변이를 정확하게 검출할 수 있는 방법의 개발이 활발히 진행되고 있다.
1) 점 돌연변이single nucleotide variation, SNV 검출
Genome Analysis Toolkit(GATK)
점 돌연변이 검출의 대표적인 알고리즘으로 미국 Broad 연구소에서 개발한 Genome Analysis Toolkit (GATK)이 있다. 여기에는 생식세포 변이 검출에 최적화된 GATK-HaplotypeCaller 및 체세포 변이 검출에 최적화된 GATK-Mutect 모듈이 있으며, 변이 검출 이전에 BAM 파일 데이터에 전처리(pre-processing)를 하는 다양한 모듈이 포함되어 있다.
전처리 중 Mark Duplicates 과정은 Picard 알고리즘을 이용하여 PCR 증폭 과정에서 발생하는 중복된 시퀀싱 리드(duplicate read)를 표시하여 제거하는 과정이다. Base Quality Score Recalibration(BQSR) 과정은 NGS 장비에서 계산한 각 염기의 품질 점수를 다시 재조정하는 과정을 의미한다. NGS 장비의 고유한 특성에 의한 오류(systematic error)에 의해 과다하게 높게 측정되거나(over-estimated) 낮게 측정된(under-estimated) 품질 점수를 기계학습 방법을 이용하여 조정함으로써 정확하고 균일한 염기 품질 점수를 제공한다.
검출된 각 변이는 Variant Quality Score Recalibration(VQSR) 과정을 거쳐 품질 점수를 기계학습 방법으로 예측하는 과정을 거친다. 이를 위해 1000 Genomes Project나 HapMap Project 등의 공개 데이터베이스에 포함된 알려진 변이를 진양성(true positive) 데이터로 간주하여 그 변이들의 특징을 기계학습 방법으로 학습한 모델을 이용하여 분석 자료에 포함된 모든 변이에 대해 품질 점수를 예측한다. 이러한 과정을 통하여 계산된 VQSR 점수를 기반으로 품질이 좋지 않은 변이를 제거할 수 있다(https://console.cloud.google.com/storage/browser/genomics-public-data/resources/broad/hg38/v0)
체세포 점 돌연변이 검출에는 GATK-Mutect 모듈이 이용되며, 암 조직의 돌연변이를 검사할 때 같은 환자의 정상 조직(matched control)의 NGS 데이터가 있으면 이를 함께 비교하는 옵션이 있다. 이를 사용할 경우 변이 검출의 정확도를 올릴 수 있다.
SAMtools
SAMtools 프로그램은 SAM/BAM 파일을 가공하고 결과를 보여주며 원하는 데이터를 추출하는 등 다양한 기능을 가지고 있다. 이 중 mpileup 모듈을 활용하면 BAM/SAM 파일에서 변이를 추출할 수 있다.
출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서
'[분자생물학] NGS' 카테고리의 다른 글
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (8) (0) | 2022.08.09 |
---|---|
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (7) (0) | 2022.08.09 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (5) (0) | 2022.08.09 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (4) (0) | 2022.08.09 |
NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (3) (0) | 2022.08.09 |