본문 바로가기
  • Believe in yourself
[분자생물학] NGS

NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (5)

by 다롱OI 2022. 8. 9.

2) NGS 데이터 정도관리를 위한 프로그램

. FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)

FastQC 프로그램은 NGS 결과 생성된 FASTQ, SAM 또는 BAM 파일을 입력하여 시퀀싱 품질을 평가하는 기능을 제공하는 소프트웨어로 여러 품질 지표를 그래프로 보여준다. 주요 활용되는 지표로 per base sequence quality, per tile sequence quality, per sequence quality scores, per base sequence content 등이 있다.(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/).

 

Per base sequence quality

일반적으로 NGS 기술의 한계로 시퀀싱을 계속하다 보면 시퀀싱 리드(read) 마지막 부분으로 갈수록 시퀀싱 품질 지표가 떨어진다. 품질이 우수한 NGS 결과는 시퀀싱 리드의 위치에 상관없이 품질지표가 일정하게 높은 반면, 품질이 좋지 않은 NGS 결과는 시퀀싱 리드의 끝 부분으로 갈수록 품질지표가 크게 떨어지는 것을 볼 수 있다.

그림 20. FastQC를 이용한 정도관리 예. 품질이 우수한(좌) 결과 및 좋지 않은 결과(우)

 

Per base sequence content

품질이 우수한 NGS 결과는 시퀀싱 리드(read)의 위치에 상관없이 A, T, G, C의 비율이 일정하게 유지되는 반면, 품질이 좋지 않은 NGS 결과는 시퀀싱 리드의 위치에 따라 A, T, G, C의 비율이 변하는 것을 볼 수 있다.

그림 21. 각 염기 비율의 예. 품질이 우수한(좌) 결과 및 좋지 않은 결과(우)

 

. NGS QC Toolkit (http://14.139.61.3:8080/ngsqctoolkit/)

NGS QC Toolkit 프로그램은 FastQC 프로그램과 마찬가지로 NGS 초기 데이터의 품질 정보를 보여 준다. 이 프로그램은 QC tools, formatter-converter tools, trimming tools, statistics tools 등을 제공하며, QC tools statistics tools에 포함된 프로그램은 FastQC와 유사하게 다양한 시퀀싱 품질 지표를 그래프로 보여준다. Trimming tools는 시퀀싱 리드 끝 부위의 품질이 떨어지는 것을 확인하게 되면 각 read의 끝 부분을 일괄적으로 제거를 하여 품질이 우수한 부위만을 분석에 활용하게 된다.

 

. Trimmomatic (https://github.com/timflutre/trimmomatic)

FastQC를 통해 시퀀싱 리드의 끝 부위의 품질이 떨어지는 것을 확인하게 되면, 각 시퀀싱 리드의 끝 부분을 일괄적으로 제거(trimming)하여 품질이 우수한 부위만을 분석에 활용하게 된다. 이 때 사용할 수 있는 프로그램이 Trimmomatic이며, paired end 또는 single end 시퀀싱 결과인 FASTQ 파일을 입력으로 받는다.

 

 

| 2 | 매핑 Mapping / 정렬 alignment

 

1) 매핑(Mapping)의 정의

시퀀싱 결과 생성된 FASTQ 파일은 매우 많은 짧은 리드(read)로 구성되어 있다. 이러한 시퀀싱 리드들은 분석 대상 DNA 조각의 염기서열 정보를 나타내지만 어떤 염색체 어느 위치에 있는 DNA 인지에 대한 정보는 담고 있지 않다. 따라서, 표준 유전체(reference genome)에서 위치를 찾아주는 작업이 필요하며 이를 매핑(mapping) 혹은 정렬(alignment)라고 부른다.

인간의 표준 유전체는 Genome Reference Consortium(GRC)에서 공개한 유전체 염기서열이 널리 쓰이고 있다. 인간 표준 유전체는 2009 hg19(GRCh37) 버전이 공개된 후에 이의 약점을 보완하고 개선된 hg38(GRCh38) 버전이 2013년 공개되였다. 그러나 지난 10년간 많은 유전체 연구들이 hg19 버전을 기반으로 결과를 발표하였기 때문에 아직은 hg19 버전이 표준으로 더 널리 쓰이고 있는 상황이다.

표 7. 인간 표준유전체의 버전

 

장비에서 생성된 원데이터(raw data) FASTQ 파일에 매핑이 완료되면 각 시퀀싱 리드 별로 표준유전체에서의 염색체 번호 및 위치가 기록된다. 이를 SAM(sequence alignment map) 파일이라 부르며 이것은 용량이 크기 때문에 압축된 파일을 보통 사용하며 이것을 BAM(binary alignment map) 파일이라 부른다. SAM 혹은 BAM 파일에는 유전체 위치뿐 아니라 매핑의 정확도를 나타내는 점수(mapping quality, MAPQ), 시퀀싱 리드에서 표준유전체 서열과 다른 염기를 표시해주는 정보(CIGAR string), paired-end 시퀀싱에서 같은 가닥의 반대편 시퀀싱 리드(mate)의 정보 등이 기록된다.

그림 22. BAM 파일 예시

 

표 8. BAM 파일 각 열의 정의

 

그림 23. BAM 파일의 CIGAR 문자 예시

 

표 9. BAM 파일의  CIGAR 문자 정의

 

2) Mapping 프로그램

. BWA (http://bio-bwa.sourceforge.net/)

Burrows-Wheeler Aligner(BWA) 알고리즘은 인간 유전체 매핑에 가장 많이 활용되는 알고리즘 중 하나이며, BWA-ALN, BWA-SW BWA-MEM 등의 다른 버전이 있다. BWA-MEM 70 bp 정도 되는 짧은 길이에서부터 1 Mb에 이르는 긴 길이의 시퀀싱 리드까지 빠르고 정확하게 매핑이 가능한 것으로 알려져 있다.

 

. Novoalign (http://www.novocraft.com/products/novoalign/)

Novoalign 알고리즘은 BWA-MEM과 비교하여 분석 시간은 더 많이 소요되나 정확도는 비교적 우수한 것으로 알려져 있다.

 

 

출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서