본문 바로가기
  • Believe in yourself
[분자생물학] NGS

NGS(Next Generation Sequencing) 기반 유전자 검사의 이해 - 심화용 (15)

by 다롱OI 2022. 8. 10.

| 2 | 블록체인Blockchain을 이용한 데이터 관리

 

블록체인(Blockchain)이란 데이터 분산 처리기술로서 네트워크에 참여하는 모든 사용자가 모든 거래 내역 등의 데이터를 분산, 저장하는 기술을 지칭하는 것이다. 블록체인에서 블록(block)은 개인과 개인의 거래의 데이터가 기록되는 장부가 되고 이런 블록 들은 형성된 후 시간의 흐름에 따라 순차적으로 연결된 사슬(체인)의 구조를 가지게 된다. 이것은 모든 사용자가 거래 내역을 보유하고 있어 거래 내역을 확인할 때는 모든 사용자가 보유한 장부를 대조하고 확인해야 하는 개념이기 때문에 이것을공공 거래장부혹은분산 거래장부로도 부른다.

블록체인의 핵심 개념은 탈중심화(decentralization), 변조불가(immutability), 보안(security)이 포함된다. 기존의 거래에서는 중앙의 한 기관에서 모든 거래를 관리하고 기록하고 통제하는 시스템이었다면 블록체인은 여러 개인이 모두 주체가 되어 거래를 공증하는 방식이라 하겠다. 여기에는 비대칭암호(asymmetric encryption), 동형암호(homomorphic encryption) 등 다양한 방식의 암호화 기술이 사용되고 있다.

그림 54. 기존 거래방식과 블록체인의 차이

유전체 영역에서의 블록체인 활용은 아직은 초기 단계이지만 여러 모델이 시도되고 있다. 대표적인 것으로 환자 혹은 정상인이 본인의 유전체 데이터를 가지고 있으면서 병원이나 연구자 혹은 제약업체 등에 사용권에 대한 허가를 주고 리워드(. 코인)를 받는 방식이다. 환자는 보통 NGS 결과의 VCF 파일을 가지고 있고 계약(contract)에 따라 정보의 일부 혹은 전부를 공개하는 방식이 제안되고 있다. 이것은 유전체 연구에 있어 긍정적인 측면이 있는데, 기존의 연구는 미리 고안된 연구에 따라 환자에게 연구 목적을 설명하고 동의서를 구해야 하며 이것을 기관윤리위원회(institutional review board, IRB) 등 관리 기관의 허가를 받아야 한다. 그러나 이러한 동의 과정이 형식적이고 관료주의적이 되는 경우가 많고 연구의 유연성을 떨어뜨리는 면이 있다. 블록체인은 본인이 매번 데이터를 공개할 때마다 동의하는 과정을 거치기 때문에 연구 동의 과정이 자유롭고 자발적이며 피험자 중심이 되는 장점이 있다. 또한 유전체 데이터의 크기가 커지면서 한 곳의 센터에서 유전체 데이터를 저장하는 것이 점점 힘들어 지고 있어 데이터 분산에 대한 요구도가 높아지고 있기 때문에 블록체인이 그 대안이 될 수도 있다.

그림 55. 유전체 공유와 관련된 블록체인 모델

 

현재 이더리움(Etherium) 기반의 블록체인이 유전체 공유 모델에서 많이 시도되고 있으며 인텔의 암호화 솔루션인 SGX(Software Guard Extension)도 많이 이용되고 있다. 실제로 Nebula Genomics에서는 자원자들에게 전장유전체 시퀀싱(whole genome sequencing)을 무료로 해주고 그 데이터를 블록체인 기반으로 시장을 만들려는 시도를 하고 있다. 피험자들과 데이터를 얻으려는 기관 사이에는 토큰(token) 기반의 거래가 된다. Genomes.io 라는 회사에서는 소비자들에게 유전체 데이터를 안전하게 저장하도록 제공해 주고 데이터를 원하는 구매자들에게 선택적으로 데이터 접근 권한을 주는 시스템을 개발하였다.

 

임상 진료 측면에서도 블록체인이 활용될 수 있는데, 환자가 고가의 NGS 검사를 한 후에 결과를 다른 병원에서 다시 확인한다든지 몇 년후에 재분석을 하는데 활용할 수 있다. 최근 NGS 영역에서 재분석(re-analysis)이 큰 이슈가 되고 있는데, 이것은 NGS 검사를 한 후에 음성 혹은 잘 알수없는 결과(variants of unknown significance, VOUS)가 나왔더라도 일정 시간이 흐른 후에 재분석을 하면 새롭게 양성 결과를 얻을 수 있는 경우가 있다는 것이다. 이것은 시간이 지날수록 새로운 유전자가 발견되고 돌연변이 데이터베이스(mutation database) 등에서 자료가 축적됨으로 인해 기존에 알수 없던 결과가 명확해지는 경우가 있기 때문이다. 환자는 CT MRI 결과를 CD에 담아서 다른 병원에 제출하는 것처럼 본인의 유전체 데이터를 블록체인화 하여 병원을 옮기거나 다른 의견(second opinion)을 듣고 싶을 때 그 데이터를 다른 병원에 제출할 수 있고 블록체인으로 개인정보를 보호 받을 수 있다.

 

유전체의 블록체인 이용의 다른 형태로는 각 사용자의 컴퓨팅 파워를 이용하는 방식이다. 비트코인(Bitcoin)의 네트워크는 슈퍼컴퓨터의 몇 천배 정도 되는 컴퓨팅 파워를 가지고 있다. 따라서 컴퓨터 리소스를 많이 차지하는 유전체 분석에 있어 용량이 큰 원 데이터(raw data)를 분할하여 블록체인화 하여 각 유저의 컴퓨터에 임무(job)를 할당하고 각 유저는 임무를 수행하고 코인 형태의 리워드를 받는 방식이다. 대표적인 회사로 Coinami 가 있고 이 회사에서는 완전히 탈중심화(decentralization)을 하지 않고 회사에서 몇 개의 시퀀싱 센터를 중간 레벨(mid-level)의 관리자로 할당하고 인증(certificate)을 주어 관리하는 방식이다. 이것은 고가의 시퀀싱 장비가 필요하고 고품질의 데이터를 생산해야 하며 데이터의 포맷이나 분석 알고리즘이 표준화되어야 하는 NGS의 특성 때문일 것이다.

그림 56. Coinami 사의 블록체인 NGS 분산컴퓨팅 모델

 

이외에 자율적 유전체 데이터 공유 프로젝트인 GA4GH, ELIXIR, TCGA, ICGC 등도 블록체인의 또다른 형태라고 볼수 있겠다. 특정 사안에 대해서 의견을 투표(voting) 형태로 통일된 의견(consensus)을 도출하는 것도 일종의 블록체인이라 볼 수 있겠다.

표 25. 유전체 관련 블록체인의 다양한 형태 및 모델

 

이처럼 블록체인이 유전체 데이터 분석, 관리 및 공유에 있어서 새로운 가능성을 제시해 주고 있지만 아직은 초기 단계이고 몇가지 문제점들이 있다. 우선 데이터의 보안성에 대한 검증이 아직은 확실히 되어 있지 않으며 실제로 몇몇 가상화폐 시스템은 해킹된 사례도 있기 때문에 우려 또한 존재하는 것이 사실이다. 또한 블록체인은 여러 거래(contract) 기록을 시간대 별로 기록해 놓는 방식이기 때문에 파일 용량이 커지는 문제가 있으며 유전체 데이터는 VCF 파일이라 하더라도 용량이 꽤 큰 편에 속하기 때문에 블록체인에 담아내기 무척 어렵다. 이러한 이유 때문에 CryptDist 등에서는 파일에 대한 링크(link) 만을 블록체인에 담는 방식을 사용하기도 한다. 그러나 이처럼 링크를 이용한 방식은 결국 보안에 취약해질 수 있는 문제가 있다. 개인정보보호의 문제도 있기 때문에 일부 블록체인에서는 암 조직의 체세포돌연변이(somatic mutation)만 공개하기도 한다.

 

이처럼 블록체인은 가능성과 한계점을 동시에 가진 플랫폼으로서 유전체 데이터 관리와 공유에 있어서 여러 시도가 되고 있다. 아직은 블록체인의 가상화폐 성격 때문에 공공적, 사적인 성격의 유전체 데이터와의 접점을 찾는데 고민이 계속되고 있지만 유전체 데이터의 공유와 활용이라는 측면에서 계속 관심을 가져야 할 것이다.

 

 

출처: 식품의약품안전처 식품의약품안전평가원 - 차세대염기서열분석 해설서