🩺 의학

[유전체 분석] 1. Next Generation Sequencing (NGS)

빅데희터 2023. 10. 29. 19:02
반응형

01. 생물정보학 주요 분야

1) 유전체학(Genomics)

- 개체의 전체 유전 정보 연구

- DNA염기 서열 및 유전자 발현을 분석하여 유전자의 기능과 조절 연구

2) 단백체학(Proteomics)

- 전체 단백질의 조성 / 기능 / 단백질 간의 상호작용, 단백질의 조절 연구

3) 시스템생물학(Systems biology)

- 생물학적 시스템을 전체적으로 이해

- 여러 생물학적 구성 요소간의 상호작용 및 네트워크 연구

4) 구조생물학(Structural biology)

- 단백질간의 구조 (ex. 어떤 부분 / 구조에서 상호작용되는지 보는 것)

5) 진화생물학(Evolutionary biology)

- 생물 다양성과 진화 과정을 연구하여 생물의 종류와 형태의 변화를 이해하고 설명

 

 

 

 


02. Next Generation Sequencing (NGS)

 

< Short-read sequencing >

1) First Generation

- 한 번에 하나의 시퀀스를 읽음(one-by-one)

- Sanger sequencing(생어 시퀀싱)

- 500~1000bp fragments(500~1000개의 조각)

 

2) Second generaion

- Next Generation Sequencing

- 대량 & 동시에 병렬적으로 데이터를 생산해 내는 기술

- illumina sequencing(일루미나 시퀀싱)

- ~50- 500 bp fragments (50~500개의 조각)

 

< Long-read sequencing >

3) Third generation

- 유전자를 쪼개지 않고 통째로 시퀀싱

- 바로 서열을 결정

- Tens of kb fragments, on average

 

 

 


03. NGS workflow

1) Extraction(샘플 추출) 

- DNA or RNA 선택해서 샘플 추출

-  무엇을 분석할지 정하는 단계

- 즉, NGS를 어디에 적용할지 정하는 단계

2) Library prep

3) Sequencing

4) Analysis

 

 

 

3-1) Library prep(Library Preparation)

 

- DNA 또는 RNA 중, 무엇을 가지고 분석하고 싶은지 결정한 뒤, Library(라이브러리)를 만드는 작업

- DNA ploishing : Input DNA/RNA를 쪼갬 -> 쪼개고 나면, 보통 끝부분이 지저분하게 잘리기 때문에 끝부분을 다듬는 /복구하는 과정 진행

- Adaptor Ligation: adaptor 붙임

* p5 /p7 : flow cell에 binging 하는 adaptor

* Index1 /2 : 샘플의 바코드 역할 / normal과 암을 동시에 장비에 넣어서 샘플을 만들 때(비용을 아끼기 위해), 각 샘플이 어디에서 왔는지 알아보기 위함

* Rd 1/2 Sp : 실질적으로 리드가 읽히기 시작되는 부분 / DNA insert가 붙는 부분

 

- Size selection : 이렇게 만들어진 것들은 사이즈가 제각각일 텐데, 특정 범위에 있는 리드들만 가져옴 

 

 

 

3-2) Sequencing

- DNA에서 뉴클레오타이드의 순서인 염기서열을 결정하는 과정

*뉴클레오티드 염기 : 아데닌(A), 시토신(C), 구아닌(G), 티민(T)

- Sample loading onto a flow cell 

flow cell('판'이라고 생각하면 됨)에 샘플들을 올림. 총 8개의 채널이 있고, 한 채널당 만들 수 있는 데이터의 양이 정해져 있음. 한 채널에 여러 개의 심플을 올림(multiplexing기술)

- Sequencing DNA fragments

 

-> Bridge amplification for cluster generation : 동일한 리드에서 생성된 클러스터들이 생김. 각 클러스터마다 같은 시퀀스를 가짐. 이렇게 클러스터가 형성되어야 시그널을 조금 더 명확하게 읽어낼 수 있음(하나보다 여러 개가 뭉쳐있으면 더 신호가 커지니까) 

-> Sequencing by synthesis : 실제로 시퀀스를 읽는 작업. 합성해 나가면서 염기서열을 결정하는 것.

 

=> 이러한 과정을 통해 'fastq file'을 얻을 수 있다.

 

 

 

 

**fastq file

-fastq file에는 각각 어떤 염기 서열을 가지는지, 리드 identify를 가지는지 등을 알 수 있음

- 특히, Q-scores를 보면 얼마나 정확히 염기가 결정되어 있는지 (서열에 대한 퀄리티 정보)를 알 수 있음

- 예를 들어, Q30이면,  1 in 1000(1000개 중, 한 개의 에러가 나오는 수준)이라는 의미이며, 보통 Q30을 glodstandard로 설정함.

- Q-score에서 Q값이 높을수록 정확도가 높은 것

 

 

 

 

 


04. NGS data preprocessing workflow

 

이전의 과정에서 만들어진 fastq file을 이용하며, 어떻게 분석하는지에 대한 workflow.

fastq file(raw data)만 가지고는 한 번에 무언가를 알아내기 힘들기 때문에 추가로 위와 같은 작업을 거침.

 

 

4-1) Quality check (QC)

- Fastq file과 Read trimming(약간 거르고) 후, Fastq file을 비교해서 Quality check 해봄 (리드 서열들이 얼마나 깔끔하게 읽혔는지)

- fastqc(가장 대표적인 방법)

 

 

4-2) Trimming

- 퀄리티가 안 좋은 서열을 잘라버리는(거르는) 작업

- Trimming 하는 이유

1) 리드에 포함된 adaptor 시퀀스를 제거하기 위함

(만약 fragment의 길이가 우리가 읽어내는 read의 길이보다 짧으면, adapter 부분까지 쭉 넘어 포함해서 읽어버리게 됨. 따라서 이러한 경우 adapter 부분을 자르는 과정이 필요한 것)

2) 말단에서 퀄리티 낮은 부분들(Q20 이하)을 제거

 

 

4-3) Alignment

- Trimming을해서 깔끔한 fastq file을 얻고 난 후, 각 리드들이 어디에서 왔는지 알기 위해 이를 레퍼런스 genome에 맵핑(레퍼런스 시퀀스와 내가 추출한 fastq file을 대조해 보는 것)

- DNA와 RNA에서 alignment방법이 다름

-  fastq file을 Alignment 진행(레퍼런스 맵핑)하면 'BAM file'이 생성됨

 

 

 

4-4)  Variant Calling

- BAM file로부터 유전적 변이를 calling 하는 단계(변이를 찾는 단계)

- 이 과정으로부터 'VCF(variant calling file)'이 생성됨

- VCF에는 어떤 변이가 이 환자에게 있는지 총체적 정보가 담겨있으며, 어떤 calling프로그램을 썼는지에 따라서 출력 정보가 달라짐

 

 

 

** fastq file vs BAM file vs Variant calling file(VCF)

fastq file

 

BAM file

 

Variant Calling File(VCF)

 

 

 

4-5)  Variant Annotation(DNA-seq)

- 각 변이들을 annotation(이 변이가 질병과 관련해서 의미가 있는 것인지 분석)해주는 작업

 

 

 

반응형