🩺 의학

[유전체 분석] 2. RNA-sequencing

빅데희터 2023. 10. 29. 23:28
반응형

01. RNA-sequencing

- NGS기술로 샘플에서 발현되는 RNA 서열을 시퀀싱

- RNA-seq를 통해 어떤 유전자가 활성화되어 있고, 많이 전사되는지 알 수 있음

 

 

 

02. Mutation(돌연변이)

 

1) Passenger mutation 

- mutation의 대부분은 passenger mutation

- mutation이 있어도 positive selection이 안 됨

- 세포가 증식하는데 아무 도움이 안됨

 

2) Driver mutation

- 일부만 driver mutation

- 실제 암세포를 증식시키는 역할

- 암의 phenotype(표현형, 기능적 형질)을 결정짓는 mutation

- 이 driver mutation이 신체의 어느 부위에 생겼냐에 따라서 암의 이름이 달라지는 것

 

*mutation을 찾았을 때, 어떻게 driver mutation을 찾아낼 수 있을까?

방법 1) Recurrence

방법 2) Cluster

방법 3) Functional impact

방법 4) Nucleotide context

 

 

 

 

03. RNA-seq count data의 특징

 

1) 높은 빈도의 리드 카운트를 가지는 유전자들은 (왼쪽) 그래프에서 오른쪽 꼬리를 길게 형성하고 있으며, 낮은 빈도의 리드 카운트를 가진 유전자들이 많은 비중을 차지하고 있다.

2) 리드 카운트는 정수형태를 띠고 있으며, 정규 분포를 만족시키지 않는다.

3) 분산이 평균보다 훨씬 높기 때문에 포아송 분포를 사용하지 못하고, 'Negative binomial distribution'을 사용

 

 

 

 

04. RNA seq 분석 시 보정

1) Sequencing depth(라이브러리 사이즈)

- 리드가 단순히 많아서 생기는 variance를 보정해 주는 것

2) gene length

3) RNA composition

 

 

 

05. Normalization method

리드 카운트가 int값(정수 형태)이므로, Normalization 필요

 

1) Median of ratios

- sequencing depth와 RNA composition을 Nomalize 하기 위함

- 가정 : '대부분의 유전자들은 컨디션 간의 발현 차이가 없고, 일부만 다르게 발현된다. 따라서 depth가 비슷하다면 read count 컨디션은 샘플 간에 비슷하게 나와야 한다.'

- geometric mean으로 pseudo-reference sample 만듦

 

2) TMM

-  가정: '대부분의 유전자들은 다르게 발현되지 않는다. 따라서 리드카운트는 샘플 간에 비슷하게 나올 것이다.'(Median of ratios와 가정이 같음)

- M-value의 Mean을 trim 된 것을 사용

- 하나의 샘플을 레퍼런스로 만들고, 그것 대비 나머지 샘플들의 리드카운트와 비교해서 Normalization factor를 계산

 

 

 

06. Distribution of P-values obtained from multiple differential expression tests

- 실제로 의미 있는 gene이 있으면, 왼쪽 끝에 피크값이 나옴

- 모든 유전자가 유의미한 경우, p-value가 0.05보다 적게 나옴

 

 

 

- 모든 유전자에서 두 컨디션 간 차이가 없을 경우, p-value 분포를 그렸을 때 평평하게 표현될 것

 

 

 

 

07. Gene set 분석

- 두 컨디션 간의 차이가 있는 유전자를 찾았을 때, 그 유전자가 어떤 기능을 하는 gene인지 분석하는 단계

 

 

 

 

08. Recent advances in genomics(요즘 트렌드)

- Single cell analysis

: 각 세포별로(single cell level에서, DNA-mutation / gene expression을 보는 게 요즘 유행!)

- Spatial transcriptomics

- Long-read sequencing

- Single cell multi-omics

 

 

 

https://www.youtube.com/watch?v=tlf6wYJrwKY

반응형