본문 바로가기

반응형

📄 연구

(4)
기초 통계(2) 평균(mean), 분산(variance), 공분산(Covariance) 수집한 데이터로 계산을 수행하여 얻은 값을 '통계량'이라고 하고, 이러한 통계량을 통해 대상을 이해하는 과정이 데이터 분석이다. 데이터에서 몇 가지 통계량을 계산하여 요약하면, 데이터가 어떻게 형성되어 있는지 특징짓는 일이 가능해지는데, 이를 기술 통계량 또는 요약 통계량이라고 한다. * 대표적인 기술통계량 대표값(위치 파악) 데이터의 퍼짐 정도(형태 파악) 평균값(mean), 중앙값(median), 최빈값(mode) 분산(variance), 표준편차(standard deviation) - 변수는 확률분포를 가지는데, 이때 확률분포의 위치와 형태를 파악하는것이 중요하다. 위치와 형태를 결정하는 것이 평균, 분산, 공분산이다. 01. 평균(mean) 1-1. 이산변수의 평균 표본 크기 n인 양적 변수 표본..
기초 통계(1) 확률 변수(Random variable), 확률 분포(Probability Distribution), 정규분포(Normal Distribution), 표준정규분포(Standard Normal Distribution) 01. 변수 - 그 값이 무작위 시행 (random experiment)에 의해 결정되는 것 - 하나의 숫자를 무작위 시행의 각 결과에 할당(assign)하는 함수 - 표본공간에서 실수로의 함수 - 변수가 특정한 값을 취하는 것 = 하나의 사건 - 데이터 중, 공통의 측정 방법으로 얻은 같은 성질의 값 - 통계학에서 변수의 개수는 '차원'이라 표현되기도 함. *서로 독립인 두 사건 P(A∩B)=P(A)P(B) 또는 P(A│B)=P(A) * 독립인 두 변수 P(X=x, Y=y) = P(X=x)P(Y=y) P(X=x|Y=y) = P(X=x) 02. 변수의 종류 변수의 종류에 따라 확률을 계산하는 방법이 다르기 때문에 이를 구분하는 것이 필요. 2-1. 이산 변수 : 셀 수 있는 변수 (finite varia..
[통계] 사전 확률 (Prior Probability) / 가능도(Likelihood) / 사후 분포(Posterior Distribution) 사전확률(Prior Probability) - 새로운 정보나 데이터를 얻기 전에, 어떤 가설이나 사건에 대해 갖고 있는 초기 믿음 - ex) 코로나에 걸릴 확률이 20%라고 가정했을 때 20%가 그 병에 대한 사전 확률. 아직 어떠한 검사 결과도 보지 않았을 때 그 병에 걸렸을 것이라고 믿는 초기 확률값 가능도(Likelihood) - 주어진 데이터가 특정 가설이나 파라미터값에 대해 얼마나 '잘 맞는지'를 나타낸값 - 사전 확률과는 다르게, 새로운 데이터를 바탕으로 계산됨 - ex) 병원에서 코로나 검사를 받았고 결과가 양성이 나왔다고 했을 때, 이 검사 결과가 처음에 생각했던 그 병을 실제로 가지고 있을 '가능성'을 얼마나 높이는지. 즉, 양성 결과가 나올 확률을 가능도(likelihood)라고 할 수..
[코호트] * 코호트 - 특정 기간안에 하나 이상의 포함 기준에 속하는 사람의 집단 - '표현형(phenotype)'이라고도 함 *OHDSI에서의 코호트 정의 방식 - 한 사람은 여러개의 코호트에 속할 수도 있다. - 한 사람이 동일한 코호트에 여러 다른 기간에 걸쳐 속할 수도 있다. - 한 사람이 같은 기간에 동일한 코호트에 여러번 속하지 않을 수도 있다. - 코호트에는 0명 혹은 그 이상의 구성원을 가질 수도 있다. ex) 고혈압 치료 약물인 ACE inhibitor를 복용하기 시작한 사람 중에서 혈관성 부종이 일어날 위험을 예측하기 위한 연구. -> target cohort : ACE inhibitor를 복용하기 시작한 사람 -> outcome cohort : 혈관성 부종이 발생한 사람 * 규칙 기반 코호트(..

반응형