비전공자 데이터분석 노트

📄 연구 Self-Controlled Case Series (SCCS) Design 0. 코호트 연구 vs 환자-대조군 연구 * 코호트 연구 (Cohort Study)- 특정 노출 요인(exposure)에 따라 연구 대상을 두 그룹 (intervention group과 control group)으로 나누고, 시간 경과에 따라 결과 변수(Outcome)가 발생하는지 관찰하는 연구 설계- 노출이 고정된 상태에서, Outcome발생이 시간 경과에 따라 발생 (랜덤)- 로지스틱 모형, 포아송 모형, 콕스비례위험 모형 적용 * 환자-대조군 연구(Case-Control Study) - 특정 결과 변수(Outcome)가 이미 발생한 집단(Case)과 발생하지 않은 집단(Control)을 비교하여, 과거에 어떤 노출 요인(exposure)이 있었는지 후향적으로 조사하는 연구 설계- 로지스틱 회귀 ..
📄 연구 Observational Study 1. Randomized Controlled Trial (RCT)1-1. Randomized Controlled Trial (RCT)- 연구자가 피험자를 무작위로 치료군(Intervention group)과 대조군(Control group)으로 배정하여, 특정 Intervention(약물, 치료 등)이 Clinical outcome에 미치는 영향을 평가하는 연구 설계 방법이다. 1-2. RCT의 장점- 인과 관계 추론 가능 : 무작위 배정을 통해 교란 변수의 영향을 최소화하여, 노출(개입)이 outcome에 미치는 인과적 영향을 직접 평가 가능하다.- 연구자가 조건을 직접 통제하기 때문에 인과관계를 보다 명확하게 확인할 수 있다. 2. Observational Study (관찰 연구)2-1. 정의..
📄 연구 [논문 리뷰] Artificial intelligence-enhanced risk stratification of cancer theraputics-related cardiac dysfunction using electrocardiographic images 0. 논문 선정 이유- 현재 하고 있는 연구 중 하나가, 심전도(ECG) 데이터를 활용하여 LVEF를 예측하는 인공지능 모델을 개발하는 것인데, 모델 개발은 마무리되었고, 이를 어떻게 실제 임상 현장에 (구체적으로 어떤 환경/환자/상황 등에) 적용할 수 있을지 고민을 하고 있는 중이다. 따라서 해당 논문을 읽으며 추후 방향성에 대한 힌트를 얻을 수 있을 것으로 기대되어 선정하게 되었다. - 해당 논문의 내용을 이해하기 위해서는 기본적인 의학 개념에 대한 이해가 필요할듯! (본문 1-2 ~ 1-4 참고) 1.Introduction1-1. Cancer Therapeutic-Related Cardiac Dysfunction (CTRCD) - 몇몇의 암 & 종양 관련 치료법들은 장기적으로 봤을때 심혈관계에 안..
🩺 의학 [의학] 임상 의학용어(Cardiovascular disease 위주) # natural course : 자연 경과특정 현상이나 질병이 외부 개입(치료 등) 없이 시간이 지남에 따라 어떻게 변화하는지, 증상이 어떻게 발전하는지 등을 의미함. # S/P (Status Post)환자가 어떤 특정한 의료 절차나 수술을 받은 후의 상태ex) S/P graft replacement of AA and bi-iliac artery : 상행 대동맥과 양쪽 장골 동맥 이식 수술을 받은 후의 상태를 의미 # R/O (Rule Out)의학용어로써의 r/o는 ~가 의심됨 ~의 가능성이 있으므로 추가적인 검사가 필요함을 의미한다.ex) 'r/o myocardial infarction' : 심근경색이 의심됨 # Normal Heart Anatomy # Left Ventricle Eject..
python Colormaps in Matplotlib (파이썬을 이용한 시각화, 그래프 컬러맵, 맷플롯립 팔레트 명)
🛠머신러닝 선형 회귀 모델의 설명력과 통계적 유의성을 판단하는 기준 1. 선형 회귀 모델의 설명력 1-1. R^2 선형 회귀 모델의 설명력은 R^2으로 평가하며, R^2은 다음과 같이 나타낼 수 있다. R^2 = 1 - (SSR / SST) = (SSE / SST) R^2은 종속변수(y)의 전체 분산(variation)중에서, 모형에 의해 설명되는 정도를 의미하며, 0~1 사이의 값을 가진다. R^2가 1에 가까운 값이 될수록 해당 선형 회귀 모델의 설명력이 좋다는 의미이다.(모델이 데이터의 변동을 잘 설명하고 있다는 것을 의미함) 1) SST (Total Sum of Squares) - 샘플 데이터에 존재하는 종속변수(y)의 전체 흩어진 정도 - 전체 데이터의 변동성 - 모든 데이터 포인트가 데이터의 평균에서 얼마나 멀리 떨어져 있는가 - (모델없이) y가 얼마나 퍼져..
🛠머신러닝 선형회귀(Linear Regression) 밑바닥부터 이해하기 0. 선형회귀 '파라미터'와 '종속변수'가 선형 관계인 모형을 선형회귀(Linear Regression) 모형이라고 한다. * 파라미터의 의미 예시) population model : 연봉 = b0 + b1교육정도 + u E(연봉|교육정도) = b0 + b1교육정도 (교육정도에 따른 연봉의 평균값) 이때, b0 = 1, b1 = 0.5, 교육정도 = 10이라고 가정 E(연봉|교육정도) = 1 + 0.5*10 = 6 해석) 교육정도가 10인 사람들의 평균연봉이 6이다. (즉, 교육정도가 10인 사람들은 평균적으로 6을 번다.) (주의, 교육정도가 10인 모든 사람들의 연봉이 6이라는 의미가 아님) * 다음 중, 선형회귀 모형이 아닌 것은? 1. y = b0 + b1X1 + b2X2 2. y = b0 + b..
📄 연구 기초 통계(2) 평균(mean), 분산(variance), 공분산(Covariance) 수집한 데이터로 계산을 수행하여 얻은 값을 '통계량'이라고 하고, 이러한 통계량을 통해 대상을 이해하는 과정이 데이터 분석이다. 데이터에서 몇 가지 통계량을 계산하여 요약하면, 데이터가 어떻게 형성되어 있는지 특징짓는 일이 가능해지는데, 이를 기술 통계량 또는 요약 통계량이라고 한다. * 대표적인 기술통계량 대표값(위치 파악) 데이터의 퍼짐 정도(형태 파악) 평균값(mean), 중앙값(median), 최빈값(mode) 분산(variance), 표준편차(standard deviation) - 변수는 확률분포를 가지는데, 이때 확률분포의 위치와 형태를 파악하는것이 중요하다. 위치와 형태를 결정하는 것이 평균, 분산, 공분산이다. 01. 평균(mean) 1-1. 이산변수의 평균 표본 크기 n인 양적 변수 표본..
📄 연구 기초 통계(1) 확률 변수(Random variable), 확률 분포(Probability Distribution), 정규분포(Normal Distribution), 표준정규분포(Standard Normal Distribution) 01. 변수 - 그 값이 무작위 시행 (random experiment)에 의해 결정되는 것 - 하나의 숫자를 무작위 시행의 각 결과에 할당(assign)하는 함수 - 표본공간에서 실수로의 함수 - 변수가 특정한 값을 취하는 것 = 하나의 사건 - 데이터 중, 공통의 측정 방법으로 얻은 같은 성질의 값 - 통계학에서 변수의 개수는 '차원'이라 표현되기도 함. *서로 독립인 두 사건 P(A∩B)=P(A)P(B) 또는 P(A│B)=P(A) * 독립인 두 변수 P(X=x, Y=y) = P(X=x)P(Y=y) P(X=x|Y=y) = P(X=x) 02. 변수의 종류 변수의 종류에 따라 확률을 계산하는 방법이 다르기 때문에 이를 구분하는 것이 필요. 2-1. 이산 변수 : 셀 수 있는 변수 (finite varia..
📄 연구 [통계] 사전 확률 (Prior Probability) / 가능도(Likelihood) / 사후 분포(Posterior Distribution) 사전확률(Prior Probability) - 새로운 정보나 데이터를 얻기 전에, 어떤 가설이나 사건에 대해 갖고 있는 초기 믿음 - ex) 코로나에 걸릴 확률이 20%라고 가정했을 때 20%가 그 병에 대한 사전 확률. 아직 어떠한 검사 결과도 보지 않았을 때 그 병에 걸렸을 것이라고 믿는 초기 확률값 가능도(Likelihood) - 주어진 데이터가 특정 가설이나 파라미터값에 대해 얼마나 '잘 맞는지'를 나타낸값 - 사전 확률과는 다르게, 새로운 데이터를 바탕으로 계산됨 - ex) 병원에서 코로나 검사를 받았고 결과가 양성이 나왔다고 했을 때, 이 검사 결과가 처음에 생각했던 그 병을 실제로 가지고 있을 '가능성'을 얼마나 높이는지. 즉, 양성 결과가 나올 확률을 가능도(likelihood)라고 할 수..

티스토리툴바