본문 바로가기

반응형

🛠머신러닝

(19)
군집분석 평가 지표 - 실루엣 분석(Silhouette analysis), 실루엣 계수 높이는 방법 01. 군집 분석(Clustering analysis) 군집분석은 목표 변수(Y)가 없는 비지도 학습(unsupervised learning) 기법으로, 데이터를 구성하고 있는 객체들을 몇 개의 그룹(cluster)으로 구분하여 각 그룹들의 특성을 찾는 탐색적 분석 과정(Exploratory data analysis)이다. 이러한 클러스터링 기법을 활용하여 EDA를 시행하면 대용량 데이터에서 복잡한 관계를 이해하는 데에 도움이 되며, 고객 특성을 분류해서 고객 맞춤형 상품을 추천할 때, 패턴인식, 음성인식 등에 많이 활용된다. 하지만 비지도 학습의 특성상, 정답이 정해져 있지 않기 때문에 전체 관측치를 총 몇 개의 군집으로 구분할 것인지 또는 군집이 잘 형성되었는가에 대한 기준이 모호하다. 이에 대해서 ..
[인과추론의 데이터과학] 1. Potential Outcomes Framework 01. Causlity : 인과관계 '인과관계'는 일반적으로 어떤 사실과 다른 사실 사이의 원인과 결과 관계를 의미한다. 어떠한 원인이 있고, 항상 그에 따라 어떤 결과가 발생되는 것이 반복된다면 이는 인과관계가 있다고 할 수 있다. 인과관계를 추론하기 위해서는 단순히 우리 머릿속에 있는 추상적/관념적 연결고리가 아닌, 모든 사람들이 동일하게 방식으로 이해하고 과학적 방법으로 검증할 수 있는 수단이 필요하다. 따라서 모든 사람들이 공통의 이해를 가지고 공통의 방법론을 통해 평가하며 체계적으로 인과관계를 추론할 수 있는 프레임워크가 필요하다. 02. Framework 인과관계와 관련해 다양한 프레임워크가 있는데 대표적으로 Logic / Theory - Oriented 와 Data / Evidence - O..
[머신러닝] 모델링 과정 (sklearn/ trainning set & test set / Pipeline / GridSearchCV / model.fit / best_estimator_ / Y_train_pred / Y_test_pred /classification_report ) 01. X(설명 변수)와 Y(목표 변수) 설정 Y = df[' '] X = df[' '] 먼저 전체 데이터에서 목표 변수(Y)와 설명 변수(X)를 설정하여 나눈다. 02. Trainning set(학습 데이터) & Validation set(검증 데이터)으로 분할 X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size = 0.3, random_state =1234) X와 Y로 나눈 데이터를 train_test_split( )을 이용하여 train set과 test set으로 분할한다. train_test_split( )의 파라미터들을 살펴보자. test_size는 '전체 데이터에서 테스트 데이터 세트의 크기를 얼마로 샘플링할 것인가?'를 의..
[머신러닝] 모델 성능 평가 지표 (회귀모델, 분류모델) 1. 모델 성능 평가 - 모델 성능평가란, 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이(오차)를 구하는 것 - (실제값-예측값) =0 이 되면 오차가 없는 것으로, 모델이 값을 100% 잘 맞췄다고 생각하면 된다. - 하지만 예측 값이 실제값과 100% 일치하는 것은 현실적으로 힘들기 때문에, 오차를 구해서 어느 정도까지 오차를 허용할지 결정하게 된다. - 모델 평가를 하는 목적은 과적합(Overfitting) 방지하고 최적의 모델 찾기 위해 실시한다. - 모델 성능 평가는 결과변수(답안지)가 있어야 잘한 건지 아닌지 확인할 수 있기 때문에 지도학습에서만 사용할 수 있다. - 모델링의 목적 또는 목표 변수의 유형에 따라 다른 평가지표를 사용한다. - Training과 Validation값이 ..
[머신러닝] 캐글(kaggle)예제 - 위스콘신 유방암 예측 데이터 분석 (Wisconsin Diagnostic breast cancer dataset) / 데이터 다운 위스콘신 유방암 데이터 세트는 종양의 크기, 모양 등의 다양한 속성 값을 기반으로 해당 종양이 악성(malignmant)인지 양성 (benign)인지를 분류한 데이터 세트이다. 이 데이터 세트를 앙상블(투표, 배깅, 부스팅) 기법을 이용하여 분석하고자 한다. 1️⃣ 기본 패키지 설정 ## 1.기본 import numpy as np # numpy 패키지 가져오기 import matplotlib.pyplot as plt # 시각화 패키지 가져오기 ## 2.데이터 가져오기 import pandas as pd # csv -> dataframe으로 전환 from sklearn import datasets # python 저장 데이터 가져오기 # 4. 훈련/검증용 데이터 분리 from sklearn.model_se..

반응형