본문 바로가기

반응형

🛠머신러닝

(19)
[머신러닝] 앙상블 - 투표(Majority Voting) / 배깅(Bagging)/ 랜덤포레스트(Random Forest) / 부스팅(Boosting) [〚머신러닝〛] - [머신러닝] 의사결정나무(Decision tree) -1 : 장단점, 활용분야, 구조, 분석절차, 과적합 [머신러닝] 의사결정나무(Decision tree) -1 : 장단점, 활용분야, 구조, 분석절차, 과적합 1. 의사결정나무(Decision tree)의 장단점과 활용 분야 의사결정나무는 머신러닝의 지도 학습에 해당되는 알고리즘 중 하나로, 의사결정 규칙(decision rule)을 나무 구조로 도표화하여 분류(Classification bigdaheta.tistory.com 의사결정나무(Decision tree)는 분석과정과 결과를 직관적으로 이해할 수 있기 때문에 설명력이 필요한 경우에 많이 쓰인다. 하지만 과적합 문제가 발생하여 정확도가 떨어질 ..
[머신러닝] 의사결정나무(Decision tree) -1 : 장단점, 활용분야, 구조, 분석절차, 과적합 1. 의사결정나무(Decision tree)의 장단점과 활용 분야 의사결정나무는 머신러닝의 지도 학습에 해당되는 알고리즘 중 하나로, 의사결정 규칙(decision rule)을 나무 구조로 도표화하여 분류(Classification)와 예측(Prediction)을 수행하는 분석 방법이다. 쉽게 말해서 스무고개를 그림으로 나타냈다고 생각하면 된다. 따라서 의사결정나무는 직관적으로 이해하기 쉽기 때문에 설명이 필요한 경우에 많이 사용한다. 예를 들어, 의료 분야에서 환자가 어떤 병에 걸렸을 때 이러이러한 조건에 부합하기 때문에 어떠한 질병이 의심된다고 설명을 해주거나, 은행에서 대출이 제한된 고객에게 이러한 이유들 때문에 대출이 제한되었다고 설명하는 경우 등에 사용할 수 있다. 하지만 의사결정나무의 가장 큰..
[머신러닝] 의사결정나무(Decision tree) -2 : CART(Classification And Regression Trees)와 지니지수(Gini index) 활용사례, 계산 5. 재귀적 분할 의사결정 알고리즘 의사결정나무에서 중요하게 알아야 할 것은 1) '어떻게 나무를 키울것인가?' 2) '불필요한 것들을 어떻게 쳐낼 것인가?'이다. 그중, 재귀적 분할 의사결정나무 알고리즘은 1)'어떻게 나무를 키울 것인가?'에 대한 내용에 해당한다. 즉 나무를 만드는 과정으로, 그 방법에는 CART, C4.5, CHAID가 있다. 또한 앞에서 정리한 내용처럼 의사결정나무에서 나무를 만들 때는 불순도가 줄어드는 방향으로 가지를 형성해나가야 하기 때문에 '불순도 알고리즘'에 대한 내용을 같이 엮어서 알아두어야 한다. * 불순도 알고리즘 : 의사결정나무를 만들어나갈 때 클래스를 정확하게 구분해줄 수 있는 분류기준을 찾는 것이 중요하다. 즉, 이 데이터를 어떤 기준으로 분류했을때 동일한 객체들..
[머신러닝] 의사결정나무(Decision tree)- 3 : C4.5와 엔트로피(Entropy) 지수 활용사례, 계산 📌 C4.5 C4.5는 불순도 알고리즘으로 엔트로피(Entropy)를 사용한다. 엔트로피는 본래 열역학에 쓰이는 개념으로 '무질서한 정도'를 나타내는 지표로, 의사결정나무에서 지니지수와 비슷한 개념으로 사용된다. 따라서 지니지수와 마찬가지로 엔트로피 값이 작을수록 순수도가 높다고 해석하면 된다. (값이 작을수록 같은 특성을 가진 객체들로만 잘 분류했다는 의미) ➰ 엔트로피 (Entropy) 지니지수의 최댓값은 0.5였다면, 엔트로피 지수의 최대 값은 1이다. 위의 공식을 보면 알 수 있듯, 엔트로피는 로그(log)를 사용하여 계산한다. 그런데 왜 - log로 계산하는 것일까? 엔트로피는 정보이론에서 나왔는데, '정보 이론'은 정보량이 얼마나 많은지 계산하는 이론이다. 컴퓨터는 bit(0과 1)로 구성되어..
[머신러닝] 서포트 벡터 머신(Support Vector Machine) : 서포트 벡터의 의미 / 마진 / 초평면(결정경계) /하드마진/소프트 마진/ 커널(kernel) 트릭 1. 서포트 벡터 머신(Support Vector Machine) 서포트 벡터 머신은 분류, 회귀에 모두 사용할 수 있는 매우 강력한 모델로서, 특히 복잡한 분류 문제, 작거나 중간 크기의 데이터셋에 적합하다. 서포트 벡터 머신의 이론을 설명하기 위해 위의 그림을 예시로 들어보자. (왼쪽 그림) 좌표평면상에 존재하는 빨간색과 파란색 집단을 어떻게 하면 잘 나눌 수 있을까? 빨간색과 파란색을 나누는 분류 선은 무수히 많이 그릴 수 있지만 대표적으로 오른쪽 그림과 같이 1,2,3번의 직선이 있다고 가정해보자. 1,2,3번 직선 모두 두 집단을 잘 나눴다. 그렇다면 1,2,3번 중 어느 직선이 가장 두 집단을 잘 분류했다고 할 수 있을까? 그리고 잘 분류했다는것은 어떤 의미일까? 여기서 서포트 벡터 머신의 개..

반응형