머신러닝스터디 (2) 썸네일형 리스트형 [머신러닝] 의사결정나무(Decision tree) -2 : CART(Classification And Regression Trees)와 지니지수(Gini index) 활용사례, 계산 5. 재귀적 분할 의사결정 알고리즘 의사결정나무에서 중요하게 알아야 할 것은 1) '어떻게 나무를 키울것인가?' 2) '불필요한 것들을 어떻게 쳐낼 것인가?'이다. 그중, 재귀적 분할 의사결정나무 알고리즘은 1)'어떻게 나무를 키울 것인가?'에 대한 내용에 해당한다. 즉 나무를 만드는 과정으로, 그 방법에는 CART, C4.5, CHAID가 있다. 또한 앞에서 정리한 내용처럼 의사결정나무에서 나무를 만들 때는 불순도가 줄어드는 방향으로 가지를 형성해나가야 하기 때문에 '불순도 알고리즘'에 대한 내용을 같이 엮어서 알아두어야 한다. * 불순도 알고리즘 : 의사결정나무를 만들어나갈 때 클래스를 정확하게 구분해줄 수 있는 분류기준을 찾는 것이 중요하다. 즉, 이 데이터를 어떤 기준으로 분류했을때 동일한 객체들.. [머신러닝] 서포트 벡터 머신(Support Vector Machine) : 서포트 벡터의 의미 / 마진 / 초평면(결정경계) /하드마진/소프트 마진/ 커널(kernel) 트릭 1. 서포트 벡터 머신(Support Vector Machine) 서포트 벡터 머신은 분류, 회귀에 모두 사용할 수 있는 매우 강력한 모델로서, 특히 복잡한 분류 문제, 작거나 중간 크기의 데이터셋에 적합하다. 서포트 벡터 머신의 이론을 설명하기 위해 위의 그림을 예시로 들어보자. (왼쪽 그림) 좌표평면상에 존재하는 빨간색과 파란색 집단을 어떻게 하면 잘 나눌 수 있을까? 빨간색과 파란색을 나누는 분류 선은 무수히 많이 그릴 수 있지만 대표적으로 오른쪽 그림과 같이 1,2,3번의 직선이 있다고 가정해보자. 1,2,3번 직선 모두 두 집단을 잘 나눴다. 그렇다면 1,2,3번 중 어느 직선이 가장 두 집단을 잘 분류했다고 할 수 있을까? 그리고 잘 분류했다는것은 어떤 의미일까? 여기서 서포트 벡터 머신의 개.. 이전 1 다음