의사결정나무 (1) 썸네일형 리스트형 [머신러닝] 의사결정나무(Decision tree)- 3 : C4.5와 엔트로피(Entropy) 지수 활용사례, 계산 📌 C4.5 C4.5는 불순도 알고리즘으로 엔트로피(Entropy)를 사용한다. 엔트로피는 본래 열역학에 쓰이는 개념으로 '무질서한 정도'를 나타내는 지표로, 의사결정나무에서 지니지수와 비슷한 개념으로 사용된다. 따라서 지니지수와 마찬가지로 엔트로피 값이 작을수록 순수도가 높다고 해석하면 된다. (값이 작을수록 같은 특성을 가진 객체들로만 잘 분류했다는 의미) ➰ 엔트로피 (Entropy) 지니지수의 최댓값은 0.5였다면, 엔트로피 지수의 최대 값은 1이다. 위의 공식을 보면 알 수 있듯, 엔트로피는 로그(log)를 사용하여 계산한다. 그런데 왜 - log로 계산하는 것일까? 엔트로피는 정보이론에서 나왔는데, '정보 이론'은 정보량이 얼마나 많은지 계산하는 이론이다. 컴퓨터는 bit(0과 1)로 구성되어.. 이전 1 다음