[ML] Decision Tree (μμ¬κ²°μ λ무)
π£πΎπΌπππππ π³ππΎπΎ
= λλ¬΄κ° λ€μ§ν λͺ¨μ
- μ μΌ κΌλκΈ°μ νλμ Root Node
- κ° κ°μ§λ€μ Branch(or Edge)
- μμμ΄ μλ Nodeλ Internal Node(or Decision Node)
- κ°μ₯ λμ μμμ΄ μλ Nodeλ Leaf Node(or Terminal Node, External Node)
ββ
π¦πΎππΎππΊππππ π π πππππππ
μ’μ νΈλ¦¬μ κΈ°μ€μ 무μμΌκΉ ?
- λͺ¨λΈμ μ νλλ νΈλ¦¬μ λμ΄κ° κΈ°μ€μ΄ λλ€
- νΈλ¦¬μ λμ΄λ μ΅λν μ§§μ κ² (λΉ λ₯Έ μν μλ)
- Leaf Nodeμμ ν΅μΌλ Labelμ λ°μ΄ν°λ§ λ¨λ κ² (λμ λΆλ₯ μ νλ, μμ¬κ²°μ μ νλ)
β
μ²μμ μ΄λ€ Featureλ₯Ό κ³ λ €νλκ°μ λ°λΌ νΈλ¦¬ κΉμ΄κ° λ¬λΌμ§λλ°, μ΄λ€ λ°©λ²μΌλ‘ νΈλ¦¬λ₯Ό μμ±ν κΉ ?
- Base : νΈλ¦¬μ μμ± λ°©λ²μ Root Node ~ Leaf Nodeλ‘ μ΄μ΄μ§
- Nodeμμ κ³ λ €ν λ°μ΄ν°κ° μ΄λ―Έ νλμ classμλ§ μνκ±°λ, λ μ΄μ κ³ λ €ν Featureκ° μμΌλ©΄ Leaf Node
- λ°μ΄ν°λ€μ κ°μ₯ μ λλ μ£Όλ Featureλ₯Ό μ°μ μ ν
- μ νλ Featureμ λν 쑰건λ³λ‘ μμ Node μμ±
- κ° μμ Nodeμμ ν΄λΉ 쑰건μ λ§μ‘±νλ λ°μ΄ν°λ§ κ³ λ €νμ¬ μ²μλΆν° λ°λ³΅
β
- Purity
- ν μͺ½ λ°μ΄ν°λ§ μ‘΄μ¬ν μλ‘ λ pure νλ€
ex) { o, o, x, x, x, x } λ³΄λ€ { x, x, x, x, x, x }κ° λ pure
β
- Entropy (Impurity)
- Purityμ λ°λ
- 0 ~ 1 μ¬μ΄μ κ° λ²μλ₯Ό κ°μ§λ€
- Entropyκ° ν¬λ€ = λ Chaotic νλ€ = λΆμν μ λ³΄κ° λ λ§λ€
- μνΈλ‘νΌ μμ
Entropyλ₯Ό tree μμ±μ μ΄λ»κ² μ μ©ν κΉ ?
- Information Gain νμ© = λΆλͺ¨λ Έλ Entropy — μμλ Έλ Entropy
- λΆλͺ¨λ Έλμμ μ 보μ ν¨λμ΄ λ ν¬λ€
- μμλ Έλκ° μ¬λ¬κ°μΈ κ²½μ°κ° λ§κΈ° λλ¬Έμ, Weighted Average Entropy of Childrenμ ꡬνμ¬ IG ꡬν¨
- μμ Entropy κ°μ Instance κ°μλ§νΌ κ³±ν΄μ£Όλ κ²
- IGκ° κ°μ₯ ν° Feature μ ν, Featureλ³λ‘ IGλ₯Ό κ³μ°νκ³ νΈλ¦¬μ κ²°μ λ Έλλ‘ λ¨Όμ μ ν
Featureκ° Real-value Featureμ λν΄μλ μ΄λ»κ² ν΄μΌν κΉ ?
- Value ‘bin’μ μ¬μ©
- νΉμ Root Nodeλ‘λΆν° λͺ¨μ’ μ λΆκΈ° ( *μ΄λ¦°κ΅¬κ° : [], λ«νκ΅¬κ° : () )
β
* Tree λͺ¨μμ λ°λ₯Έ μ©μ΄
- edgeμ νμ΄ν μ‘΄μ¬μ λ¬΄κ° ν° μλ―Έλ₯Ό κ°μ§λ―λ‘ κ΅¬λΆνμ¬ μ¬μ©
Balanced Tree / Deep Tree / Bushy Tree / Left,Right Skewed
Decision Treeλ Overfitting λκΈ° μ½λ ?
- μ½λ€. κ·Έλμ Modelμ Complexity μ€μ
- νμ΅νλ μκ°, μ΄λ―Έ Overfitting λλ μ§ μ ν΄μ§
- Featureλ³λ‘ IGλ₯Ό κ³ λ €νμ¬ μμμ λ°μΌλ‘ λ΄λ €μ¨λ€ (νμ΅λ°μ΄ν°μ κ³Όνκ² λ§μΆ°μ§)
- νμ¬ λ Έλμμ μ΅μ μΌλ‘ 보μ΄λ Featureλ₯Ό μ ννκ³ , λ€μͺ½ λ Έλλ μ κ²½μ°μ§ μλλ€
- 첫 λ¨μΆλΆν° μλͺ»λΌμμ§ μ (λλΉν¨κ³Ό)
β
Decision Treeμ Feature κ°λ€μ Normalizationμ΄ νμνκ° ?
- νμμλ€. μμΉλ§ λ°λλΏ κ°μ λ Έλ ννμ΄λ€
β
π£πΎπΌπππππ π³ππΎπΎ π²ππππΊππ
- Model ꡬνκ³Ό μ΄ν΄κ° μ½λ€ (μ¬λμ΄ λμΌλ‘ λ³΄κ³ μ΄ν΄νκ³ μ€λͺ κ°λ₯ [White Box])
- Powerfulν Modelμ΄ μλλΌ, 볡μ‘ν λ¬Έμ μμλ μ±λ₯μ΄ λ¨μ΄μ§