zimmem
  • Introduction
  • 大数据运维
    • cdh
      • Create Cloudera Manager extensions
      • Create Custom Cloudera Add-on Service
      • Create Custom Repository
      • extjs-dependency-by-oozie.md
      • install-cdh-on-ubuntu-16.md
      • Install Cloudera Manager on CentOS 6
      • Install Cloudera Manager on Ubuntu 16
      • Read/Write hive table when running spark2 by oozie
    • hadoop
      • hdfs.md
      • Resource Configuration
    • hbase
      • README.md
    • hive
      • README.md
    • impala
      • Impala Maintenance Instructions
    • spark
      • cvc.md
      • Spark DataFrame Join
      • Spark Shell
      • Spark Submit
    • Apache Ambari Installation
    • big-data-platform-ops.md
    • hdp.md
  • 区块链
    • hyperledger-fabric
      • img
      • Block Struct
      • 概念
      • 在 kubernetes 上搭建 hyperledger-fabric
  • 数据处理
    • datasets
      • 人脸数据集
    • 降维
      • LDA.md
      • PCA 主成份分析
    • face
      • 人脸关键点检测方法
    • machine-learning
      • gan
        • GAN 学习资料
      • nlp
        • word2vec
      • 机器学习资源
    • 数学知识
      • 统计学
        • 基础知识
        • 交叉熵
        • # 方差与标准差
      • Mathjax Demo
      • 矩阵知识 {matrix}
    • recomand-system
      • 推荐系统相关文章与开源方案
    • tensorflow
      • images
      • dataset
      • 分布式训练
      • Optimizer Compare
      • saved_model
    • 十大数据挖掘数法
      • math
        • 最小二乘法
      • AdaBoost.md
      • Apriori.md
      • 数据挖掘十大经典算法之 C4.5
      • CART.md
      • EM.md
      • k-means.md
      • kNN.md
      • Naive-Baye.md
      • PageRank.md
      • Svm.md
      • top-10-data-mining-algorithm.md
    • 机器学习模型评估
    • Tensorflow Model Serving
  • 数据仓库
    • user-portrait.md
    • Articles
  • 运维开发
    • docker
      • 安装后免 sudo
    • gong-ju
      • install-latest-git-version-on-centos.md
    • linux
      • images
      • iptables
      • network
      • performance-diagnosis.md
      • Shell Syntax
      • SSH with Kerbors5 on Ubuntu
      • wget
    • network
      • install-merlin-on-asus-router.md
    • docker.md
    • Performance diagnosis
    • RabbitMQ
  • 开发语言与框架
    • dubbo
      • README.md
    • java
      • mybatis
      • spring
        • spring-mvc
          • 扩展点
        • 常用扩展
        • Srping MVC
      • How to use G1 garbage collector
      • How to Print GC log
      • spring.md
    • nodejs
      • npm 配置 registry 镜像或代理
    • spring
      • Hive Maintenance Instructions
      • 配置项
      • xxx.md
  • 存储系统
    • mongodb
      • README.md
    • mysql
      • operation
        • 数据导入导出
      • Install Mysql Server by Yum
      • mysql-diff.md
      • Mysql Settings
      • User Management
  • tools
    • Intellij IDEA
  • _book
    • .vscode
    • 大数据运维
      • cdh
      • hadoop
      • hbase
      • hive
      • impala
      • spark
    • 区块链
      • hyperledger-fabric
        • img
    • 数据处理
      • dimension-reduction
      • machine-learning
      • math
        • statistics
      • recomand-system
      • tensorflow
        • images
      • top-10-data-mining-algorithm
        • math
    • 数据仓库
    • 运维开发
      • docker
      • gong-ju
      • linux
        • images
      • network
    • gitbook
      • fonts
        • fontawesome
      • gitbook-plugin-alerts
      • gitbook-plugin-expandable-chapters-interactive
      • gitbook-plugin-fontsettings
      • gitbook-plugin-highlight
      • gitbook-plugin-livereload
      • gitbook-plugin-mathjax
      • gitbook-plugin-search-plus-mod
      • gitbook-plugin-sharing
      • images
    • 开发语言与框架
      • dubbo
      • java
        • spring
          • spring-mvc
      • nodejs
      • spring
    • 存储系统
      • mongodb
      • mysql
        • operation
    • styles
      • README.md
    • Configuration
    • Sandbox
Powered by GitBook
On this page
  • ID3 算法
  • 信息熵(Entropy)
  • 信息增益(Information gain)
  • C4.5 算法
  • 信息增益率
  • CART
  1. 数据处理
  2. 十大数据挖掘数法

数据挖掘十大经典算法之 C4.5

PreviousApriori.mdNextCART.md

Last updated 6 years ago

ID3 算法

ID3算法,即Iterative Dichotomiser 3,迭代二叉树3代

信息熵(Entropy)

信息熵(Entropy) 表示信息的混乱程度,变量的不确定性越大, 则熵值越大, 一个训练集的信息熵可以表示为:

Entropy(S)=−∑i=1mP(ui)log⁡2P(ui)Entropy(S) = - \sum _{i=1}^m P(u_i)\log_2P(u_i)Entropy(S)=−i=1∑m​P(ui​)log2​P(ui​)

其中 $P(u_i) = \frac{|u_i|}{|S|}$ 表示为样本类别 i 在集合中出现的概率

信息增益(Information gain)

信息增益指的是划分前后熵的变化,可以用下面的公式表示:

infoGain(S,A)=Entropy(S)−∑V∈Value(A)SVSEntropy(SV)infoGain(S,A) = Entropy(S) - \sum_{V\in Value(A)}\frac{S_V}{S}Entropy(S_V)infoGain(S,A)=Entropy(S)−V∈Value(A)∑​SSV​​Entropy(SV​)

其中, A 表示样本的属性, $Value(A)$ 表示属性 A 的所有取值集合, V 是属性 A 的取值之一, $S_V$ 是 S 中 A 的值为 V 的样例集合。

ID3 算法便是每次从剩余属性集合中找出一个属性, 通过这个属性来划分集合使得信息熵增益最大。

C4.5 算法

信息增益率

CART

使用 Gini 基数来评估样本分布

infoGainRatio=infoGain(V)H(V)infoGainRatio = \frac{infoGain(V)}{H(V)}infoGainRatio=H(V)infoGain(V)​
H(V)=−∑jp(vj)log⁡2p(vj)H(V)= -\sum_j{p(v_j)\log_2 p(v_j)}H(V)=−j∑​p(vj​)log2​p(vj​)
Gini(S)=1−∑i=1mPi2Gini(S) = 1 - \sum_{i=1}^m {P_i^2}Gini(S)=1−i=1∑m​Pi2​
GiniGain(S,A)=Gini(S)−∑V∈Value(A)SVSGini(SV)GiniGain(S,A) = Gini(S) - \sum_{V\in Value(A)} \frac{S_V}{S} Gini(S_V)GiniGain(S,A)=Gini(S)−V∈Value(A)∑​SSV​​Gini(SV​)

[5]:

C4.5决策树