基本概念:
- 客观概率:指一件事已经发生的频率,即频率流派。
- 主观概率:个人主观概率, 表明对某个事物发生的相信程度,即贝叶斯流派。
- 贝叶斯统计三要素:由先验概率\(P(A)\)和条件概率\(P(B|A)\), 得到后验概率\(P(A|B)\).
贝叶斯分类器决策步骤:
- 定义并区分现象和规律。
- 获取整个规律空间,得到某一规律的概率分布: \(P(规律)\)。
- 获取整个现象空间,得到某一现象的概率分布: \(P(现象)\)。
- 获取某一现象先验概率: \(P(现象|规律)\)。
- 根据贝叶斯概率公式求解后验概率, 得到假设空间的后验概率分布:
- 找到有最大值的后验概率的规律,完成分类操作。
对贝叶斯分类器的理解:
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖最可能来自几号碗?
- 定义和区分现象和规律:两个规律(从一号碗来的规律,从二号碗来的规律)、两种现象(水果糖现象,巧克力现象)。
- 获取整个规律空间概率分布:因为是两个一模一样的碗,所以两个规律的概率一样,\(P(一号碗)=P(二号碗)=0.5\)。
- 获取整个现象空间的概率分布:
- 获取现象的先验概率:
- 根据贝叶斯公式计算出现象的后验概率:
- 找到有最大值的后验概率的规律,完成分类操作:水果糖最可能来自一号碗。
机器学习算法流程:
- 进行特征工程:确定特征属性,获取训练样本,\(y_i\) 表示训练集中的第\(i\)种标签。
- 训练算法:
- 对每个类别计算分类概率(规律空间概率):\(P(y_i)\);
- 对每个特征属性计算所有划分的条件概率(现象的先验概率):\(P(x|y_i)\)
- 预测:对每个类别分别计算 \(P(x|y_i)*P(y_i)\) 获取值中的最大值中的类别,为特征的所属类别.