MACHINE LEARNING
MACHINE LEARNING
监督学习(Supervises Learning)
A computer program is said to learn from experience E with respect to some task T and some performance measure p, if its performance on T,as measured by P, improves with experience E
- 监督学习:每个问题都有一个给定的正确的答案
回归问题
- 回归:预测一个具体数值的输出
价格预测:
分类问题
- 用于预测离散值的输出
无监督学习 (Unsupervised Learning)
- 聚类算法
鸡尾酒晚会算法
鸡尾酒晚会算法:实现声音分离
[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');
- 建模工具:
- Octave
第二章术语
奥卡姆剃刀原则
过拟合、欠拟合
评估方法
测试集、训练集
评估方法
留出法
以二分类任务为例,假定D包含1000个样本,将其划分为S包含700个样本,T包含300个样本,用S进行训练后,如果模型在T上有90个样本分类错误,那么其错误率为(90/300)×100%=30%,相应的,精度为1-30%=70%
交叉验证法
自助法bootstrapping
方法 = 模型 + 策略 + 算法
模型
统计学习首要考虑的问题是学习什么样的模型。在 监督学习 过程中,模型就是所要学习的 条件概率分布或决策函数。模型的假设空间( hypothesis space)一般分为两类,一个是所有可能的条件概率分布,另一个是决策函数。
例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。
条件概率:
什么是决策函数?什么是条件概率分布?
1.3.2 策略
损失函数
损失函数度量模型一次预测的好坏
风险函数
风险函数度量平均一一下模型预测的好坏