机器学习中那些形式让人大为惊艳的idea,了解一下受益匪浅!
异常检查算法Isolation Forest(孤立森林)
原理超简单,但检测效果可以说是state of the art. 对一个空间进行二分,早划分「孤立」出来的就是很可能异常的。「孤立」指的是这一边只有这一个数据点。因为是二分,我们可以构建一颗二叉树。例如下图的一棵树,第一次二分,左边有数据的a,b,c,右边只有d,那么d大概率就是异常点。为啥?想想你画一条线,把一把米分成了两边,左边只有一粒,那左边那粒很可能是离其他米粒很远。
Ensemble框架Ensemble Learning 是很务实的(然而求散度非常玄学的)学习理论,在很多时候,我们只能得到一些关于问题的弱监督模型,虽然它们的精度表现大于 了,但别说和SOTA比了,就连上个 都困难。而Ensemble框架就是把多个弱监督模型进行Combination,从而得到一个性能更好的强监督模型。基于合理的Combination方法,虽然单个学习器的预测很可能是错误的,但也可以被其他学习器的结果纠正回来。与娇贵的Deep Learning相比,Ensemble Learning对数据集量级的要求相对不高一些。
逻辑回归算法 Logistic Regression
逻辑回归算法(Logistic Regression)一般用于需要明确输出的场景,如某些事件的发生(预测是否会发生降雨)。通常,逻辑回归使用某种函数将概率值压缩到某一特定范围。
例如,Sigmoid 函数(S 函数)是一种具有 S 形曲线、用于二元分类的函数。它将发生某事件的概率值转换为 0, 1 的范围表示。
Y = E ^(b0+b1 x)/(1 + E ^(b0+b1 x ))
以上是一个简单的逻辑回归方程,B0,B1是常数。这些常数值将被计算获得,以确保预测值和实际值之间的误差最小。
评论留言