-
Python实现: ADOA
-
计算聚类中心的子模块: cluster_centers
- 在只有极少量的已知异常样本(Partially Observed Anomalies)和大量的无标记数据(Unable Observations)的情况下,来进行的异常检测问题
-
若简单的形式化为无监督学习:丢弃已有的部分标记信息会带来信息的极大损失,且效果不理想
-
若将无标记的数据完全当作正常样本:采用监督学习的模型来处理,则会因为引入的大量噪音导致效果欠佳
-
PU Learning:适用于异常值基本相似的场景,而异常样本往往千差万别,因此PU Learning的应用受到限制
-
对于已知的异常样本进行聚类,聚类后的每一簇之间具有较高的相似性
-
对于异常样本而言,一方面,它有着容易被隔离的特点,另一方面,它往往与某些已知的异常样本有着较高的相似性
-
计算无标记样本与异常样本簇的相似得分(Similarity Score)
-
计算一个样本的异常程度总得分
- 对于未来的待预测样本,通过该模型预测其所属类别,若样本被分类到任何异常类,则将其视为异常样本,否则,视为正常样本