@@ -1051,14 +1051,21 @@ from sklearn.preprocessing import StandardScaler
1051
1051
- 这里只是** 单元高斯分布** ,假设了` feature ` 之间是独立的,下面会讲到** 多元高斯分布** ,会自动捕捉到` feature ` 之间的关系
1052
1052
1053
1053
### 3、评价` p(x) ` 的好坏,以及` ε ` 的选取
1054
- - 因为数据可能是非常** 偏斜** 的(就是` y=1 ` 的个数非常少,(` y=1 ` 表示异常)),所以可以使用` Precision/Recall ` ,计算` F1Score ` (在** CV交叉验证集** 上),公式:
1055
- ![ $$ {F_1}Score = 2{{PR} \over {P + R}} $$ ] ( http://latex.codecogs.com/png.latex?%5Cfn_cm%20%24%24%7BF_1%7DScore%20%3D%202%7B%7BPR%7D%20%5Cover%20%7BP%20&plus ; %20R%7D%7D%24%24 )
1054
+ - 对** 偏斜数据** 的错误度量
1055
+ - 因为数据可能是非常** 偏斜** 的(就是` y=1 ` 的个数非常少,(` y=1 ` 表示异常)),所以可以使用` Precision/Recall ` ,计算` F1Score ` (在** CV交叉验证集** 上)
1056
+ - 例如:预测癌症,假设模型可以得到` 99% ` 能够预测正确,` 1% ` 的错误率,但是实际癌症的概率很小,只有` 0.5% ` ,那么我们始终预测没有癌症y=0反而可以得到更小的错误率。使用` error rate ` 来评估就不科学了。
1057
+ - 如下图记录:
1058
+ ![ enter description here] [ 49 ]
1059
+ - ![ $$ \Pr ecision = {{TP} \over {TP + FP}} $$ ] ( http://latex.codecogs.com/png.latex?%5Cfn_cm%20%24%24%5CPr%20ecision%20%3D%20%7B%7BTP%7D%20%5Cover%20%7BTP%20&plus ; %20FP%7D%7D%24%24 ) ,即:** 正确预测正样本/所有预测正样本**
1060
+ - ![ $$ {\mathop{\rm Re}\nolimits} {\rm{call}} = {{TP} \over {TP + FN}} $$ ] ( http://latex.codecogs.com/png.latex?%5Cfn_cm%20%24%24%7B%5Cmathop%7B%5Crm%20Re%7D%5Cnolimits%7D%20%7B%5Crm%7Bcall%7D%7D%20%3D%20%7B%7BTP%7D%20%5Cover%20%7BTP%20&plus ; %20FN%7D%7D%24%24 ) ,即:** 正确预测正样本/真实值为正样本**
1061
+ - 总是让` y=1 ` (较少的类),计算` Precision ` 和` Recall `
1062
+ - ![ $$ {F_1}Score = 2{{PR} \over {P + R}} $$ ] ( http://latex.codecogs.com/png.latex?%5Cfn_cm%20%24%24%7BF_1%7DScore%20%3D%202%7B%7BPR%7D%20%5Cover%20%7BP%20&plus ; %20R%7D%7D%24%24 )
1063
+ - 还是以癌症预测为例,假设预测都是no-cancer,TN=199,FN=1,TP=0,FP=0,所以:Precision=0/0,Recall=0/1=0,尽管accuracy=199/200=99.5%,但是不可信。
1064
+
1056
1065
- ` ε ` 的选取
1057
1066
- 尝试多个` ε ` 值,使` F1Score ` 的值高
1058
1067
1059
1068
1060
-
1061
-
1062
1069
[ 1 ] : ./images/LinearRegression_01.png " LinearRegression_01.png "
1063
1070
[ 2 ] : ./images/LogisticRegression_01.png " LogisticRegression_01.png "
1064
1071
[ 3 ] : ./images/LogisticRegression_02.png " LogisticRegression_02.png "
@@ -1106,4 +1113,5 @@ from sklearn.preprocessing import StandardScaler
1106
1113
[ 45 ] : ./images/PCA_05.png " PCA_05.png "
1107
1114
[ 46 ] : ./images/PCA_06.png " PCA_06.png "
1108
1115
[ 47 ] : ./images/PCA_07.png " PCA_07.png "
1109
- [ 48 ] : ./images/PCA_08.png " PCA_08.png "
1116
+ [ 48 ] : ./images/PCA_08.png " PCA_08.png "
1117
+ [ 49 ] : ./images/AnomalyDetection.png " AnomalyDetection.png "
0 commit comments