TL;DR

本仓库记录阿里云天池WEBSHELL文本检测学习赛的提交版本。比赛地址为了本地测试模拟远程环境，我把训练数据处理成测试集data/test.csv，该程序支持本地和远程两种模式运行，见dist/config.json。

本地使用

解压data目录下的train.zip（数据集），该数据集目录为./data/train/{1-N}。也可自行修改数据集路径(config.json)
python main.py -m local

远程跑分

已经制作好了dockerfile，直接本地build镜像传到自己的仓库提交即可，远程镜像仓库使用阿里云免费提供的就可以提交地址

步骤如下：

docker login --username your_username（登录你的镜像仓库）
docker build -t registry.cn-shenzhen.aliyuncs.com/test_for_tianchi/test_for_tianchi_submit:1.0 . （本地构建镜像，镜像名为你的镜像仓库地址，tag可以写版本号）
docker push registry.cn-shenzhen.aliyuncs.com/test_for_tianchi/test_for_tianchi_submit:1.0（推送镜像至远程仓库）

提交日志

第一次提交

完全抄的webshell检测算法实践，还没抄全

php模型： stacking集成模型

jsp模型： mlp

得分： 0.8443

{eval_score:0.8443,cost_time:4804,info:"null","score_detail":{"success": true, "score": 0.8443, "scoreJson": {"score": 0.8443, "php_precision_score": 0.82309, "php_recall_score": 0.83598, "jsp_precision_score": 0.91873, "jsp_recall_score": 0.90018}}}

痛点： php太拉了，用训练集都能跑个95，但是测试集是训练集的十几倍。

优化

图神经网络等高科技
提取更牛逼的特征
搞更多的训练集

参考文章

https://bbs.ichunqiu.com/thread-63425-1-1.html
之后补

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

TL;DR

本地使用

远程跑分

提交日志

第一次提交

优化

参考文章

Files

README.md

Latest commit

History

README.md

File metadata and controls

TL;DR

本地使用

远程跑分

提交日志

第一次提交

优化

参考文章