2.希望整个大的项目能拆分出来一些部分使用没门课上能学到的东西,一来可以把项目拆分出来作为某一门课的Final Project,二来可以向当值老师咨询。
4.希望尝试的方向:click rate
5.可以使用的工具:MangoDB / HBase / Spark Hadoop / Tenserflow Pytorch
6.流程: 感觉我们找到数据后可以先用不同的异常值检测算法(随机森林,oneclassSVM)跑一下,看不同算法结果。 可以看看不同变量缺失值的相关性;对缺失值和预测目标做下卡方检验;对不同算法找的异常值和预测目标做卡方检验。这一步可以找business implication。关键是为什么有异常值和缺失值,异常值和缺失值出现是因为噪声还是有很深的business implication
之后可以试试不同降维方法(LLE,tsne,自编码器,玻尔兹曼机,embedding算法)的效果,降维做可视化。这一步也可以找business implication。也能决定类别变量的编码方法,是直接用粗暴的one hot,还是用一些embedding方法转为向量
第一个方向是走深度模型路线,先用迁移学习,元学习pretrain,决定架构;后期用explainable ML,lime,生成模型做模型解释
source | descripton |
[https://www.blog.google/technology/research/open-source-and-open-data/] | open source 声明 |
[https://research.google/research-areas/data-mining-and-modeling/] | asdfsd |
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html/ https://github.com/carpedm20/BEGAN-tensorflow | 面部识别图片库在googledrive上有 |
https://research.google/tools/datasets/ | Google公开数据库 |
https://github.com/google-research/bert | NLP 类似于翻译,需要仔细研读 |
https://github.com/facundoolano/google-play-scraper | Google player手动爬数据 |
https://ai.googleblog.com/search/label/Health | google最新研究方向 |
https://research.google/teams/brain/ | Google ML团队页面 |
https://www.kaggle.com/netflix-inc/netflix-prize-data | Netfilx Kaggel URL |
https://archive.org/download/nf_prize_dataset.tar | Orignial Dataset |
http://cs330.stanford.edu/ | Meta-learning |
http://yann.lecun.com/exdb/mnist/ | 笔迹鉴定 |
http://cs230.stanford.edu/section/1/ | Stanford Deep Learning |
Time Milestone 我们以周为单位来计算时间
本周工作 | 完成进度 | |
Feb 20 | 确定选题,并且征询教授意见,看方向是否可行 | '5%' |
Feb 27 | 方向讨论和初步试验,一旦发现需要海量运算或者无法实现,及时调整方向 | '0% |
March 5 | 数据清洗,分任务 | '0%' |
March 12 | 试验不同模型和算法 | '0%' |
March 19 | 模型建立,主体代码框架完成 | '0%' |
March 26 | 调优,调参,酌情发布到Github上让其他人来看 | '0% |
April 2 | 验证排错 | 0% |
April 9 | 到此时间点,应该完成全部工作,留最后一点时间来进行可视化工作,给poster打印留出时间 | 0% |
April 23 | -- is en-dash, --- is em-dash |
0% |
