本书上传的所有代码都是可以运行的,在此附上本书源码的github地址:https://github.com/PacktPublishing/Python-Machine-Learning-Blueprints,在此向本书作者和译者表示感谢
Python 版本:3.6.2
PyCharm 版本:PyCharm 2017.3.3 (Professional Edition)
src +---ch1 | +----groupby_learning.py--------------聚类函数示例 | +----matpolotlib_bar.py---------------推积条形图展示 | +----matpolotlib_hist.py--------------直方图展示 | +----matpolotlib_plot.py--------------折线图展示 | +----matpolotlib_scatter.py-----------散点图展示 | +----matpolotlib_subplots.py----------多图展示 | +----pandas_learning.py---------------获取Iris数据 | +----scikit_test1.py------------------scikit评估预测示例 | +----scikit_test2.py | +----seabarn_learning.py | +----seabarn_violin.py----------------seabarn小提琴图展示 | +----statsmodels_learning.py----------建模:回归模型示例 +---ch2 | +----analysisData.py------------------分析数据 | +----getMagicData.py------------------得到公寓的数据并进行数据清理 | +----modelingData.py------------------对数据建模 | +----predictData.py-------------------预测(不知道什么原因,代码报错,目前还没有找到解决办法,追踪了源码,仍未解决) | +----showData.py----------------------可视化数据(由于没有地理json,该代码无法运行) +---ch3 | +----getTicketsData.py----------------获得机票数据(由于跳转到中文版页面,获取数据的代码还需要重写,没有完成) | +----seleniumTest.py------------------爬虫测试代码,获取当天斗鱼的房间名和人气数 +---ch4 | +----analysisData.py------------------分析IPO数据 | +----analysisFeature.py---------------分析特征重要性,拟合随机森林分类器 | +----getFeature.py--------------------特征工程,获取特征值 | +----getIPOData.py--------------------获取IPO数据 | +----predictData_2014_0.25.py---------分析2014年之后的数据,阈值=1 | +----predictData_2015_0.25.py---------分析2015年之后的数据,阈值=0.25 | +----predictData_2015_1.py------------二元分类,分析2015年之后的数据,阈值=1 +---ch7 | +----analysisData.py------------------分析数据 | +----analysisData_extend.py-----------分析延伸数据 | +----ch7utils.py----------------------展示在策略的统计信息 | +----dynamicTimeWarping.py------------动态时间扭曲算法(该算法需要运行821*821次,需要计算大约65万次,如果用单机跑,会很慢) | +----getData.py-----------------------获取SPY2010-2016年数据 | +----getData_extend.py----------------获取SPY2000-2016年数据 | +----getModel_extend_1000.py----------选择最后1000个作为测试节点 | +----getModel_extend_2000.py----------选择最后2000个作为测试节点 +---ch8 | +----chi2kernel.py--------------------卡方核算法 | +----cosineSimilarity.py--------------余弦相似性算法 | +----getDigitsData.py-----------------加载MNIST手写数字数据库 +---ch9 | +----eliza_chat.py--------------------NLTK的聊天机器人Demo程序 | +----getData.py-----------------------加载nscb.csv数据 | +----getSimilarityAnswers.py----------简易版的聊天机器人 +---ch10 | +----cntrdCoSim.py--------------------基于项目的过滤示例 | +----getSimilarity.py-----------------进行相似性预测和评估 | +----getStarted.py--------------------得到本人自己的github打star的数据 \---data +----ipo_data.csv---------------------第四章IPO数据 +----iris.data------------------------第一章数据 +----magic.csv------------------------第二章公寓数据 +----nscb.csv-------------------------第九章聊天数据集 +----SCOOP-Rating-Performance.xls-----SCOOP的所有指数数据,可参考书中下载 +----spy.csv +----spy_2000_2016.csv----------------SPY2000年-2016年数据 +----spy_2010_2016.csv----------------SPY2010年-2016年数据 docs +---基于序列到序列模型的神经网络构造.pdf-------本书推荐的论文
看完整本书用了10天左右,在单机上运行了实验代码,并在其中做了很多兼容性调整,书中有一部分代码在Jupyter Notebook下运行会提示警告,上传的代码中已经消除。
本书为了通过介绍机器学习来对各个领域进行初步的了解,比如NLP(自然语言处理)、图像识别、深度学习、推荐引擎、基本爬虫知识以及量化交易。
说明:
- 第二章中的预测代码错误还未解决,以后会花时间解决。
- 由于第五章和第六章的数据获取不到,不能编写实验代码。
- 第八章由于graphlab目前只能支持Python2.7,不能支持Python3.X,故不能进行深度学习实验。
- 第九章的聊天机器人的实验非常棒,建议亲手试试看。
- 上述项目没有涉及任何部署的步骤。