将新浪博客的所有文章爬取下来,制作成Epub格式的电子书(同时生成html格式文件)
例如,爬取韩寒的新浪博客的所有文章:
$ sudo pip install -r requirements.txt
Mac 10.11
Python 2.7.11
BeautifulSoup 4
PyCharm CE 5.0.3
目前完成度不高,bug还比较多,Win,Linux平台下还没有测试过,有可能存在问题。
-
将博客地址放入项目文件夹目录的ReadList.txt中,例如:
需要说明的一点是:目前只支持ID形式的博客地址,例如http://blog.sina.com.cn/u/1191258123。新浪微博支持多种形式的地址,如:http://blog.sina.com.cn/1191258123, http://blog.sina.com.cn/twocold, 以及http://blog.sina.com.cn/u/1191258123. 目前只支持一种,后面会改进。 -
执行:
$ python SinaBlog2e-book.py
稍等片刻,html和Epub格式的电子书会生成在「生成的电子书」文件夹中。
该项目只是ZhihuHelp的新浪博客版本,目前大量用到ZhihuHelp项目的代码,再次表示感谢。也请大家多多支持该项目作者姚泽源同学。
本着「过早优化是万恶之源」的原则(好吧,就是代码写得烂),目前这个项目还算能用,但是问题也比较多,写个TODO list:
- 支持多种形式的新浪博客地址
- 效率问题,程序还需要优化(爬韩寒博客,一共316篇博文,用了36分钟)
- 页面的样式还需要改进(如:封面,简介,标题,博主logo等)
- 博文评论的数量
- 博文更新时间
- 图形界面
- 程序接口
- 分卷制作电子书, 多个博主的文章放在同一本书中
- ....