Skip to content

Latest commit

 

History

History

brainTruster

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

豆瓣小组爬虫Demo

依赖包

需要手动安装一下依赖包。

html2text
scrapy

运行

默认在当前路径的topic目录下存放每个帖子的Markdown文件,因此需要手动创建这个目录。如果需要重定义路径,修改groupspider.py中的topic_path变量即可。

运行方法:

  1. brainTruster执行scrapy crawl groupspider即可
  2. 执行python generate_summary.py生成目录