豆瓣小组爬虫Demo 依赖包 需要手动安装一下依赖包。 html2text scrapy 运行 默认在当前路径的topic目录下存放每个帖子的Markdown文件,因此需要手动创建这个目录。如果需要重定义路径,修改groupspider.py中的topic_path变量即可。 运行方法: 在brainTruster执行scrapy crawl groupspider即可 执行python generate_summary.py生成目录