案例 此网站爬虫部分简单,清洗逻辑繁琐一点正文内容以后台生成html展示。 项目结构 docs是存储结果目录 spider是爬虫文件目录 extrator是解析文件目录 解析结构 几个问题点 这只是个简单案例,此项目没有测试用例,无法保证代码长期正常运行 项目信息2逻辑比较琐碎,时间有限,暂不处理