python爬虫系统，附带课程设计报告

实现对人民日报（http://paper.people.com.cn/）新闻文章的下载。可以输入要爬取的日期以及结束日期，将这些日期内的文章全部爬取下来，以日期为名自动生成一个主存储目录，爬取到的文章保存写入 txt 文件中,每个文本的存储名字以日期加序号存储。

本程序需要在 python 下，并且需要下载程序依赖的包才能运行。本程序需要用到的包主

要有：requests、bs4、os、datetime。

程序总体结构设计 该爬虫程序没有用户界面，基于 python 环境，运行在 Windows PowerShell 窗口中，使用流程为：输入需要爬取的开始日期，结束日期、回车后等待爬取即可，爬取完成后会有提示。工作流程为：根据输入的日期拼接 URL，获取当天报纸的各版面的链接列表，再获取报纸版面的文章链接列表，然后解析 HTML 网页，获取新闻的文章内容，获取到文章标题和正文信息后写入到对用的文件中，最后程序结束运行并提示已经爬取完成。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
crawler.py		crawler.py
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

python爬虫系统，附带课程设计报告

本程序需要在 python 下，并且需要下载程序依赖的包才能运行。本程序需要用到的包主

要有：requests、bs4、os、datetime。

About

Releases

Packages

Languages

jinruimeng/crawler

Folders and files

Latest commit

History

Repository files navigation

python爬虫系统，附带课程设计报告

本程序需要在 python 下，并且需要下载程序依赖的包才能运行。本程序需要用到的包主

要有：requests、bs4、os、datetime。

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages