Skip to content

爬虫:获取人民日报、浙江日报、杭州日报的文章

Notifications You must be signed in to change notification settings

jinruimeng/crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

python爬虫系统,附带课程设计报告

​ 实现对人民日报(http://paper.people.com.cn/)新闻文章的下载。可以输入要爬取的日期以及结束日期,将这些日期内的文章全部爬取下来,以日期为名自动生成一个主存储目录,爬取到的文章保存写入 txt 文件中,每个文本的存储名字以日期加序号存储。

本程序需要在 python 下,并且需要下载程序依赖的包才能运行。本程序需要用到的包主
要有:requests、bs4、os、datetime。

程序总体结构设计 ​ 该爬虫程序没有用户界面,基于 python 环境,运行在 Windows PowerShell 窗口中,使用流程为:输入需要爬取的开始日期,结束日期、回车后等待爬取即可,爬取完成后会有提示。工作流程为:根据输入的日期拼接 URL,获取当天报纸的各版面的链接列表,再获取报纸版面的文章链接列表,然后解析 HTML 网页,获取新闻的文章内容,获取到文章标题和正文信息后写入到对用的文件中,最后程序结束运行并提示已经爬取完成。

About

爬虫:获取人民日报、浙江日报、杭州日报的文章

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages