Skip to content

Download the pictures from bbs.fudan.edu.cn single board in batches.

Notifications You must be signed in to change notification settings

hackstoic/fdbbs_picture_downloader

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

论坛爬虫

分为4个模块

1. 下载器
下载整个网页
2. 解析器
从中抽取链接和需要的资源(图文及描述等)
3. URL管理器
管理要遍历的URL, 防止重复抓取和死循环
4. 文档归档器
将抽取的资源保存下来, 数据库或者以文档的方式

TO-DO
第一版:
基本的抓取, 指定板块
(图片和对应的描述)

第二版:
多进程抓取, 多个板块

第三版:
分布式抓取, BBS全站

第四版:
cookie管理, 自动登录, 反追踪

第五版:
展示优化, 定期更新

About

Download the pictures from bbs.fudan.edu.cn single board in batches.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published