项目 | 简介 | 技术栈 |
---|---|---|
求职网数据分析 | 抓取前程无忧,实习僧招聘网站,存入csv进行数据清洗,降维,可视化 | 爬虫:多线程 + requests + bs4/lxml 可视化:jieba + W2V + PAC降维 + matplotlib + wordCloud |
淘宝网抓取 | 通过关键字搜索并且获取淘宝商品数据,存入csv文档 | Selenium反爬 |
拉钩分布式爬虫 | 拉勾网抓取,使用分布式框架,支持整站抓取,增量抓取,拉钩反爬 | Scrapy-Redis |
拉勾网全站爬虫 | 抓取职位以及公司数据,可以存入csv文件或数据库 | Scrapy + 规则整站抓取 |
图片网站图片爬取 | 图片网站整站抓取+定期增量抓取 | Scrapy + requests + 增量抓取 |
Steam热门游戏好评差评数量抓取 | Steam抓取当前热门游戏的好评/差评数量,通过selenium突破认证并抓取canvas元素 | Selenium + requests + bs4 |
天猫抓取 | 通过selenium突破反爬,抓取天猫商品数据存入csv | Selenium反爬 |
Crawler
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||