weibo_blogs

抓取某个用户的全部微博信息，共12万条

依赖的包：scrapy,scrapy_redis,pymysql

1.确定要抓的网址， https://weibo.com 比较难抓，于是考虑移动端的m.weibo.cn,
  找到要爬的用户的页面，（最开始需要登陆才能打开页面）打开开发者工具，找到获取数据的接口
  结果为，如 'https://m.weibo.cn/api/container/getIndex?containerid=2304132054300185_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=',
  containerid 作为用户的标识，与用户id是两个不同字段，但都能代表用户身份。
  所以要换个其他用户的微博，只需要吧containerid换掉就行了,page当然就是要抓取的页码，通过这个即可构造要抓取的url
  然后会发现，就算把账号退出，仍然可以直接访问构造好的链接。所以不用购买小号，登陆获取cookies等等。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
weibo_user		weibo_user
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

weibo_blogs

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

pythonob/weibo_blogs

Folders and files

Latest commit

History

Repository files navigation

weibo_blogs

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages