Skip to content

pythonob/weibo_blogs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 

Repository files navigation

weibo_blogs

抓取某个用户的全部微博信息,共12万条

依赖的包:scrapy,scrapy_redis,pymysql

1.确定要抓的网址, https://weibo.com 比较难抓,于是考虑移动端的m.weibo.cn,
  找到要爬的用户的页面,(最开始需要登陆才能打开页面)打开开发者工具,找到获取数据的接口
  结果为,如 'https://m.weibo.cn/api/container/getIndex?containerid=2304132054300185_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=',
  containerid 作为用户的标识,与用户id是两个不同字段,但都能代表用户身份。
  所以要换个其他用户的微博,只需要吧containerid换掉就行了,page当然就是要抓取的页码,通过这个即可构造要抓取的url
  然后会发现,就算把账号退出,仍然可以直接访问构造好的链接。所以不用购买小号,登陆获取cookies等等。

About

抓取某个用户的全部微博信息,共12万条

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages