Skip to content

Latest commit

 

History

History
129 lines (105 loc) · 6.87 KB

readme.md

File metadata and controls

129 lines (105 loc) · 6.87 KB

空间分析器1.0

(作者的小logo)

Introduction - 介绍

  • 本程序用于爬取好友空间并对好友空间进行数据分析和可视化

Summary - 概要

  • 获取所有说说的时间,内容,点赞人并保存到本地
  • 分析一年当中什么时候最常发说说
  • 分析每个月说说数量
  • 对可能存在回归关系的数据进行回归分析
  • 分析谁最常点赞
  • 统计空间词频并绘制词云

Features - 特性

  • 灵活性:目标空间可指定,所用账号可指定
  • 便利性:自动通过滑块验证码,自动处理异常并及时保存数据,自动对数据分析。
  • 稳定性:爬取过程出错会立即保存已爬取的数据后再退出,可以选择用本地数据跳过爬虫直接进行分析
  • 轻量性:没有太多依赖文件,打包后添加edge驱动文件即可在其他windows10及以上设备使用
  • 交互性:利用pyautogui实现简单的ui界面交互

Requirements - 必要条件

Installation - 安装

  • 将edgedriver重命名为msedgedriver.exe并放在py文件目录下即可运行
  • 文件会附带已经爬取到的部分数据集,当日若登录次数过多空间被封可以尝试用本地数据集进行不更新分析

Usage - 用法

初次使用

  • 1-1.输入目标空间账号(默认测试用例为作者空间1936588711)
  • 1-2-1.输入用于爬取的账号密码(默认测试用例为作者小号) 此后会进入浏览器,在验证码自动完成前,请保持浏览器于窗口顶端且最大化
  • 1-2-2.验证码有一定几率错误,若错误请重启程序
  • 1-2-3.若提示网络环境异常,请用快捷登录,先在本地登录qq,手动操作至进入空间主界面并点击ok完成登录以开始爬虫。
  • 1-3.按屏幕上的提示进行等待
  • 1-4.查看结果

后续使用

  • 2-1.输入目标空间账号
  • 2-2.如果已经存在本地数据集,会询问是否更新,如果更新会返回1-2,否则直接读取本地数据并进入1-3

Explanation - 解释

对于测试用例'1936588711'空间分析结果的分析

说说年份分布饼图

  • 大部分说说实在2017-2018发出,当时他正在上初中,所以难免有点中二,天天话多
  • 2019-2020没有发说说
说说月份柱形图

  • 峰值出现在了2017年的7,8月,这两个月对他来说可能是发生了什么大事,也可能是暑假闲着无聊
说说年份时间段

  • 2021年12月居然最喜欢在凌晨一点到两点之间发说说,是不是因为进入大学之后考试周备考没有睡觉?
  • 2018年睡觉习惯保持的不错,没有很晚睡觉
  • 极小值出现在了2月和8月,说明暑假和寒假比较喜欢熬夜
  • 2021年的数据出现了断层,这是因为6月高考结束前没有发说说
说说星期时间段

  • 比起工作日,似乎更喜欢在周末熬夜(星期五六天晚上被会被算到下一天凌晨)
  • 每个星期大概规律是星期一熬夜完浑浑噩噩,星期二开始规律作息,星期三星期四不熬夜,星期五放飞自我,星期六星期天又开始熬夜修仙
词云

  • 首先最大的是'哈哈' 和'哈哈哈哈'这人应该是个搞笑男
  • 然后是'期中','会考','成绩'说明说说和学习相关性比较大
  • 武汉出现次数比较多,可能是个武汉人,因为'理工'没有出现,排除'武汉理工'这个词的可能,所以发了这么多武汉,八成是武汉人
  • 出现'四中',可能是'武汉四中'?
回归分析

  • 说说时间段的方差随着月份增大而减少,说明每个月发说说的时间有逐渐由分散变集中的趋势

  • count和月份非线性回归曲线方程为 y = 11.500+80.000x - 53.062x^2 + 12.356x^3 - 1.149x^4 + 0.037x^5

Changelog - 更新日志

  • 2022.4.15 新增分析每个月说说数量,新增词频统计
  • 2022.4.25 新增本地读取功能,新增过验证码
  • 2022.4.29 更新绘图风格
  • 2022.4.30 新增ui交互,新增爬取他人空间功能
  • 2022.5.2 新增箱图和相关性分析 新增非线性回归预测说说次数和月份关系,优化代码逻辑,可能在是否更新处出现问题 新增若线性回归将自动进行回归预测
  • 5.3 更新停用词表 新增星期数据,下次分析星期和时间关系
  • 5.4 新增点赞人数据
  • 5.5 修改登录失败提示框,修改爬取时间小数点位数
  • 5.6 新增饼图,修改文件存储路径,修正星期数
  • 5.15 出现bug,在不同的网络环境测试下出现不需要验证码的情况,后续更新会进行修复
  • 未来版本中将新增机器学习功能
  • 2279549769的std存在线性回归情况,可以进行后续分析
  • 1146158881空间存在无法爬取的情况,系使用了qq空间排版功能

FAQ - 常见问题

  • 暂不支持上锁的空间
  • 目标空间有置顶说说可能会报错
  • 网络环境异常请尝试使用点击头像登录,需要先登录qq
  • 每天单个账号爬取次数过多可能会导致无法通过验证码,前几次可以手动解决,但是次数过多会导致当天无法访问他人空间
  • 预计时间偏长
  • 测试时如果被封可以自己爬自己空间或者分析本地数据集
  • 不要刷新界面!不要刷新界面!不要刷新界面!刷新会导致已经爬取的数据失效,直接关闭浏览器可以保存。

Support - 支持

Dos - 文档(更多文档。)

Contact - 联系

License - 版权信息

  • Copyright © 2022 L1_Sta2. All rights reserved.
  • (我乱编的)