目前,本项目主要记录在 Windows 系统上,针对常见的社交软件(如 Telegram、QQ 等),导出聊天消息记录并文本处理,得到需要的网址列表。
👉🔗Chat History 2 Urls - YouTube
假设已有一个约 3GB 的文本数据文件(可以使用 EmEditor 合并多个数据文件),
🤔这里建议将聊天记录先合并成一个文件。因为宏命令文件都是面向大数据文件编写,对于小数据文件也可以使用,但不是最优方案。
比如对于大文件来说,提取筛选数据效率更高,但是对于小文件来说,筛选数据并覆盖源文本的操作也不差,并且可以减少中间文件的产生。
然后:
- 使用 EmEditor 打开该文本数据文件
- 选择宏(
Alt + M
+L
) - 执行宏(
Ctrl + Shift + P
) - 得到需要的网址列表,保存
接下来的流程比较个性化,比如:
- 批量粘贴网址列表到 pages.txt 中,执行 open.bat,实现批量打开网址
- 网址筛选,有用的网址收藏至 Eagle 中,做好分类、评分、标签等
该目录下存放有 4 篇博文说明:
文章 | 内容 |
---|---|
操作篇 | 讲述了我是怎么实用已有的软件和宏等工具来进行网址筛选的 |
优化篇(没写完,看不得) | 罗列了整个工作流程可以在哪些方面可以进一步改进 |
安全篇(没写完,看不得) | 分析了整个工作流程会涉及到网络信息安全相关的问题 |
心得篇(没写完,看不得) | 罗列了一些想法,内容比较跳跃(东一榔头西一棒槌) |
该目录下主要存放基于 EmEditor 软件编写的宏命令文件和一些公共文件:
公共函数定义文件 | 作用 |
---|---|
common.js | 与数据处理相关 |
lists.js | 与网址黑名单和网址白名单相关 |
和 Telegram 相关的宏命令文件 | 作用 |
---|---|
Tg json 2 -Black List Urls.jsee | 获得除去网址黑名单的所有网址 |
Tg json 2 +White List Urls.jsee | 获得满足网址白名单的所有网址 |
Tg json 2 BaiDuWangPan.jsee | 针对百度网盘,单独处理 |
Urls 2 Tg Links.jsee | 已获得网址列表,再从中提取 Telegram 相关链接 |
和 QQ 相关的宏命令文件 | 作用 |
---|---|
QQ txt 2 -Black List Urls.jsee | 获得除去网址黑名单的所有网址 |
QQ txt 2 +White List Urls.jsee | 获得满足网址白名单的所有网址 |
QQ txt 2 BaiDuWangPan.jsee | 针对百度网盘,单独处理 |
别的宏命令文件 | 作用 |
---|---|
Text 2 +White List Urls.jsee | 不针对数据源,获得满足网址白名单的所有网址(不能限定时间) |
该目录下存放实现批量打开网址需要的文件。
文件 | 作用 |
---|---|
open.bat | 在默认浏览器中,批量(一行一行地)打开 pages.txt 中的网址列表 |
pages.txt | 暂存一批需要使用 open.bat 批量打开的网址 |
目前只处理了 Telegram 和 QQ 两个社交平台的数据源。
- 相比 QQ,从 Telegram 得到的网址列表质量更高,信噪比更高,数量级更大(两三倍)
- 但是QQ 的网址列表有时候在实用性上强于 Telegram (看个人情况)
- Telegram 没有不使用代码的办法来批量导出所有群聊数据,但是 QQ 可以一键导出