Skip to content

目前来说,本项目可以教你怎么在不用高级编程语言从群聊消息中得到网址列表(注:宏不算高级编程语言)

Notifications You must be signed in to change notification settings

sallychang/Chat-History-2-Urls

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Chat History 2 Urls

目前,本项目主要记录在 Windows 系统上,针对常见的社交软件(如 Telegram、QQ 等),导出聊天消息记录并文本处理,得到需要的网址列表。

Demo

👉🔗Chat History 2 Urls - YouTube

假设已有一个约 3GB 的文本数据文件(可以使用 EmEditor 合并多个数据文件),

🤔这里建议将聊天记录先合并成一个文件。因为宏命令文件都是面向大数据文件编写,对于小数据文件也可以使用,但不是最优方案。

比如对于大文件来说,提取筛选数据效率更高,但是对于小文件来说,筛选数据并覆盖源文本的操作也不差,并且可以减少中间文件的产生。

然后:

  • 使用 EmEditor 打开该文本数据文件
  • 选择宏(Alt + M + L
  • 执行宏(Ctrl + Shift + P
  • 得到需要的网址列表,保存

接下来的流程比较个性化,比如:

  • 批量粘贴网址列表到 pages.txt 中,执行 open.bat,实现批量打开网址
  • 网址筛选,有用的网址收藏至 Eagle 中,做好分类、评分、标签等

项目文件夹说明

Blogs/

该目录下存放有 4 篇博文说明:

文章 内容
操作篇 讲述了我是怎么实用已有的软件和宏等工具来进行网址筛选的
优化篇(没写完,看不得) 罗列了整个工作流程可以在哪些方面可以进一步改进
安全篇(没写完,看不得) 分析了整个工作流程会涉及到网络信息安全相关的问题
心得篇(没写完,看不得) 罗列了一些想法,内容比较跳跃(东一榔头西一棒槌)

Macros/

该目录下主要存放基于 EmEditor 软件编写的宏命令文件和一些公共文件:

公共函数定义文件 作用
common.js 与数据处理相关
lists.js 与网址黑名单和网址白名单相关
和 Telegram 相关的宏命令文件 作用
Tg json 2 -Black List Urls.jsee 获得除去网址黑名单的所有网址
Tg json 2 +White List Urls.jsee 获得满足网址白名单的所有网址
Tg json 2 BaiDuWangPan.jsee 针对百度网盘,单独处理
Urls 2 Tg Links.jsee 已获得网址列表,再从中提取 Telegram 相关链接
和 QQ 相关的宏命令文件 作用
QQ txt 2 -Black List Urls.jsee 获得除去网址黑名单的所有网址
QQ txt 2 +White List Urls.jsee 获得满足网址白名单的所有网址
QQ txt 2 BaiDuWangPan.jsee 针对百度网盘,单独处理
别的宏命令文件 作用
Text 2 +White List Urls.jsee 不针对数据源,获得满足网址白名单的所有网址(不能限定时间)

Scripts/

该目录下存放实现批量打开网址需要的文件。

文件 作用
open.bat 在默认浏览器中,批量(一行一行地)打开 pages.txt 中的网址列表
pages.txt 暂存一批需要使用 open.bat 批量打开的网址

数据源评价

目前只处理了 Telegram 和 QQ 两个社交平台的数据源。

  • 相比 QQ,从 Telegram 得到的网址列表质量更高,信噪比更高,数量级更大(两三倍)
  • 但是QQ 的网址列表有时候在实用性上强于 Telegram (看个人情况)
  • Telegram 没有不使用代码的办法来批量导出所有群聊数据,但是 QQ 可以一键导出

About

目前来说,本项目可以教你怎么在不用高级编程语言从群聊消息中得到网址列表(注:宏不算高级编程语言)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published