本项目的目标是自动化获取 YC S24 批次的项目信息,并对其进行数据清理与信息抽取,最终以海报形式展示相关项目内容。
使用爬虫技术获取 YC 网站上的项目信息,并利用大语言模型对数据进行清理和抽取关键信息。
最后,借助 HTML 渲染和 Puppeteer 截图技术,将这些信息以视觉化的方式呈现。
📊 总表格:https://agentuniverse.feishu.cn/wiki/HosvwLWT9ifN7lkidDAcHjxqnsf?from=from_copylink
🌐 总图谱:https://agentuniverse.feishu.cn/wiki/RLUPw94FWiMSGSkSJKTc94djnof
📑 每个项目:https://agentuniverse.feishu.cn/wiki/L0C1wj2k4iiXAMkuCNrcHwLtnPb
📚 超级盘点丨YC S24 200+ AI 项目详细整理:https://mp.weixin.qq.com/s/jaKksNweXtbB4MXBUs9JhQ
📖「特工宇宙」公开资料:https://agentuniverse.feishu.cn/wiki/ISlvw7QTIi8kq8kMOYqczJ1inFh
.
├── Chrome # 存放爬取过程中的缓存数据
├── demo.ipynb # 核心功能展示的 Jupyter Notebook
├── LICENSE # 项目开源协议
├── markdown-img # Markdown 文件所需的图片资源
├── package.json # 项目依赖的配置文件
├── poster_html # 海报 HTML 版本存放
├── README.md # 项目说明文档
├── screenshot.js # Puppeteer 截图脚本
└── YC 项目.md # 项目的详细教程文档
- 项目列表爬取 :通过自动化工具爬取 YC 网站上的所有 S24 项目信息
- 数据清理与抽取 :利用 LLM 模型对每个项目的详细信息进行处理,提取出项目的背景、问题和解决方案等关键信息。
- 可视化海报生成 :使用 HTML 模板和 Puppeteer 对项目信息进行批量渲染,并自动生成海报图片。
git clone https://github.com/Agent-Universe/YC_Poster.git
cd YC
# 创建环境,推荐使用 conda
conda create -n yc_poster python=3.8
# 激活环境
conda activate yc_poster
# 安装依赖
pip install -r requirements.txt
# 安装 node js 和 npm 之后
npm install
# 项目只依赖 puppeteer,直接 npm install puppeteer 也可以
YC 项目列表的爬取、详细项目的爬取、LLM 信息抽取、生成 html 版海报均在 demo.ipynb 中,目前仅展示核心逻辑和基础代码。详细教程请查看 [YC 项目.md](YC 项目.md)
html 版海报生成后,可运行如下代码,获得图片。
node screenshot.js
本项目基于 MIT 许可证开源,详细信息请参见 LICENSE 文件。
微信:jamiu99
欢迎关注微信公众号:特工宇宙