Stars
Study of linguistic gender biases in the overview of biographies in the English Wikipedia
A Pythonic wrapper for the Wikipedia API
MediaWiki API wrapper in python http://pymediawiki.readthedocs.io/en/latest/
A Python tool to pull the complete edit history of a Wikipedia page
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
warp多功能一键脚本,支持warp-go与wgcf切换,无限生成warp配置文件,支持升级warp+、warp团队账户,查看VPS本地IP、netflix、chatgpt解锁状态
PDF GPT allows you to chat with the contents of your PDF file by using GPT capabilities. The most effective open source solution to turn your pdf files in a chatbot!
闻达:一个LLM调用平台。目标为针对特定环境的高效内容生成,同时考虑个人和中小企业的计算资源局限性,以及知识安全和私密性问题
Capture screenshots of websites
📸 A GitHub Action to capture screenshots of a website, across Windows, Mac, and Linux
Password protect a static HTML page, decrypted in-browser in JS with no dependency. No server logic needed.
Convert json to sql using python & sqlite3
A webpage proxy that request through Chromium (puppeteer) - can be used to bypass Cloudflare anti bot / anti ddos on any application (like curl)
TextClf :基于Pytorch/Sklearn的文本分类框架,包括逻辑回归、SVM、TextCNN、TextRNN、TextRCNN、DRNN、DPCNN、Bert等多种模型,通过简单配置即可完成数据处理、模型训练、测试等过程。
京东评论情感分析模型,主要包括1、数据获取及探索性分析;2、文本预处理、文本分词、文本向量化、特征提取、
2018-DC-“达观杯”文本智能处理挑战赛:冠军 (1st/3131)
2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4
qqccmm / AutoHome_spider
Forked from StuPeter/AutoHome_spider汽车之家爬虫,解决字体反爬。
越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)
Random User-Agent middleware based on fake-useragent
qqccmm / Tieba_Spider
Forked from Aqua-Dream/Tieba_Spider百度贴吧爬虫(基于scrapy和mysql)
获取知乎、V2EX、微博、贴吧、IT之家、豆瓣、虎扑、天涯、GitHub等网站热门头条的多线程爬虫,使用Flask聚合网站。