Stars
RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.
A collection of LLM papers, blogs, and projects, with a focus on OpenAI o1 🍓 and reasoning techniques.
Distribute and run LLMs with a single file.
Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
An efficient, flexible and full-featured toolkit for fine-tuning LLM (InternLM2, Llama3, Phi3, Qwen, Mistral, ...)
ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型
搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型
中文法律LLaMA (LLaMA for Chinese legel domain)
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。
✨✨Latest Advances on Multimodal Large Language Models
中文大模型能力评测榜单:目前已囊括139个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、Claude3.5、百度文心一言、千问、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及deepseek-v3、qwen2.5、llama3.1、glm4、书生internLM2.5等开源大模型。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
主要是我是日常看过的不错的文章的资源汇总,方便自己也分享给大家。有些我看过的,就会做简单的解读,没看过的,就先罗列一下,然后之后看了把解读更新上;涉及到搜索/推荐/自然语言处理。
《开源大模型食用指南》针对中国宝宝量身打造的基于Linux环境快速微调(全参数/Lora)、部署国内外开源大模型(LLM)/多模态大模型(MLLM)教程
An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.
tianyabanbu / MNBVC
Forked from esbatmop/MNBVCMNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
tianyabanbu / EasySpider
Forked from NaiboWang/EasySpiderA visual no-code/code-free web crawler/spider易采集:一个可视化爬虫软件,可以无代码图形化的设计和执行爬虫任务
🏅 Collection of Kaggle Solutions and Ideas 🏅
tianyabanbu / DecryptPrompt
Forked from DSXiangLi/DecryptPrompt总结Prompt&LLM论文,开源数据&模型,AIGC应用
tianyabanbu / annotated_deep_learning_paper_implementations
Forked from labmlai/annotated_deep_learning_paper_implementations🧑🏫 60 Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit, ...), optimizers (adam, adabelief, sophia, ...), gan…
This repository collects some codes that encapsulates commonly used algorithms in the field of machine learning. Most of them are based on Numpy, Pandas or Torch. You can deepen your understanding …
🧑🏫 60+ Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit, ...), optimizers (adam, adabelief, sophia, ...), ga…
A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
🏅 Collection of Kaggle Solutions and Ideas 🏅