Name		Name	Last commit message	Last commit date
parent directory ..
LCCD-large-shuf.jsonl		LCCD-large-shuf.jsonl
README.md		README.md
auto_instructions.yml		auto_instructions.yml
data_similarity.json		data_similarity.json
nbce_contexts.json		nbce_contexts.json

README.md

一、数据集

传统nlp任务

数据集名称	用途	备注
人民日报数据集	实体识别	china-people-daily-ner-corpus
百度关系抽取	关系抽取	官网, 百度云(含dev), HF
Sentiment	情感分类	Sentiment
THUCNews	文本分类、文本生成	源文件, HF(转换后)
ATEC	文本相似度	ATEC
BQ	文本相似度	BQ
LCQMC	文本相似度	LCQMC
PAWSX	文本相似度	PAWSX
STS-B	文本相似度	STS-B
CSL	文本生成	CSL

预训练

Wiki中文百科
百度百科
C4_ZH
WuDaoCorpora Text文本预训练数据集

指令微调

数据集名称	介绍
shibing624/alpaca-zh	参考Alpaca方法基于GPT4得到的self-instruct数据，约5万条
BelleGroup/Belle-0.5M-cn	包含约50万条由BELLE项目生成的中文指令数据
BelleGroup/Belle-1M-cn	包含约100万条由BELLE项目生成的中文指令数据
BelleGroup/Belle-school_math_0.25M	Belle开放的0.25M数学指令数据集
BelleGroup/Belle-multiturn_chat_0.8M	Belle开放的0.8M多轮任务对话数据集
fnlp/moss-002-sft-data	MOSS-002所使用的多轮对话数据，覆盖有用性、忠实性、无害性三个层面，包含由text-davinci-003生成的约57万条英文对话和59万条中文对话
fnlp/moss-003-sft-data	moss-moon-003-sft所使用的多轮对话数据，基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成，相比moss-002-sft-data，moss-003-sft-data更加符合真实用户意图分布，包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数，约含110万条对话数据
YeungNLP/firefly-train-1.1M	流萤23种常见的中文NLP任务的数据，并且构造了许多与中华文化相关的数据，如对联、作诗、文言文翻译、散文、金庸小说等。对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万
YeungNLP/ultrachat	清华大学开源的英文多轮对话数据，包含140万+数据
YeungNLP/WizardLM_evol_instruct_V2_143k	由WizardLM项目开源的英文指令微调数据集，通过Evol-Instruct方法让指令进化，加强指令的复杂度，以提升模型对复杂指令的遵循能力。包含143k条数据。
shareAI/CodeChat	主要包含逻辑推理、代码问答、代码生成相关语料样本。
shareAI/ShareGPT-Chinese-English-90k	中英文平行双语优质人机问答数据集，覆盖真实复杂场景下的用户提问。
YeungNLP/ultrafeedback_binarized	英文偏好数据集，可用于DPO训练
deepctrl/deepctrl-sft-data	匠数大模型SFT数据集是一个由匠数科技精心搜集整理的高质量数据集,包含10M条数据的中文数据集和包含2M条数据的英文数据集

二、文档中示例数据说明

data_similarity.json: 语义相似度示例数据集，用于simbert
LCCD-large-shuf.jsonl: 示例数据集，用于dialogpt_finetune