数据集名称 | 用途 | 备注 |
---|---|---|
人民日报数据集 | 实体识别 | china-people-daily-ner-corpus |
百度关系抽取 | 关系抽取 | 官网, 百度云(含dev), HF |
Sentiment | 情感分类 | Sentiment |
THUCNews | 文本分类、文本生成 | 源文件, HF(转换后) |
ATEC | 文本相似度 | ATEC |
BQ | 文本相似度 | BQ |
LCQMC | 文本相似度 | LCQMC |
PAWSX | 文本相似度 | PAWSX |
STS-B | 文本相似度 | STS-B |
CSL | 文本生成 | CSL |
- Wiki中文百科
- 百度百科
- C4_ZH
- WuDaoCorpora Text文本预训练数据集
数据集名称 | 介绍 |
---|---|
shibing624/alpaca-zh | 参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条 |
BelleGroup/Belle-0.5M-cn | 包含约50万条由BELLE项目生成的中文指令数据 |
BelleGroup/Belle-1M-cn | 包含约100万条由BELLE项目生成的中文指令数据 |
BelleGroup/Belle-school_math_0.25M | Belle开放的0.25M数学指令数据集 |
BelleGroup/Belle-multiturn_chat_0.8M | Belle开放的0.8M多轮任务对话数据集 |
fnlp/moss-002-sft-data | MOSS-002所使用的多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话 |
fnlp/moss-003-sft-data | moss-moon-003-sft所使用的多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,相比moss-002-sft-data,moss-003-sft-data更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据 |
YeungNLP/firefly-train-1.1M | 流萤23种常见的中文NLP任务的数据,并且构造了许多与中华文化相关的数据,如对联、作诗、文言文翻译、散文、金庸小说等。对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 |
YeungNLP/ultrachat | 清华大学开源的英文多轮对话数据,包含140万+数据 |
YeungNLP/WizardLM_evol_instruct_V2_143k | 由WizardLM项目开源的英文指令微调数据集,通过Evol-Instruct方法让指令进化,加强指令的复杂度,以提升模型对复杂指令的遵循能力。包含143k条数据。 |
shareAI/CodeChat | 主要包含逻辑推理、代码问答、代码生成相关语料样本。 |
shareAI/ShareGPT-Chinese-English-90k | 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。 |
YeungNLP/ultrafeedback_binarized | 英文偏好数据集,可用于DPO训练 |
deepctrl/deepctrl-sft-data | 匠数大模型SFT数据集是一个由匠数科技精心搜集整理的高质量数据集,包含10M条数据的中文数据集和包含2M条数据的英文数据集 |
- data_similarity.json: 语义相似度示例数据集,用于simbert
- LCCD-large-shuf.jsonl: 示例数据集,用于dialogpt_finetune