- 🎯 在效果上,只希望比肩
chatglm-6b
- ⚙️ 使用
sft
数据训练中文bloom
、falcon
模型。 - 🎉 提供一整套的开源解决方案。让小公司、个人都可以玩起来。可商用、无任何法务风险。
- 支持对
falcon模型
做sft~
- ✅ 基于stanford_alpaca项目,使用
sft
格式数据对bloom
、falcon
模型微调; - ✅ 支持
deepspeed-zero2
、deepspeed-zero3
; - ✅ 支持自定义数据,支持大数据训练;
- ✅ 得益于
bloom
本身的能力,微调后的模型支持中文
、英文
、代码
、法语
、西班牙语
等; - ✅ 微调后的模型,中文能力显著提升;
- ✅ 支持不同尺寸
bloom
模型,如560m
、3b
、7b
、13b
; - ✅ 支持
falcon
模型,如https://huggingface.co/tiiuae/falcon-7b
;
- 🎊 模型已经上传到huggingface上,欢迎来尝试:
bloom-560m_chat
: 想要体验一个轻量的,那就直接体验5.6亿参数
https://huggingface.co/yuanzhoulvpi/chinese_bloom_560mbloom-7b_chat
: 想要体验一个更大的,那就可以试一试70亿参数
https://huggingface.co/yuanzhoulvpi/chinese_bloom_7b_chat
- 🎉 在hugginface上部署了一个cpu版本的(有点慢,毕竟是🆓)https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat
-
bloom-系列模型
: https://huggingface.co/bigscience
- 数据来源于
BelleGroup
,主要是用到这几个数据集:['BelleGroup/generated_chat_0.4M', 'BelleGroup/school_math_0.25M', 'BelleGroup/train_2M_CN', 'BelleGroup/train_1M_CN', 'BelleGroup/train_0.5M_CN', 'BelleGroup/multiturn_chat_0.8M']
; - 可以基于这些数据样式,制作自己的数据,并训练;
- 运行
data_proj/process_data.ipynb
代码;或者模仿结果,制作自己的数据集; - 运行结束之后,有一个文件夹
data_proj/opendata
。文件夹下有若干个json
格式的文件。
- 基础运行策略
sh base_run.sh
deepspeed
运行策略
sh ds_all.sh
infer.ipynb
文件gradio
交互界面:https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat 因为是使用的huggingface的免费的cpu版本,所以推理速度比较慢。
不管是写代码还是写文案,bloom-7b
在中文领域有极大的潜力
chinese_bloom_560m
模型,可以在这里体验https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chatchinese_bloom_7b
模型,可以在这里体验http://101.68.79.42:7861