readme.md

训练中文的`dolly_v2_3b`模型

dolly_v2_3b模型本质上就是使用的gpt_neox模型框架，可以商用,而且也都出来很多年了。
当前有很多人基于llama、gptj、chatglm-6b等模型，做了很多微调，有些也都做过了，有些不能商用，有些还要申请，实在是太可惜了，太麻烦了。
既然dolly_v2_3b可以商用，那我们就主打一个随意，稍微动动手就可以训练一个属于我们的模型。
本仓库用到的代码，来源于databrickslabs/dolly，对代码做了部分调整和融合。反正就是复制粘贴、懂得都懂～
模型叫什么名字：小黑子 😛，已将模型放在https://huggingface.co/yuanzhoulvpi/xiaoheizi-3b

🎯 支持多卡模型并行：也不知道databrickslabs/dolly为啥要使用gpt_neox模型，这个模型transformers对他支持的其实一般，于是我把代码魔改了一部分，增加了多卡并行计算功能(主要是是模型并行).
🥱 虽然代码是从databrickslabs/dolly复制的，但是简化了很多不必要的代码，更简单一点，我不喜欢复杂的代码，越简单越好。
😵 支持bp16：我原本的打算是说支持fp16的，但是发现fp16怎么搞都不行，但是bp16倒是可以。