GitHub - zhiyou720/chinese_bert_ner: 基础pytorch 和 bert的ner模型，实现断句，标点符号预测

BERT-NER结构实现文本断句和标点符号预测功能。

数据

作者使用了一些小说当作训练数据，使用类似BIO的NER格式自动标注。

原始语料放在data/raw/ 下面

使用data_helper 可以分别生成断句的语料和标点的训练语料。

模型训练

由于时间有点久远，作者搞忘了有没有把标点和断句合并一起训练，run_ner.py 中很简单能找到实现逻辑。

由于模型比较小，设备好的朋友梯度积累完全没有必要，fp16混合精度也是，多机多卡也没必要。。。

最简单开启模型训练 train.sh

推理与预测

见predict.py

toy_model: 链接: https://pan.baidu.com/s/1UkHW8sviqCeCtIBuUxGhJA 密码: pmmb

成品模型与应用

见我的另外一个repo: https://github.com/zhiyou720/nlp_preprocess

其他

括号类成对标点:

一开始我想的比较简单，对于这种标点的标注方式也跟普通一样，但其实这类的标注方式用完成BIO形式标注效果肯定会特别好，有兴趣的可以自己尝试。

标点符号的预测用BERT有长度限制，这点就很烦。可以考虑GPT类生成模型做。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
utils/config		utils/config
.gitignore		.gitignore
README.md		README.md
bert.py		bert.py
data_helper.py		data_helper.py
predict.py		predict.py
requirements.txt		requirements.txt
run_ner.py		run_ner.py
train.sh		train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

数据

模型训练

推理与预测

成品模型与应用

其他

About

Releases

Packages

Contributors 2

Languages

zhiyou720/chinese_bert_ner

Folders and files

Latest commit

History

Repository files navigation

数据

模型训练

推理与预测

成品模型与应用

其他

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages