Skip to content

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

License

Notifications You must be signed in to change notification settings

yeyupiaoling/PPASR

Repository files navigation

python version GitHub forks GitHub Repo stars GitHub 支持系统

PPASR流式与非流式语音识别项目

PPASR是一款基于PaddlePaddle实现的自动语音识别框架,PPASR中文名称PaddlePaddle中文语音识别(PaddlePaddle Automatic Speech Recognition),当前为V3版本,与V2版本不兼容,如果想使用V2版本,请在这个分支V2。PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。别忘了star

欢迎大家扫码入知识星球或者QQ群讨论,知识星球里面提供项目的模型文件和博主其他相关项目的模型文件,也包括其他一些资源。

知识星球 QQ群

本项目使用的环境:

  • Anaconda 3
  • Python 3.11
  • PaddlePaddle 2.6.1
  • Windows 11 or Ubuntu 22.04

项目特点

  1. 支持多个语音识别模型,包含deepspeech2conformersqueezeformerefficient_conformer等,每个模型都支持流式识别和非流式识别,在配置文件中streaming参数设置。
  2. 支持多种解码器,包含ctc_greedy_searchctc_prefix_beam_searchattention_rescoringctc_beam_search等。
  3. 支持多种预处理方法,包含fbankmfcc等。
  4. 支持多种数据增强方法,包含噪声增强、混响增强、语速增强、音量增强、重采样增强、位移增强、SpecAugmentor、SpecSubAugmentor等。
  5. 支持多种推理方法,包含短音频推理、长音频推理、流式推理、说话人分离推理等。
  6. 更多特点等待你发现。

更新记录

  • 2025.03: 正式发布最终级的V3版本。

视频讲解

模型下载

  1. WenetSpeech (10000小时,普通话) 的预训练模型列表,错误率类型为字错率(CER):
使用模型 是否为流式 预处理方式 解码方式 test_net test_meeting aishell_test 下载地址
Conformer True fbank ctc_greedy_search 加入知识星球获取
Conformer True fbank ctc_prefix_beam_search 加入知识星球获取
Conformer True fbank attention_rescoring 加入知识星球获取
Conformer True fbank ctc_beam_search 加入知识星球获取
DeepSpeech2 True fbank ctc_greedy_search 加入知识星球获取
DeepSpeech2 True fbank ctc_prefix_beam_search 加入知识星球获取
DeepSpeech2 True fbank ctc_beam_search 加入知识星球获取
  1. AIShell (179小时,普通话) 的预训练模型列表,错误率类型为字错率(CER):
使用模型 是否为流式 预处理方式 解码方式 自带的测试集 下载地址
Conformer True fbank ctc_greedy_search 0.06110 加入知识星球获取
Conformer True fbank ctc_prefix_beam_search 0.06114 加入知识星球获取
Conformer True fbank attention_rescoring 0.05412 加入知识星球获取
Conformer True fbank ctc_beam_search 0.04468 加入知识星球获取
DeepSpeech2 True fbank ctc_greedy_search 0.14134 加入知识星球获取
DeepSpeech2 True fbank ctc_prefix_beam_search 0.14132 加入知识星球获取
DeepSpeech2 True fbank ctc_beam_search 0.10598 加入知识星球获取
  1. Librispeech (960小时,英语) 的预训练模型列表,错误率类型为词错率(WER):
使用模型 是否为流式 预处理方式 解码方式 自带的测试集 下载地址
Conformer True fbank ctc_greedy_search 0.07562 加入知识星球获取
Conformer True fbank ctc_prefix_beam_search 0.07518 加入知识星球获取
Conformer True fbank attention_rescoring 0.06669 加入知识星球获取
Conformer True fbank ctc_beam_search / 加入知识星球获取
DeepSpeech2 True fbank ctc_greedy_search 0.15479 加入知识星球获取
DeepSpeech2 True fbank ctc_prefix_beam_search 0.15247 加入知识星球获取
DeepSpeech2 True fbank ctc_beam_search / 加入知识星球获取
  1. 其他数据集的预训练模型列表,错误率类型,如果是中文就是字错率(CER),英文则是词错率(WER),中英混合为混合错误率(MER):
使用模型 是否为流式 预处理方式 数据集 语言 解码方式 测试数据 下载地址
Conformer True fbank 粤语数据集 粤语 ctc_greedy_search 0.05736 加入知识星球获取
Conformer True fbank 粤语数据集 粤语 ctc_prefix_beam_search 0.05730 加入知识星球获取
Conformer True fbank 粤语数据集 粤语 attention_rescoring 0.04877 加入知识星球获取
Conformer True fbank 粤语数据集 粤语 ctc_beam_search 0.05409 加入知识星球获取
Conformer True fbank 中英混合数据集 中英文 ctc_greedy_search 加入知识星球获取
Conformer True fbank 中英混合数据集 中英文 ctc_prefix_beam_search 加入知识星球获取
Conformer True fbank 中英混合数据集 中英文 attention_rescoring 加入知识星球获取
Conformer True fbank 中英混合数据集 中英文 ctc_beam_search 加入知识星球获取
Conformer True fbank 更大数据集(16000+小时) 中英文 ctc_greedy_search 加入知识星球获取
Conformer True fbank 更大数据集(16000+小时) 中英文 ctc_prefix_beam_search 加入知识星球获取
Conformer True fbank 更大数据集(16000+小时) 中英文 attention_rescoring 加入知识星球获取
Conformer True fbank 更大数据集(16000+小时) 中英文 ctc_beam_search 加入知识星球获取

说明:

  1. 这里字错率或者词错率是使用eval.py
  2. 分别给出了使用三个解码器的错误率,其中ctc_prefix_beam_searchattention_rescoring的解码搜索大小为10。
  3. 训练时使用了噪声增强和混响增强,以及其他增强方法,具体请看配置参数configs/augmentation.yml
  4. 这里只提供了流式模型,但全部模型都支持流式和非流式的,在配置文件中streaming参数设置。

有问题欢迎提 issue 交流

文档教程

相关项目

特别感谢

打赏作者


打赏一块钱支持一下作者

打赏作者

参考资料

About

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •