Pytorch 版验证码识别（包括迁移学习知乎的验证码）

获取代码

git clone [email protected]:littlepai/tl_ocr.git

pip install -r requirement.txt

注意

由于Pytorch没有提供高效的解码方式，自己写的或者其他作者写的 Beam search 解码起来太慢了，所以案例使用贪心算法做解码，不过没关系，因为训练和解码是两条独立的线，训练照样用CTC Loss当损失函数，哪天不想用贪心算法做解码了，可以不用重新训练，直接把解码算法换成别的，都是可以的，记住，这两条线是独立的哦
如果用GPU训练，显存最好大于等于6G，如果你的显卡实在low，导致溢出，那就修改一下run_tl.sh和run.sh 最后一行的启动训练命令，把每一批样本数改小点，加上参数 ** --val_batchSize 32 --batchSize 32**

sh run.sh       # 时间长短得看有无GPU，性能如何
sh run_tl.sh    # 第一个训练结束之后，这个是迁移学习，比较快

python predict.py

Name	Name	Last commit message	Last commit date
Latest commit littlepai 迁移的时候多迭代几个epoch吧 Dec 5, 2019 5010ba3 · Dec 5, 2019 History 6 Commits
data	data	first commit	Dec 5, 2019
models	models	first commit	Dec 5, 2019
.gitignore	.gitignore	first commit	Dec 5, 2019
README.MD	README.MD	增加提示，对应显卡很垃圾怎么处理（鄙视）	Dec 5, 2019
data_gen.py	data_gen.py	first commit	Dec 5, 2019
dataset.py	dataset.py	first commit	Dec 5, 2019
main.py	main.py	first commit	Dec 5, 2019
pai_image.py	pai_image.py	first commit	Dec 5, 2019
params.py	params.py	first commit	Dec 5, 2019
predict.py	predict.py	first commit	Dec 5, 2019
requirement.txt	requirement.txt	first commit	Dec 5, 2019
run.sh	run.sh	训练脚本纠错	Dec 5, 2019
run_tl.sh	run_tl.sh	迁移的时候多迭代几个epoch吧	Dec 5, 2019
utils.py	utils.py	first commit	Dec 5, 2019