PDF全电发票(类型号:32)信息提取,使用pdfminer.six对文件元素定位,具体使用请参考这里,可能存在定位不准的情况。结果输出成excel表格,也可二次开发对数据进一步处理。不支持纯图片OCR!
主文件为Inovice_process.py,使用时将inovice_folder更改为自己存放发票PDF的文件夹路径即可。
免责声明:本项目为新手练习project,在LISENCE许可范围内随意使用。代码目前没有做内存管理,没有做封装,没有多线程,所以不支持大批量数据处理。出错造成的任何损失本人概不负责!
支持作者可以给一个Star!THX!