Skip to content

PDF全电发票(类型号:32)信息提取,使用pdfminer.six对文件元素定位,可能存在定位不准的情况。结果输出成excel表格,也可二次开发对数据进一步处理。不支持纯图片OCR!

License

Notifications You must be signed in to change notification settings

iRodinia/Inovice_Data_Extraction

Repository files navigation

Inovice_Data_Extraction

PDF全电发票(类型号:32)信息提取,使用pdfminer.six对文件元素定位,具体使用请参考这里,可能存在定位不准的情况。结果输出成excel表格,也可二次开发对数据进一步处理。不支持纯图片OCR!

主文件为Inovice_process.py,使用时将inovice_folder更改为自己存放发票PDF的文件夹路径即可。

免责声明:本项目为新手练习project,在LISENCE许可范围内随意使用。代码目前没有做内存管理,没有做封装,没有多线程,所以不支持大批量数据处理。出错造成的任何损失本人概不负责!

支持作者可以给一个Star!THX!

About

PDF全电发票(类型号:32)信息提取,使用pdfminer.six对文件元素定位,可能存在定位不准的情况。结果输出成excel表格,也可二次开发对数据进一步处理。不支持纯图片OCR!

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages