通过PyMuPDF和PADDLE OCR提取PDF中文本、图片和表格创建markdown,基于Python 3.10 64-bit。
-
安装PaddlePaddle,参考https://www.paddlepaddle.org.cn/documentation/docs/zh/install/pip/frompip.html
-
pip install -r requirements.txt
可通过python start.py -h
查看
-f
:单个文件或文件夹路径,仅支持一级目录
例如python start.py -f samples
- 仅支持中英文(由于PyMuPDF存在问题偶尔会出现乱码)
- 仅支持单栏布局
- 不支持页眉和页脚
- 不支持各种文本样式(包括颜色、加粗、斜体等)
……(其他待发现问题)