本项目意在开发一个盲人视觉辅助系统的科创项目
-
安装所需的Python库函数:
- torch # recommend GPU version
- opencv-python==4.9.0.80
- mediapipe==0.10.11
- TTS==0.22.0
- pocketsphinx==5.0.3
- pygame==2.5.2
- websocket-client==1.7.0
- urllib
-
免费领取/付费购买讯飞开放平台中的API服务
- 文字识别-通用文字识别intsig
- 星火认知大模型-图片理解
-
修改
xfyun_api/utils.py
文件中的parameters
中的appid
,apisecret
,apikey
为自己的服务接口认证信息 -
运行项目文件夹中的
main.py
程序
-
关键词检测(参考文档)
由上图中可知,包含6条指令(语速加快/语速减慢无效)
-
手势识别(使用mediapipe库)
获取两只手的食指指尖坐标
-
OCR文字识别(使用讯飞通用文字识别intsig API)
-
图片理解(使用讯飞星火认知大模型)
项目运行后会启动
socket_client
程序,用于摄像头获取图像帧数据,并启动关键词监听socket_server
程序,两个程序通过TCP/IP协议进行数据交互;当关键词被触发时,server
程序会向client
程序发送定义好的指令,server
程序接收到指令之后会判断指令类型并进行相应处理。
OCR文字识别的本地部署可以参考本人另外一个项目:hololens2_server
该项目基于GitHub上多个开源项目和Flask轻量级Web框架实现了:
OCR文字识别、人脸表情识别、语音识别的Web API搭建