GitHub - chengyingshe/visual_aid_project: 使用讯飞开放平台提供的高精度文字识别、文字理解等API，基于mediapipe、opencv、TTS等库实现的盲人视觉辅助科创项目

visual_aid_project

项目目的

本项目意在开发一个盲人视觉辅助系统的科创项目

项目运行

安装所需的Python库函数：
- torch # recommend GPU version
- opencv-python==4.9.0.80
- mediapipe==0.10.11
- TTS==0.22.0
- pocketsphinx==5.0.3
- pygame==2.5.2
- websocket-client==1.7.0
- urllib
免费领取/付费购买讯飞开放平台中的API服务
- 文字识别-通用文字识别intsig
- 星火认知大模型-图片理解
修改xfyun_api/utils.py文件中的parameters中的appid,apisecret,apikey为自己的服务接口认证信息
运行项目文件夹中的 main.py 程序

功能介绍

关键词检测（参考文档）

由上图中可知，包含6条指令（语速加快/语速减慢无效）
手势识别（使用mediapipe库）

获取两只手的食指指尖坐标
OCR文字识别（使用讯飞通用文字识别intsig API）
图片理解（使用讯飞星火认知大模型）

项目流程

项目运行后会启动 socket_client 程序，用于摄像头获取图像帧数据，并启动关键词监听 socket_server 程序，两个程序通过TCP/IP协议进行数据交互；当关键词被触发时，server 程序会向 client 程序发送定义好的指令，server 程序接收到指令之后会判断指令类型并进行相应处理。

补充

OCR文字识别的本地部署可以参考本人另外一个项目：hololens2_server

该项目基于GitHub上多个开源项目和Flask轻量级Web框架实现了：

OCR文字识别、人脸表情识别、语音识别的Web API搭建

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.assets		README.assets
camera		camera
images		images
keyword_recognition		keyword_recognition
server_client		server_client
sound_player		sound_player
test		test
xfyun_api		xfyun_api
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
socket_client.py		socket_client.py
socket_server.py		socket_server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

visual_aid_project

项目目的

项目运行

功能介绍

项目流程

补充

About

Releases

Packages

Languages

chengyingshe/visual_aid_project

Folders and files

Latest commit

History

Repository files navigation

visual_aid_project

项目目的

项目运行

功能介绍

项目流程

补充

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages