Skip to content

使用讯飞开放平台提供的高精度文字识别、文字理解等API,基于mediapipe、opencv、TTS等库实现的盲人视觉辅助科创项目

Notifications You must be signed in to change notification settings

chengyingshe/visual_aid_project

Repository files navigation

visual_aid_project

项目目的

本项目意在开发一个盲人视觉辅助系统的科创项目

项目运行

  1. 安装所需的Python库函数:

    • torch # recommend GPU version
    • opencv-python==4.9.0.80
    • mediapipe==0.10.11
    • TTS==0.22.0
    • pocketsphinx==5.0.3
    • pygame==2.5.2
    • websocket-client==1.7.0
    • urllib
  2. 免费领取/付费购买讯飞开放平台中的API服务

  3. 修改xfyun_api/utils.py文件中的parameters中的appid,apisecret,apikey为自己的服务接口认证信息

    1713171114624

  4. 运行项目文件夹中的 main.py 程序

功能介绍

1716031273865

1712330240306

项目流程

项目运行后会启动 socket_client 程序,用于摄像头获取图像帧数据,并启动关键词监听 socket_server 程序,两个程序通过TCP/IP协议进行数据交互;当关键词被触发时,server 程序会向 client 程序发送定义好的指令,server 程序接收到指令之后会判断指令类型并进行相应处理。

补充

OCR文字识别的本地部署可以参考本人另外一个项目:hololens2_server

该项目基于GitHub上多个开源项目和Flask轻量级Web框架实现了:

OCR文字识别、人脸表情识别、语音识别的Web API搭建

About

使用讯飞开放平台提供的高精度文字识别、文字理解等API,基于mediapipe、opencv、TTS等库实现的盲人视觉辅助科创项目

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published