Skip to content

VimWei/WhisperXTranscriber

Repository files navigation

WhisperX Transcriber

基于 WhisperX 的音频转写工具,提供了更灵活的配置选项和批量处理能力。

功能特点

  1. WhisperX 核心功能
    • 自动 VAD (Voice Activity Detection) 语音检测和分段
    • Whisper 大规模语音识别
    • Forced Alignment 音素级别对齐
    • 说话人分离 (Speaker Diarization)
  2. 增强功能
    • 完整的配置系统
      • 模型参数配置
      • 输入输出配置
      • 功能模块开关
    • 批量文件处理
      • 支持多种音频格式
      • 支持指定文件处理
      • 支持目录批处理
    • 多格式输出:JSON,SRT, TXT
    • 内存管理优化

安装使用

  1. 安装 Python 环境
    conda create --name whisperx python=3.10
    conda activate whisperx
  1. Install PyTorch, e.g. for Linux and Windows
  • CUDA11.8:
    conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia
  • CPU Only
    conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 cpuonly -c pytorch
  1. 安装 whisperx 及相关库(适配CPU Only)
    pip install -r requirements.txt
  1. 配置 config.yaml 及 secrets.yaml 文件

请在 secrets.yaml 文件中设置 diarization 所需的 token 及 proxy。

    auth_token: "your_token"
    proxy: "your_proxy"

而且要在 HuggingFace 网站上手动接受相关模型的使用授权条款:

  1. 运行程序

可以使用 python 命令:

    python WhisperXTranscriber.py

也可以使用快捷键 “WhisperXConda.lnk” (需要根据项目位置先修订其属性值)

ref

https://github.com/VimWei/WhisperTranscriber

About

WhisperX Transcriber

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published