转录视频语音并翻译,语音克隆,口型同步,压制字幕,支持中英视频互相转换
详见res.mp4
- 语音识别 fast-whisper
- 文本翻译 facebook/m2m
- 音色克隆
- 口型同步:videotalking
- 脸部超分:gfpgan
- 视频整合 pyvideotrans
- 安装ffmpeg并添加到环境变量,或者是直接把相应可执行程序放到当前目录ffmpeg文件夹
ffmpeg
|- ffmpeg.exe
|- ffprobe.exe
...
- 安装依赖
git clone [email protected]:halfzm/v2vt.git
conda create -n v2vt_clone python=3.11.0
conda activate v2vt_clone
cd v2vt_clone
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
- 把
openvoice
中需要的模型放到openvoice_checkpoints
文件夹中,目录结构应该如下[optional]
openvoice_checkpoints
|- base_speakers
|- ...
|- converter
|- ...
...
- 把
tts
中需要的模型放到tts_models
文件夹中,目录结构应该如下
tts_models
|- tts_models--multilingual--multi-dataset--xtts_v2
|- config.json
|- model.pth
|- speakers_xtts.pth
|- vocal.json
|- ...
...
- 把
video_retalking
中需要的模型放到video-retalking/checkpoints
文件夹中,目录结构应该如下
video-retalking
|- checkpoints
|- ...
...
- 快速启动
python app.py
-
关于输入
输入视频不能太短,否则语音克隆的时候报错(最好不要低于5S) -
关于输出
默认是输出到当前目录下的output.mp4,也可以在webui中直接下载
licence和code_of_conduct和video-retalking项目一致
详见LICENSE和CODE_OF_CONDUCT