pvad

speaker conditioned voice activity detection replicated from https://arxiv.org/abs/1908.04284

Classifier: {non-speech, target speaker, and non-target speaker}

Synthetic dataset generation
prep4kaldi.sh
flac_to_wav.sh
concat.sh concat.py
augment.py
Prepare target speaker embeddings
extract_embeddings.py
Extract features and labels
correct_target_labels.py
fbank.py
feature_labels.py
Data loader
dataloader.py
dataloader_test.py
Model definition and traning
pvad_training.py
Saved model
checkpoint_oct22_coswarm.t7
Test
test.py

Provide feedback

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
augment.py		augment.py
checkpoint_oct22_coswarm.t7		checkpoint_oct22_coswarm.t7
concat.py		concat.py
concat.sh		concat.sh
correct_target_labels.py		correct_target_labels.py
dataloader.py		dataloader.py
dataloader_test.py		dataloader_test.py
extract_embeddings.py		extract_embeddings.py
fbank.py		fbank.py
feature_labels.py		feature_labels.py
flac_to_wav.sh		flac_to_wav.sh
prep4kaldi.sh		prep4kaldi.sh
pvad_training.py		pvad_training.py
requirements.txt		requirements.txt
test.py		test.py