severe bug fix

timeismylife · Nov 30, 2022 · be61788 · be61788
1 parent 3edb72e
commit be61788
Show file tree

Hide file tree

Showing 3 changed files with 15 additions and 14 deletions.
diff --git a/infer.py b/infer.py
@@ -16,7 +16,7 @@
 
 def run_clip(svc_model, key, acc, use_pe, use_crepe, thre, use_gt_mel, add_noise_step, project_name='', f_name=None,
              file_path=None, out_path=None, slice_db=-40,**kwargs):
-    print(f'code version:2022-11-23 v2')
+    print(f'code version:2022-11-30 v2')
     use_pe = use_pe if hparams['audio_sample_rate'] == 24000 else False
     if file_path is None:
         raw_audio_path = f"./raw/{f_name}"

diff --git a/infer_tools/infer_tool.py b/infer_tools/infer_tool.py
@@ -143,6 +143,7 @@ def infer(self, in_path, key, acc, use_pe=True, use_crepe=True, thre=0.05, singe
         spk_embed = batch.get('spk_embed') if not hparams['use_spk_id'] else batch.get('spk_ids')
         hubert = batch['hubert']
         ref_mels = batch["mels"]
+        energy=batch['energy']
         mel2ph = batch['mel2ph']
         batch['f0'] = batch['f0'] + (key / 12)
         batch['f0'][batch['f0']>np.log2(hparams['f0_max'])]=0
@@ -151,7 +152,7 @@ def infer(self, in_path, key, acc, use_pe=True, use_crepe=True, thre=0.05, singe
         @timeit
         def diff_infer():
             outputs = self.model(
-                hubert.cuda(), spk_embed=spk_embed, mel2ph=mel2ph.cuda(), f0=f0.cuda(), uv=uv.cuda(),
+                hubert.cuda(), spk_embed=spk_embed, mel2ph=mel2ph.cuda(), f0=f0.cuda(), uv=uv.cuda(),energy=energy.cuda(),
                 ref_mels=ref_mels.cuda(),
                 infer=True, **kwargs)
             return outputs

diff --git a/modules/fastspeech/fs2.py b/modules/fastspeech/fs2.py
@@ -23,7 +23,7 @@ def __init__(self, dictionary, out_dims=None):
         super().__init__()
         # self.dictionary = dictionary
         self.padding_idx = 0
-        if hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
+        if not hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
             self.enc_layers = hparams['enc_layers']
             self.dec_layers = hparams['dec_layers']
             self.encoder = FS_ENCODERS[hparams['encoder_type']](hparams)
@@ -79,12 +79,12 @@ def __init__(self, dictionary, out_dims=None):
                     padding=hparams['ffn_padding'], kernel_size=hparams['predictor_kernel'])
         if hparams['use_energy_embed']:
             self.energy_embed = Embedding(256, self.hidden_size, self.padding_idx)
-            self.energy_predictor = EnergyPredictor(
-                self.hidden_size,
-                n_chans=predictor_hidden,
-                n_layers=hparams['predictor_layers'],
-                dropout_rate=hparams['predictor_dropout'], odim=1,
-                padding=hparams['ffn_padding'], kernel_size=hparams['predictor_kernel'])
+            # self.energy_predictor = EnergyPredictor(
+            #     self.hidden_size,
+            #     n_chans=predictor_hidden,
+            #     n_layers=hparams['predictor_layers'],
+            #     dropout_rate=hparams['predictor_dropout'], odim=1,
+            #     padding=hparams['ffn_padding'], kernel_size=hparams['predictor_kernel'])
 
     # def build_embedding(self, dictionary, embed_dim):
     #     num_embeddings = len(dictionary)
@@ -95,7 +95,7 @@ def forward(self, hubert, mel2ph=None, spk_embed=None,
                 ref_mels=None, f0=None, uv=None, energy=None, skip_decoder=True,
                 spk_embed_dur_id=None, spk_embed_f0_id=None, infer=False, **kwargs):
         ret = {}
-        if hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
+        if not hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
             encoder_out =self.encoder(hubert)  # [B, T, C]
         else:
             encoder_out =hubert
@@ -146,7 +146,7 @@ def forward(self, hubert, mel2ph=None, spk_embed=None,
             decoder_inp = decoder_inp + self.add_energy(pitch_inp, energy, ret)
 
         ret['decoder_inp'] = decoder_inp = (decoder_inp + spk_embed) * tgt_nonpadding
-        if hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
+        if not hparams['no_fs2'] if 'no_fs2' in hparams.keys() else True:
             if skip_decoder:
                 return ret
             ret['mel_out'] = self.run_decoder(decoder_inp, tgt_nonpadding, ret, infer=infer, **kwargs)
@@ -239,9 +239,9 @@ def add_pitch(self,decoder_inp, f0, uv, mel2ph, ret, encoder_out=None):
 
     def add_energy(self,decoder_inp, energy, ret):
         decoder_inp = decoder_inp.detach() + hparams['predictor_grad'] * (decoder_inp - decoder_inp.detach())
-        ret['energy_pred'] = energy_pred = self.energy_predictor(decoder_inp)[:, :, 0]
-        if energy is None:
-            energy = energy_pred
+        ret['energy_pred'] = energy#energy_pred = self.energy_predictor(decoder_inp)[:, :, 0]
+        # if energy is None:
+        #     energy = energy_pred
         energy = torch.clamp(energy * 256 // 4, max=255).long() # energy_to_coarse
         energy_embedding = self.energy_embed(energy)
         return energy_embedding