Merge branch 'fix-unbalance_memory_for_localized_embedding' into 'master'

shijieliu · shijieliu · commit 085b2e8ad2ab · 2021-10-20T19:31:24.000-07:00
fix unbalance memory for localized embedding

See merge request dl/hugectr/hugectr!501
diff --git a/HugeCTR/src/embeddings/localized_slot_sparse_embedding_hash.cu b/HugeCTR/src/embeddings/localized_slot_sparse_embedding_hash.cu
@@ -405,16 +405,22 @@ LocalizedSlotSparseEmbeddingHash<TypeHashKey, TypeEmbeddingComp>::LocalizedSlotS
       } else {
         const std::shared_ptr<BufferBlock2<float>> &block = buf->create_block<float>();
         Tensors2<float> tensors;
+        size_t vocabulary_size_in_current_gpu = 0;
         for (size_t i = 0; i < slot_size_array_.size(); i++) {
           if ((i % embedding_data_.get_resource_manager().get_global_gpu_count()) == gid) {
             Tensor2<float> tensor;
             block->reserve(
                 {slot_size_array_[i], embedding_data_.embedding_params_.embedding_vec_size},
                 &tensor);
             tensors.push_back(tensor);
+            vocabulary_size_in_current_gpu += slot_size_array_[i];
           }
         }
         value_table_tensors_.push_back(tensors);
+        if (max_vocabulary_size_per_gpu_ > vocabulary_size_in_current_gpu) {
+          Tensor2<float> padding_tensor_for_optimizer;
+          block->reserve({max_vocabulary_size_per_gpu_ - vocabulary_size_in_current_gpu, embedding_data_.embedding_params_.embedding_vec_size}, &padding_tensor_for_optimizer);
+        }
         hash_table_value_tensors_.push_back(block->as_tensor());
       }
       {

Original file line number	Diff line number	Diff line change
`@@ -405,16 +405,22 @@ LocalizedSlotSparseEmbeddingHash<TypeHashKey, TypeEmbeddingComp>::LocalizedSlotS`
`405`	`405`	`} else {`
`406`	`406`	`const std::shared_ptr<BufferBlock2<float>> &block = buf->create_block<float>();`
`407`	`407`	`Tensors2<float> tensors;`
	`408`	`+ size_t vocabulary_size_in_current_gpu = 0;`
`408`	`409`	`for (size_t i = 0; i < slot_size_array_.size(); i++) {`
`409`	`410`	`if ((i % embedding_data_.get_resource_manager().get_global_gpu_count()) == gid) {`
`410`	`411`	`Tensor2<float> tensor;`
`411`	`412`	`block->reserve(`
`412`	`413`	`{slot_size_array_[i], embedding_data_.embedding_params_.embedding_vec_size},`
`413`	`414`	`&tensor);`
`414`	`415`	`tensors.push_back(tensor);`
	`416`	`+ vocabulary_size_in_current_gpu += slot_size_array_[i];`
`415`	`417`	`}`
`416`	`418`	`}`
`417`	`419`	`value_table_tensors_.push_back(tensors);`
	`420`	`+ if (max_vocabulary_size_per_gpu_ > vocabulary_size_in_current_gpu) {`
	`421`	`+ Tensor2<float> padding_tensor_for_optimizer;`
	`422`	`+ block->reserve({max_vocabulary_size_per_gpu_ - vocabulary_size_in_current_gpu, embedding_data_.embedding_params_.embedding_vec_size}, &padding_tensor_for_optimizer);`
	`423`	`+ }`
`418`	`424`	`hash_table_value_tensors_.push_back(block->as_tensor());`
`419`	`425`	`}`
`420`	`426`	`{`