训练到一半变得很慢怎么解决，是因为数据问题吗 #152

MichealZhangxa · 2024-12-09T11:49:03Z

之前训练都是15秒左右一个item，突然变得很慢，我不知道什么原因，还非常不稳定，GPU温度也不算高，但是利用率非常低，看起来也没有频繁的发生数据交换，因为我一开始还算快，我感觉频繁跟内存交换数据的话会一直很慢，之前训练llava_dataset_665k里面的coco数据集约为llava_dataset_665k的一半，没有遇到这个问题，但是现在训练llava_dataset_665k就遇到这个问题了

ZhangXJ199 · 2024-12-09T12:15:08Z

只使用我们的代码不添加任何额外结构也会出现这种问题吗？

MichealZhangxa · 2024-12-10T06:15:07Z

只使用我们的代码不添加任何额外结构也会出现这种问题吗？

稍微加了一点点东西，相当于加了线性层，但是一开始训练的很正常，训练到一半出现这种情况

ZhangXJ199 · 2024-12-10T06:17:43Z

把group_by_modality_length设置为false试一下，如果还是出现这种情况，可能需要显存更大的显卡

MichealZhangxa · 2024-12-10T06:47:24Z

group_by_modality_length

"--dataloader_num_workers", "8",这个参数会影响训练的快慢吗，我弄小一点会不会训练就不会变慢

ZhangXJ199 · 2024-12-10T06:49:49Z

可以尝试一下

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练到一半变得很慢怎么解决，是因为数据问题吗 #152

训练到一半变得很慢怎么解决，是因为数据问题吗 #152

MichealZhangxa commented Dec 9, 2024

ZhangXJ199 commented Dec 9, 2024

MichealZhangxa commented Dec 10, 2024 •

edited

Loading

ZhangXJ199 commented Dec 10, 2024

MichealZhangxa commented Dec 10, 2024

ZhangXJ199 commented Dec 10, 2024

训练到一半变得很慢怎么解决，是因为数据问题吗 #152

训练到一半变得很慢怎么解决，是因为数据问题吗 #152

Comments

MichealZhangxa commented Dec 9, 2024

ZhangXJ199 commented Dec 9, 2024

MichealZhangxa commented Dec 10, 2024 • edited Loading

ZhangXJ199 commented Dec 10, 2024

MichealZhangxa commented Dec 10, 2024

ZhangXJ199 commented Dec 10, 2024

MichealZhangxa commented Dec 10, 2024 •

edited

Loading