指定GPU后仍加载到内存中，使用CPU推理 #50

yutong12 · 2023-11-09T02:22:14Z

实验环境：Tesla T4 16G
问题描述：我们使用的是CodeShell-7B-chat-int4这个版本，运行官方示例时构建过久，不包括下载时间，运行在GPU上加载并输出第一个示例结果用时为5分钟41秒。如何加速推理时间？
在运行自带的demo cli_demo.py和web_demo.py时，仅更换模型路径，运行后发现模型未默认加载到GPU中而是加载到CPU中，--device默认是“cuda：0”
预期结果：能加快推理速度，正常输出

yutong12 · 2023-11-09T02:32:37Z

后续更新：在漫长的加载过后，仍然消耗掉了30G内存，6G显存，是否存在某种平衡？

shuaizai88 · 2024-01-18T05:10:17Z

可能要调整参数把，我反正看着我的内存崩了。。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

指定GPU后仍加载到内存中，使用CPU推理 #50

指定GPU后仍加载到内存中，使用CPU推理 #50

yutong12 commented Nov 9, 2023

yutong12 commented Nov 9, 2023

shuaizai88 commented Jan 18, 2024

指定GPU后仍加载到内存中，使用CPU推理 #50

指定GPU后仍加载到内存中，使用CPU推理 #50

Comments

yutong12 commented Nov 9, 2023

yutong12 commented Nov 9, 2023

shuaizai88 commented Jan 18, 2024