llama-33B/llama-65B均报OOM，8*V100跑不起来怎么回事呢？ #28

alisyzhu · 2023-06-29T11:36:08Z

环境：8 * V100 (32G)
执行run.sh
【错误log】

【LOMO模式】
args_lomo.yaml配置：

ds_config.json配置：

【LOMO+LORA模式】
args_lomo_lora.yaml配置：

ds_config_lora.json

KaiLv69 · 2023-06-29T11:41:02Z

hi, 麻烦提供一下run.sh和更完整的错误log~

alisyzhu · 2023-06-29T11:49:01Z

hi, 麻烦提供一下run.sh和更完整的错误log~

run.sh脚本：

【错误log】

KaiLv69 · 2023-06-29T11:50:32Z

run.sh脚本：

现在只用了一张GPU，应该设置--include localhost:0,1,2,3,4,5,6,7来使用所有的GPU

alisyzhu · 2023-06-29T11:53:55Z

run.sh脚本：

现在只用了一张GPU，应该设置--include localhost:0,1,2,3,4,5,6,7来使用所有的GPU

大意了，只看error部分的信息了；
请问，如果我想用多机多卡，这个localhost这里该怎么配置呢？

KaiLv69 · 2023-06-29T11:57:47Z

alisyzhu · 2023-06-29T12:19:52Z

可以参考https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node

好的，感谢。

00drdelius · 2023-07-16T02:00:14Z

可以参考https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node

3张3090训练13B报OOM👇

参数配置如下：
args_lomo.yaml:

ds_config.json:

run.sh:

跑得是baichuan-13b。
对源码的修改我就添加了loss在0.46以下时保存在一个特殊的output directory：

这咋弄呀

KaiLv69 mentioned this issue Jun 29, 2023

can you provide the running config of 65b models? #7

Closed

Provide feedback