7B模型在4*A100 80GB上发生OOM #382

Rocky77JHxu · 2024-08-13T10:00:47Z

当我针对InternLM-XComposer2_5-7B模型进行评估时，出现了OOM，配置是4*A100 80GB。我观察到执行过程送入query进入模型的速度非常的快，发生OOM的原因是否和一次性送入的batch有关？刚开始的时候，每块GPU显存在20~70GiB上下疯狂跳动，而在第12轮左右便发生了OOM。

但是同样的4*A100 80GB的硬件条件下，评估 InternVL2-40B竟然没有任何问题，显存也很稳定的在45GB左右。不过执行的速度很慢，似乎在InternVL2-40B中每次就送入一个batch。

这很奇怪，如果是batch问题我应该如何修改它？我尝试修改过${VLMEvalKit}/vlmeval/vlm/xcomposer/xcomposer2d5.py的代码，但是并不奏效，我也没发现batch是在哪里实现的。

如果不是batch问题，我应该如何让7B的模型能够完成评估？

我的执行命令是：

torchrun --nproc-per-node=4 run.py --data MathVision MathVision_MINI --model XComposer2d5 --verbose

报错信息：

此外，我76B的模型仍然也会有OOM的情况。我尝试先将 76B 模型利用 LMDepoly 部署成 openai 接口，再接入到 VLMEvalKit 评测框架中，但是发现失败了。报错是：2024-08-13 16:48:22,299 - ChatAPI - ERROR - HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/cl100k_base.tiktoken (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x2ae04fd4b400>: Failed to resolve 'openaipublic.blob.core.windows.net' ([Errno -2] Name or service not known)"))

The text was updated successfully, but these errors were encountered:

Harry-zzh · 2024-09-07T14:54:41Z

我也是类似的报错，你最后解决了吗 @Rocky77JHxu

Rocky77JHxu · 2024-09-08T02:15:05Z

我也是类似的报错，你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

Harry-zzh · 2024-09-08T04:52:26Z

我也是类似的报错，你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

噢噢感谢！但是我用ms-swift也有类似的错误，用的命令是 swift eval --model_type llava1_5-7b-instruct --eval_dataset POPE，连接openai超时了。但我本地已经下载好模型和数据集了，不知道您有设置其他的东西让它不要连接openai吗，而是直接用本地的模型？

BrenchCC · 2024-09-25T09:06:58Z

我也是类似的报错，你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

噢噢感谢！但是我用ms-swift也有类似的错误，用的命令是 swift eval --model_type llava1_5-7b-instruct --eval_dataset POPE，连接openai超时了。但我本地已经下载好模型和数据集了，不知道您有设置其他的东西让它不要连接openai吗，而是直接用本地的模型？

在.env文件中设置本地模型部署服务的base_url和key

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

7B模型在4*A100 80GB上发生OOM #382

7B模型在4*A100 80GB上发生OOM #382

Rocky77JHxu commented Aug 13, 2024

Harry-zzh commented Sep 7, 2024

Rocky77JHxu commented Sep 8, 2024

Harry-zzh commented Sep 8, 2024

BrenchCC commented Sep 25, 2024

7B模型在4*A100 80GB上发生OOM #382

7B模型在4*A100 80GB上发生OOM #382

Comments

Rocky77JHxu commented Aug 13, 2024

Harry-zzh commented Sep 7, 2024

Rocky77JHxu commented Sep 8, 2024

Harry-zzh commented Sep 8, 2024

BrenchCC commented Sep 25, 2024