Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

7B模型在4*A100 80GB上发生OOM #382

Open
Rocky77JHxu opened this issue Aug 13, 2024 · 4 comments
Open

7B模型在4*A100 80GB上发生OOM #382

Rocky77JHxu opened this issue Aug 13, 2024 · 4 comments

Comments

@Rocky77JHxu
Copy link

当我针对InternLM-XComposer2_5-7B模型进行评估时,出现了OOM,配置是4*A100 80GB。我观察到执行过程送入query进入模型的速度非常的快,发生OOM的原因是否和一次性送入的batch有关?刚开始的时候,每块GPU显存在20~70GiB上下疯狂跳动,而在第12轮左右便发生了OOM。

但是同样的4*A100 80GB的硬件条件下,评估 InternVL2-40B竟然没有任何问题,显存也很稳定的在45GB左右。不过执行的速度很慢,似乎在InternVL2-40B中每次就送入一个batch。

这很奇怪,如果是batch问题我应该如何修改它?我尝试修改过${VLMEvalKit}/vlmeval/vlm/xcomposer/xcomposer2d5.py的代码,但是并不奏效,我也没发现batch是在哪里实现的。

如果不是batch问题,我应该如何让7B的模型能够完成评估?

我的执行命令是:

torchrun --nproc-per-node=4 run.py --data MathVision MathVision_MINI --model XComposer2d5 --verbose

报错信息:
image

此外,我76B的模型仍然也会有OOM的情况。我尝试先将 76B 模型利用 LMDepoly 部署成 openai 接口,再接入到 VLMEvalKit 评测框架中,但是发现失败了。报错是:2024-08-13 16:48:22,299 - ChatAPI - ERROR - HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/cl100k_base.tiktoken (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x2ae04fd4b400>: Failed to resolve 'openaipublic.blob.core.windows.net' ([Errno -2] Name or service not known)"))

@Harry-zzh
Copy link

我也是类似的报错,你最后解决了吗 @Rocky77JHxu

@Rocky77JHxu
Copy link
Author

我也是类似的报错,你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

@Harry-zzh
Copy link

我也是类似的报错,你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

噢噢感谢!但是我用ms-swift也有类似的错误,用的命令是 swift eval --model_type llava1_5-7b-instruct --eval_dataset POPE,连接openai超时了。但我本地已经下载好模型和数据集了,不知道您有设置其他的东西让它不要连接openai吗,而是直接用本地的模型?

@BrenchCC
Copy link
Contributor

我也是类似的报错,你最后解决了吗 @Rocky77JHxu

我最终采用了ms-swift框架来确保能够先完成任务。

噢噢感谢!但是我用ms-swift也有类似的错误,用的命令是 swift eval --model_type llava1_5-7b-instruct --eval_dataset POPE,连接openai超时了。但我本地已经下载好模型和数据集了,不知道您有设置其他的东西让它不要连接openai吗,而是直接用本地的模型?

在.env文件中设置本地模型部署服务的base_urlkey

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants