模型处理大规模数据集时cuda OOM #23

xinshame · 2021-12-23T09:21:26Z

No description provided.

xinshame · 2021-12-23T09:28:22Z

尝试调小batch size到32 依然oom，请问作者有相关的处理思路么

huangtinglin · 2021-12-23T11:17:18Z

Hi 感谢您的关注！请问下您的显卡显存大小有多少呢，以及跑的是哪个数据集。此外算法是transductive setting，需要每次生成全部结点的embedding，您可以拓展成inductive setting的，每次只生成batch内结点的embedding。

xinshame · 2021-12-24T02:28:39Z

Hi 感谢您的关注！请问下您的显卡显存大小有多少呢，以及跑的是哪个数据集。此外算法是transductive setting，需要每次生成全部结点的embedding，您可以拓展成inductive setting的，每次只生成batch内结点的embedding。

显卡内存16G，实际可用14G，数据集是自己构建的数据集,数据量大概是1300w三元组

huangtinglin · 2022-04-04T07:28:02Z

抱歉迟复，对于transductive learning的算法，结点的个数是制约算法在大规模数据集上训练的主要因素，拓展的思路是改写成inductive learning，您可以参考pyg的训练逻辑：

xinshame changed the title ~~面对大规模数据集处理的时候的cuda OOM~~ 模型处理大规模数据集时cuda OOM Dec 23, 2021

Provide feedback