文档对应 notebook:ABACUS LCAO 基组 GPU 版本使用介绍 | Bohrium


为了提升 ABACUS 的运行效率,2024 年 10 月发布的 ABACUS 3.8 版本支持 GPU 环境下采用 LCAO(Linear Combination of Atomic Orbitals)基组(即数值原子轨道基组)对 Kohn-Sham 方程进行求解。目前该版本提供 GPU 支持的模块有广义本征值求解器以及实空间生成哈密顿量的格点积分,这两部分也是 LCAO 基组求解 Kohn-Sham 方程的热点。在广义本征值求解器方面,目前 3.8 版本集成了 cuSolver,cuSolverMP,ELPA 软件,从而可以支持单卡和多卡的 GPU 加速。在格点积分模块里我们自研了 GPU 积分加速算法。开发团队未来还会针对 LCAO 算的更多模块提供 GPU 硬件以及其它国产硬件的支持。


要使用 GPU 版的 ABACUS,使用 CMAKE 编译 ABACUS 的时候(ABACUS 编译方法详见,需要进行如下设置。

  • 格点积分 GPU 版支持,以及 cusolver 求解器支持:需要安装 cuda-toolkit,并在编译 ABACUS 时设置 -DUSE_CUDA=ON
  • cusolvermp 求解器支持:编译 ABACUS 之前,需要确保系统上安装了 cusolvermp 相关库,具体安装方法见除了设置 -DUSE_CUDA=ON 之外,还需要设置 -DENABLE_CUSOLVERMP=ON
  • GPU 版 ELPA 求解器支持:编译 ABACUS 之前,需要确保系统上安装了支持 GPU 版本的 ELPA,安装方法详见,安装过程可以参考 deepmodeling/abacus-develop#4969。安装好 ELPA 之后,在编译 ABACUS 时,需要设置 -DUSE_CUDA=ON, -DUSE_ELPA=ON


1. INPUT 参数设置

目前 ABACUS 的 LCAO 基组已经 GPU 化的模块包括格点积分模块广义特征值求解模块。这两个模块是否使用 GPU 加速可以分开设置。与格点积分和广义特征值求解相关的输入参数包括 device 以及 ks_solver。下面详细介绍一下这两个参数的设置,注意以下介绍基于 ABACUS 的 LCAO 基组(INPUT 文件中的 basis_type 需要设置为 lcao)。

  • device: device 用于指定 ABACUS 是否使用 GPU 来加速运算,可以设置为 cpu 或者 gpu。如果编译的是 GPU 版的 ABACUS(编译时设置了 -DUSE_CUDA=ON),同时机器中至少有一张 GPU 卡,那么 device 的默认值为 gpu,否则为 cpu

    • 如果 device 设置为 gpu, 那么 ABACUS 将使用 GPU 来加速计算,对应的,格点积分将使用 GPU 加速计算,广义特征值求解器 ks_solver 也将默认设置为 cusolver, 如果您的机器包含多张 GPU,也可以将 ks_solver 设置为 cusolvermp 或者 elpa 来调用多卡求解特征值;
    • 如果 device 设置为 cpu,ABACUS 将使用 CPU 进行计算,格点积分部分也会使用 CPU 计算,广义特征值求解器 ks_solver 默认设置为 scalapack_gvx,genelpa,或者 lapack(默认值详见
  • ks_solver:ks_solver 用于设置广义特征值求解器,目前 LCAO 基组支持的广义特征值求解器有 lapack,scalapack_gvx,genelpa,cusolver,cusolvermp,elpa。其中 cusolver,cusolvermpelpa 可以调用 GPU 进行广义特征值求解,cusolver 只支持单 GPU 卡求解,cusolvermpelpa 支持多 GPU 卡求解。

在 INPUT 文件中设置好 deviceks_solver 参数后,运行 ABACUS,即可调用 GPU 进行运算。

2. 多卡计算

ABACUS 的格点积分模块以及广义特征值求解模块均支持多块 GPU 卡加速,ABACUS 调用的 GPU 数量通过 MPI 进程数来设置。如果设置 n 个进程,ABACUS 将会自动调用 n 张 GPU 卡来进行计算,若机器中的 GPU 卡数小于 n,ABACUS 则会调用机器中所有 GPU 卡来进行运算。需要注意的是,ABACUS 的广义特征值求解部分只有 cusolvermpelpa 支持多卡加速,如果 ks_solver 设置成 cusolver,无论设置多少个进程,ABACUS 都只会调用一张 GPU 卡来进行广义特征值求解。


下面以 tests/performance/P102_si64_lcao 的 64 个金刚石结构的硅原子体系为例,展示如何使用 GPU 版 ABACUS 进行 LCAO 基组下的计算。

环境:GPU/双 3090, CPU / Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz

ABACUS 版本号:3.8.0, commit:72b1d7ce9

1. GPU 算例和结果

我们首先调用双 GPU 卡进行格点积分运算,同时使用 cusolver 进行广义特征值求解:修改 INPUT 文件,添加一行 “device gpu”, 同时将 ks_solver 设置为 cusolver,运行命令 “OMP_NUM_THREADS=12 mpirun -n 2 abacus", 输出为:

2. CPU 算例和结果

可以看到 GPU 运行用了 95 秒,接下来我们调用 CPU 进行计算,在 INPUT 文件中设置 devicecpu,同时设置 ks_solverscalapack_gvx,运行命令 “OMP_NUM_THREADS=12 mpirun -n 2 abacus", 输出:

输出中的 “RUNNING WITH DEVICE” 一行标出了此次运算使用的设备,同时运行时间统计里可以看到格点积分以及广义特征值求解的具体耗时,通过这两项耗时可以对比 GPU 和 CPU 的计算效率。格点积分耗时对应 cal_gint, cal_gint_vlocal, cal_gint_rho,cal_gint_force 这几项,广义特征值求解对应 hamiltSolvePsiK 项(在上面输出中标黄项)。

可以看到 GPU 运行用了 95 秒,而同样体系用 CPU 运行用了 224 秒,GPU 对于该体系有一定的加速效果。

以上就是本教程的内容,希望对学习采用 ABACUS 结合 GPU 进行密度泛函理论计算的读者有所帮助,大家也可以在 bohrium 平台按照ABACUS LCAO 基组 GPU 版本使用介绍 | Bohrium跑一遍实际安装使用流程,有问题可以发邮箱给作者(见开头)。