快速上手

LMDeploy提供了快速安装、模型量化、离线批处理、在线推理服务等功能。每个功能只需简单的几行代码或者命令就可以完成。

安装

使用 pip (python 3.8+) 安装 LMDeploy，或者源码安装

pip install lmdeploy

LMDeploy的预编译包默认是基于 CUDA 12 编译的。如果需要在 CUDA 11+ 下安装 LMDeploy，请执行以下命令：

export LMDEPLOY_VERSION=0.3.0
export PYTHON_VERSION=38
pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION}/lmdeploy-${LMDEPLOY_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu118

离线批处理

import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)

有关 pipeline 的详细使用说明，请参考这里

推理服务

LMDeploy 提供了多种部署模型推理服务的方式，总有一款适合你。

部署类 openai 的服务
通过 docker 部署服务
部署 gradio 服务

模型量化

INT4 权重量化
K/V 量化
W8A8 量化

好用的工具

LMDeploy CLI 提供了如下便捷的工具，方便用户快速体验模型对话效果

控制台交互式对话

lmdeploy chat internlm/internlm-chat-7b

WebUI 交互式对话

LMDeploy 使用 gradio 开发了在线对话 demo。

# 安装依赖
pip install lmdeploy[serve]
# 启动
lmdeploy serve gradio internlm/internlm-chat-7b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

get_started.md

get_started.md

快速上手

安装

离线批处理

推理服务

模型量化

好用的工具

控制台交互式对话

WebUI 交互式对话

Files

get_started.md

Latest commit

History

get_started.md

File metadata and controls

快速上手

安装

离线批处理

推理服务

模型量化

好用的工具

控制台交互式对话

WebUI 交互式对话