LMdeploy支持返回prompt的logprobs？ #2966

@irexyc @lvhan028 感谢两位关注
目前我就想用模型在确定的问答文本上推理一下logits，即每个请求只需要一次前向即可，所以就是prefill
但并发比较高，请求也不定时，所以想用到各种部署框架的管理能力
同时我其实只需要回答部分的logits，问题部分的embedding可以不进行head部分的前向

0 replies

irexyc · 2024-12-30T03:17:03Z

irexyc
Dec 30, 2024
Collaborator

同时我其实只需要回答部分的logits，问题部分的embedding可以不进行head部分的前向

@CSammyfd
不是很理解你说的，感觉前后有点矛盾。打个比方，如果输入是 abc(问题)，输出是def(回答），你想要哪部分的logprobs？

lmdeploy 目前支持两种用法：

只要 prefill 的 logits(logprobs可以由logits计算得到)，不需要模型的输出（不做generate)，decode接口可以满足。
做prefill 和 generate，输出 generate 部分的 logprobs。

不知道你的需求是不是上面这两种。

3 replies

CSammyfd Dec 30, 2024
Author

@irexyc
用法是1，所以你的意思是我正常用lmdeploy部署，然后接口用/decode就行了是吧？
然后额外的是，在1的基础上，接口可否指定只需要计算一部分logits？我这边的文本是问+答，我只要答部分的logits，且我知道这部分的idx从几开始（因为lm_head计算所有的logits会占更多资源，而我也用不到所有文本的logits）

irexyc Dec 30, 2024
Collaborator

@CSammyfd

可以看下这个文档 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/llm/pipeline.md 里面的计算 logits

没办法指定只返回一部分，目前只能返回全部的。计算上会有部分多余计算，显存上不会差很多，因为会拆分为多个iter来处理。

另外目前没有 serving 的接口，只有offline的接口，用法的话可以参考上面那个文档。

Answer selected by CSammyfd

CSammyfd Dec 30, 2024
Author

ok目前没serving的话就算了，感谢回复~

CSammyfd · 2024-12-30T10:24:48Z

CSammyfd
Dec 30, 2024
Author

@irexyc 不好意思想额外咨询下哈，“拆分为多个iter”处理，是指在计算lmhead时，由于一次性全部计算，输出的tensor显存会吃不消，所以计算会按seq维度来slice成几份吗？

然后是我在运行doc里的示例代码时报错了，我是在这里直接问还是需要新开个issue？

3 replies

irexyc Dec 30, 2024
Collaborator

@CSammyfd
lmdeploy 默认会使用 SplitFuse策略 https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen#3-dynamic-splitfuse-a-novel-prompt-and-generation-composition-strategy 用提提升吞吐。输出logits的话，因为buffer是用gpu存储的。所以如果不拆iter的话，这个buffer会很大就会OOM，拆了的话可以复用buffer。

报错的话，可以把你的代码贴一下，我这看复现看看。

CSammyfd Dec 31, 2024
Author

@irexyc 感谢告知~

我这边报错是在用pipeline加载模型时，会报错 CUDA runtime error: peer mapping resources exhausted
代码：（即文档里代码，模型换成了Qwen0.5B）
infer_logits.txt

具体报错日志：
errorlog.txt

环境check：
env(1).txt

同时想问下，这个方法可以攒batch推理logits吗？我看示例中是单条的

irexyc Dec 31, 2024
Collaborator

可以batch，传 List[List[int]] 就行了。（不能多线程，多线程的话需要改下代码，把session_id加进去来区分不同的请求）

@lzhangzz 这个报错遇到过么？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LMdeploy支持返回prompt的logprobs？ #2966

{{title}}

Replies: 5 comments 6 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

LMdeploy支持返回prompt的logprobs？ #2966

CSammyfd Dec 27, 2024

Replies: 5 comments · 6 replies

lvhan028 Dec 27, 2024 Maintainer

irexyc Dec 27, 2024 Collaborator

CSammyfd Dec 30, 2024 Author

irexyc Dec 30, 2024 Collaborator

CSammyfd Dec 30, 2024 Author

irexyc Dec 30, 2024 Collaborator

CSammyfd Dec 30, 2024 Author

CSammyfd Dec 30, 2024 Author

irexyc Dec 30, 2024 Collaborator

CSammyfd Dec 31, 2024 Author

irexyc Dec 31, 2024 Collaborator

CSammyfd
Dec 27, 2024

Replies: 5 comments 6 replies

lvhan028
Dec 27, 2024
Maintainer

irexyc
Dec 27, 2024
Collaborator

CSammyfd
Dec 30, 2024
Author

irexyc
Dec 30, 2024
Collaborator

CSammyfd Dec 30, 2024
Author

irexyc Dec 30, 2024
Collaborator

CSammyfd Dec 30, 2024
Author

CSammyfd
Dec 30, 2024
Author

irexyc Dec 30, 2024
Collaborator

CSammyfd Dec 31, 2024
Author

irexyc Dec 31, 2024
Collaborator