-
vllm可以通过配置prompt_logprobs来返回,但似乎不能设置startlen 但目前我没找到LMdeploy有这个功能,想问是否还未支持? |
Beta Was this translation helpful? Give feedback.
Replies: 5 comments 6 replies
-
@irexyc 帮忙提供下方式,并更新下文档吧。 |
Beta Was this translation helpful? Give feedback.
-
你是想在生成阶段返回prompt的logprobs么?还是单纯做prefill获取prompt的logprobs? |
Beta Was this translation helpful? Give feedback.
-
@irexyc @lvhan028 感谢两位关注 |
Beta Was this translation helpful? Give feedback.
-
@CSammyfd lmdeploy 目前支持两种用法:
不知道你的需求是不是上面这两种。 |
Beta Was this translation helpful? Give feedback.
-
@irexyc 不好意思想额外咨询下哈,“拆分为多个iter”处理,是指在计算lmhead时,由于一次性全部计算,输出的tensor显存会吃不消,所以计算会按seq维度来slice成几份吗? 然后是我在运行doc里的示例代码时报错了,我是在这里直接问还是需要新开个issue? |
Beta Was this translation helpful? Give feedback.
@CSammyfd
可以看下这个文档 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/llm/pipeline.md 里面的计算 logits
没办法指定只返回一部分,目前只能返回全部的。计算上会有部分多余计算,显存上不会差很多,因为会拆分为多个iter来处理。
另外目前没有 serving 的接口,只有offline的接口,用法的话可以参考上面那个文档。