server: add OpenAI compatible response format for legacy /completions with b… #10645

Nero7991 · 2024-12-04T00:17:45Z

This is based of a previous PR

However, @ngxson seems to be working refactoring the server.cpp to prevent use of JSON as stated here so I don't expect is to be merged easily. However, might be of use to someone else.

Support for full (almost) OpenAI API response format for the legacy completion related endpoints (including when logprobs is specified)

When oai_compat is set to True in the request (as suggested by @ngxson, the old response format is used (check tests)

HELM benchmarks from CRFM have support for a OpenAI compatible API server that uses this endpoint, this enables testing differently quantized models for degradation against this benchmark. Tested it on a QwQ Preview 32B GGUF Q4_K_M to evaluate the model against other frontier models. I've described that here

…ackward compatibility

server: add OpenAI compatible response format for /completions with b…

938dbd4

…ackward compatibility

github-actions bot added examples python python script changes server labels Dec 4, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

server: add OpenAI compatible response format for legacy /completions with b… #10645

server: add OpenAI compatible response format for legacy /completions with b… #10645

Nero7991 commented Dec 4, 2024

server: add OpenAI compatible response format for legacy /completions with b… #10645

Are you sure you want to change the base?

server: add OpenAI compatible response format for legacy /completions with b… #10645

Conversation

Nero7991 commented Dec 4, 2024