#

llm-eval

Here are 26 public repositories matching this topic...

awesome-software / evals

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

large-language-models llm-eval

Updated Jun 6, 2023
Python

prompt-foundry / kotlin-sdk

The prompt engineering, prompt management, and prompt evaluation tool for Kotlin.

kotlin open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

jaaack-wang / multi-problem-eval-llm

Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities

explainable-ai large-language-models llm llm-prompting llm-eval llm-evaluation-framework

Updated Jul 8, 2024
Jupyter Notebook

prompt-foundry / ruby-sdk

The prompt engineering, prompt management, and prompt evaluation tool for Ruby.

ruby ruby-gem openai ruby-on-rails prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

prompt-foundry / dotnet-sdk

The prompt engineering, prompt management, and prompt evaluation tool for C# and .NET

csharp dotnet prompt prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

kdcyberdude / punjabi-llm-eval

First Punjabi LLM Eval.

punjabi eval panjabi llm llm-eval

Updated May 1, 2024
Python

prompt-foundry / go-sdk

The prompt engineering, prompt management, and prompt evaluation tool for Go.

go golang open-api gpt gpt-4 prompt-engineering prompt-manager prompt-management llm-eval llm-test llm-evaluation prompt-test llm-testing prompt-eva

Updated Jun 16, 2024

prompt-foundry / typescript-sdk

The prompt engineering, prompt management, and prompt evaluation tool for TypeScript, JavaScript, and NodeJS.

typescript gpt open-ai gpt-3 gpt-4 llm prompt-engineering llmops prompt-testing prompt-manager prompt-management llm-eval llm-test llm-ops llm-evaluation prompt-evaluation

Updated Jul 30, 2024
TypeScript

prompt-foundry / python-sdk

The prompt engineering, prompt management, and prompt evaluation tool for Python

python python3 open-ai llm prompt-engineering prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jul 30, 2024
Python

genia-dev / vibraniumdome-docs

LLM Security Platform Docs

security openai prompts llm prompt-engineering chatgpt llmops large-language-model prompt-injection llm-serving adverarial-attacks llm-agent llm-security llm-inference llm-eval llm-framework prompt-injection-tool llm-evaluation llm-firewall

Updated Apr 9, 2024
MDX

harshagrawal523 / GenerativeAgents

Generative agents — computational software agents that simulate believable human behavior and OpenAI LLM models. Our main focus was to develop a game - “Werewolves of Miller’s Hollow”, aiming to replicate human-like behavior.

docker transformers openai mongodb-atlas pygame-gui llm generative-ai llm-eval

Updated Jul 27, 2023
Python

honeyhiveai / realign

Realign is a AI testing and simulation framework for multi-turn AI applications. It simulates user interactions, evaluates AI performance, and generates adversarial scenarios to test LLM vulnerabilities.

ai simulation evaluation alignment red-teaming rag prompt-engineering llms llmops llm-eval llm-evaluation aiengineering llm-evaluation-framework

Updated Jul 30, 2024
Python

parea-ai / parea-sdk-ts

TypeScript SDK for experimenting, testing, evaluating & monitoring LLM-powered applications - Parea AI (YC S23)

llm prompt-engineering llms llm-eval llm-tools llm-evaluation llm-evaluation-toolkit llms-benchmarking llm-evaluation-framework

Updated Jul 24, 2024
TypeScript

Networks-Learning / prediction-powered-ranking

Code for "Prediction-Powered Ranking of Large Language Models", Arxiv 2024.

ranking-algorithm llm-eval llm-evaluation llm-evaluation-framework prediction-powered-inference rank-sets

Updated May 27, 2024
Python

alan-turing-institute / prompto

An open source library for asynchronous querying of LLM endpoints

python nlp machine-learning natural-language-processing deep-learning transformers transformer hut23 large-language-models llms llm-eval llm-evaluation

Updated Jul 29, 2024
Python

ragrank

Auto-Playground / ragrank

🎯 Your free LLM evaluation toolkit helps you assess the accuracy of facts, how well it understands context, its tone, and more. This helps you see how good your LLM applications are.

machine-learning evaluation language-model rag llm prompt-engineering llmops llm-eval

Updated May 26, 2024
Python

parea-ai / parea-sdk-py

Python SDK for experimenting, testing, evaluating & monitoring LLM-powered applications - Parea AI (YC S23)

metrics good-first-issue llm prompt-engineering generative-ai llmops llm-eval llm-tools llm-evaluation llm-evaluation-toolkit llms-benchmarking llm-evaluation-framework

Updated Jul 29, 2024
Python

kuk / rulm-sbs2

Бенчмарк сравнивает русские аналоги ChatGPT: Saiga, YandexGPT, Gigachat

russian-specific llm-eval

Updated Sep 26, 2023
Jupyter Notebook

Re-Align / just-eval

A simple GPT-based evaluation tool for multi-aspect, interpretable assessment of LLMs.

evaluation gpt4 llm llm-eval llm-evaluation llm-evaluation-toolkit

Updated Jan 29, 2024
Python

fiddlecube / fiddlecube-sdk

Generate ideal question-answers for testing RAG

synthetic-data llm-training llm-eval fine-tune-llms

Updated Jul 9, 2024
Python

Improve this page

Add a description, image, and links to the llm-eval topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-eval topic, visit your repo's landing page and select "manage topics."