ORYX

All

18 repositories

UniMed-CLIP
Public
Official repository of paper titled "UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities".
Python
•
Other
•3•58•1•0•Updated Dec 26, 2024Dec 26, 2024
BiMediX2
Public
Bio-Medical EXpert LMM with English and Arabic Language Capabilities
6•56•0•0•Updated Dec 15, 2024Dec 15, 2024
VideoGLaMM
Public
A Large Multimodal Model for Pixel-Level Visual Grounding in Videos
vision-and-language lmm foundation-models vision-language-model llm-agent
0•37•3•0•Updated Dec 13, 2024Dec 13, 2024
Camel-Bench
Public
CAMEL-Bench is an Arabic benchmark for evaluating multimodal models across eight domains with 29,000 questions.
benchmark vqa arabic multimodal-learning visual-question-answering mbzuai large-multimodal-models
Python
•
MIT License
•1•30•0•0•Updated Dec 12, 2024Dec 12, 2024
ALM-Bench
Public
🔥 ALM-Bench is a multilingual multi-modal diverse cultural benchmark for 100 languages across 19 categories. It assesses the next generation of LMMs on cultural inclusitivity.
multilingual benchmarking multi-modal cultural gpt-4 multimodal-large-language-models
Python
•
Other
•1•28•0•0•Updated Nov 29, 2024Nov 29, 2024
GeoChat
Public
[CVPR 2024 🔥] GeoChat, the first grounded Large Vision Language Model for Remote Sensing
remote-sensing vlm
Python
•38•484•32•1•Updated Nov 28, 2024Nov 28, 2024
BiMediX
Public
Bilingual Medical Mixture of Experts LLM
Other
•1•28•1•0•Updated Nov 23, 2024Nov 23, 2024
groundingLMM
Public
[CVPR 2024 🔥] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.
vision-and-language lmm foundation-models vision-language-model llm-agent
Python
•38•808•28•0•Updated Nov 23, 2024Nov 23, 2024
ClimateGPT
Public
[EMNLP'23] ClimateGPT: a specialized LLM for conversations related to Climate Change and Sustainability topics in both English and Arabic languages.
Python
•10•78•0•0•Updated Sep 24, 2024Sep 24, 2024
PALO
Public
(WACV 2025) Vision-language conversation in 10 languages including English, Chinese, French, Spanish, Russian, Japanese, Arabic, Hindi, Bengali and Urdu.
Python
•
Apache License 2.0
•5•81•5•0•Updated Sep 10, 2024Sep 10, 2024
Video-ChatGPT
Public
[ACL 2024 🔥] Video-ChatGPT is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted for spatiotemporal video representation. We also introduce a rigorous 'Quantitative Evaluation Benchmarking' for video-based conversational models.
chatbot llama clip mulit-modal vision-language vicuna gpt-4 vision-language-pretraining llava video-chatboat
Python
•
Creative Commons Attribution 4.0 International
•110•1.3k•20•0•Updated Aug 27, 2024Aug 27, 2024
CVRR-Evaluation-Suite
Public
Official repository of paper titled "How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs".
Python
•
Creative Commons Attribution 4.0 International
•4•44•0•0•Updated Aug 23, 2024Aug 23, 2024
VideoGPT-plus
Public
Official Repository of paper VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding
chatbot clip image-encoder video-encoder multimodal dual-encoder vision-language vicuna gpt4 vision-language-pretraining
Python
•
Creative Commons Attribution 4.0 International
•15•236•15•1•Updated Aug 11, 2024Aug 11, 2024
XrayGPT
Public
[BIONLP@ACL 2024] XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models.
Python
•57•480•17•2•Updated Aug 8, 2024Aug 8, 2024
LLaVA-pp
Public
🔥🔥 LLaVA++: Extending LLaVA with Phi-3 and LLaMA-3 (LLaVA LLaMA-3, LLaVA Phi-3)
conversation lmms vision-language llm llava llama3 phi3 llava-llama3 llava-phi3 llama3-llava
Python
•62•821•17•2•Updated Jul 10, 2024Jul 10, 2024
MobiLlama
Public
MobiLlama : Small Language Model tailored for edge devices
slm llm efficient-llm mobile-llm tiny-llm
Python
•
Apache License 2.0
•47•616•13•2•Updated Mar 3, 2024Mar 3, 2024
Video-LLaVA
Public
PG-Video-LLaVA: Pixel Grounding in Large Multimodal Video Models
video transcription lmm grounding video-grounding llm video-conversation
Python
•11•248•15•0•Updated Jan 2, 2024Jan 2, 2024
Awesome-CV-Foundational-Models
Public
28•7•0•0•Updated Jul 31, 2023Jul 31, 2023