TVR28 / Computer-Vision Public

Notifications You must be signed in to change notification settings
Fork 0
Star 12

Video Summarization | Lip Reading | Object Detection | Semantic Segmentation | Pose Estimation

12 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
Background_Removal		Background_Removal
Multimodal-AI-Assistant		Multimodal-AI-Assistant
OpenVino-StableDiffusion		OpenVino-StableDiffusion
Semantic_Segmentation		Semantic_Segmentation
YoloV8_Object_Detection		YoloV8_Object_Detection
README.md		README.md

Repository files navigation

Computer Vision

This repository consists of various computer vision and Multimodal AI projects. The projects focus on various fields of CV such as:

Vision Language Models and Multimodal AI
Stable Diffusion (Text-To-Image Generation)
Video Summarization
Object Tracking (Face Tracking & Lip Tracking)
Object Detection
Semantic Segmentation and Segment Anything
Realtime Pose Estimation

The tools in which I gained proficiency while working on these projects are:

PyTorch
TensorFlow
OpenCV
OpenVino
Transformers
OpenAI
Diffusers

Multimodal AI Assistant

VidSummAPI: Video Summarization API Using DSNet

Gym Workout Tracker

Background Removal Using Segment Any

Semantic Segmentation

YoloV8 Object Detection

Lip Reading: Deep Learning Based Spoken Text Generation from Lip Movement

About

Video Summarization | Lip Reading | Object Detection | Semantic Segmentation | Pose Estimation

Report repository

Languages