Privacy-Preserving-Representation-for-Audio-Visual-Speech-Understanding

Multimodal datasets can contain personally identifiable information. We propose a general framework for privacy-aware representation of audio-visual (AV) data.

Data

VidTIMIT (Video Dynamic TIMIT) DeepfakeTIMIT MSP-Improv (Multimodal Sensitive Periods Improvisation Corpus)

Method

Feature Extraction Using AV-HuBERT
Privacy Transformer
Differential privacy filter
Speaker Recognition
Emotion Recognition

Results

Speaker Recognition

Method	Accuracy (VidTIMIT
AV-HuBERT	88.24 (batches of 2 )
Differential Privacy filter	50 (batches of 2 )
Transformer Privacy filter	58 (batches of 2 )

Emotion Recognition

Method	F1 Score	Accuracy
AV-HuBERT	41	41
Differential Privacy filter	22	22
Transformer Privacy filter	36	36

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
DeepfakeTIMIT		DeepfakeTIMIT
VidTIMIT		VidTIMIT
av_hubert		av_hubert
CS 535 Project Proposal.pdf		CS 535 Project Proposal.pdf
README.md		README.md
Test1.png		Test1.png
Test1_normal.png		Test1_normal.png
Test2.png		Test2.png
Test3.png		Test3.png
Test4.png		Test4.png
Test5.png		Test5.png
diffrence_pr2.ipynb		diffrence_pr2.ipynb
diffrential_privacy.ipynb		diffrential_privacy.ipynb
privacy_filter.ipynb		privacy_filter.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Privacy-Preserving-Representation-for-Audio-Visual-Speech-Understanding

Data

Method

Results

Speaker Recognition

Emotion Recognition

About

Releases

Packages

Contributors 3

Languages

ShreyAgarwal11/Privacy-Preserving-Representation-for-Audio-Visual-Speech-Understanding

Folders and files

Latest commit

History

Repository files navigation

Privacy-Preserving-Representation-for-Audio-Visual-Speech-Understanding

Data

Method

Results

Speaker Recognition

Emotion Recognition

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages