Notes de Réunion

8 avril 2019

Présentation de l'équipe et du stage. Planning.

Prochaines 2 semaines (à peu près) : bibliographie et état de l'art

Présentation pour ~19/04

Définition : apprentissage par représentation
Définition : sémantique textuelle et reconnaissance du locuteur
Points en commun et différences entre les tâches
~10 slides

Répo Git

Notes (de réunion et de lecture) et code
Suivi du projet
Github ?

Setup

Installation PyCharm/Sublime Text/Atom
Conda
GPU à partir du 09/04 ou 10/04

Code

Python (PyTorch)
Généricité des modules loss
Points modifiables pour les spécificités de chaque tâche

Autres

Réunions toutes les semaines --> les mardis à 9h
Résumer les articles à lire
Apporter un cahier aux réunions
[juin, août] --> Absence Hervé

16 avril 2019

Compte-rendu du travail bibliographique. Losses : contrastive, triplet, center, coco, arcface. Prochaine semaine (jusqu'au 19/04)

Préparer la présentation (19/04)
Est-ce que ArcFace et CoCo ont besoin de centres ?
Évaluer possibles combinaisons entre les loss présentées
Évaluer d'autres possibles loss
Regarder l'article d'identification de langues mentionné par Hervé
Tester sur MNIST partant de l'exemple de center loss
Faire des stats sur STS2017 pour voir comment on pourrait constituer des triplets (si temps)

Architecture

Pas encore fixé
Pas PWIM pour STS, puisque ça apprend la similarité directement (2 phrases en entrée)
Possibilité : pré-entraînement avec softmax (+performance? -temps)
Fixer distance cosinus (vitesse de calcul)

Pré-entraînement

Entraînement d'un réseau pour la classification, puis freezer les poids
Re-entraîner avec ce réseau pour apprendre l'embedding. 2 méthodes :
1. Prémier réseau fixe, apprendre les poids des nouvelles couches
2. Tout apprendre (premier entraînement sert d'initialisation)

Autres

Rappel : Hervé en vacances à partir de la semaine du 22/04
Sophie en conf la semaine du 22/04

19 avril 2019

Présentation sur le travail bibliographique. Proposition des loss : contrastive, triplet, center, coco, arcface.

Prochaines 2 semaines (jusqu'au 03/05)

Travailler sur l'implémentation des loss sur MNIST (comparer aussi avec softmax)
Optimiser la génération de paires pour contrastive loss (online par batch) pour réduire l'utilisation de RAM
Statistiques descriptives du dataset STS2017 (2016, 2015 aussi peut-être ?) pour comprendre comment on peut créer des triplets
Lecture

7 mai 2019

Présentation sur le travail sur MNIST. Résultats des loss : cross entropy, contrastive, triplet, center, arcface.

Prochaines semaines

Travailler sur l'implémentation de CoCo loss sur MNIST
Essayer la distance cosinus avec Center Loss
Changer la méthode de calcul d'accuracy où on utilise la classification finale au lieu de la distance (par exemple pour arcface). L'idée c'est de faire un calcul similaire à celui de la contrastive ou triplet loss
Dans le dataset STS, il y a des paires de phrases qui se répètent. Il faut enlever ces doublons
Calculer dans les statistiques STS le nombre de paires positives et négatives qu'on peut générer (total et par phrase)
Lecture

15 mai 2019

Prochaines semaines

Créer des issues au lieu de notes dans l'onglet Projects
Essayer des marges avec différents ordres de grandeur pour triplet loss avec distance cosinus
Futur : changer la stratégie de sampling pour la triplet loss in-training
Attendre la doc de VoxCeleb et le modèle STS pour commencer avec des données réelles
Finir la création de triplets pour STS
Pour SV, commencer à tester avec softmax
Pour STS, commencer à tester avec contrastive/triplet

21 mai 2019

Prochaines semaines

Plotter les golden rating pour trouver un bon seuil pour le modèle STS
Créer les triplets avec les paires générées
Intégrer modèle STS
Se familiariser avec VoxCeleb et l'intégrer dans le code

17 juin 2019

Corriger les bugs qui traînent

STS

Vérifier que dans les paires générées il n'y a pas les mêmes paires en positif et négatif
Oublier l'augmentation de données pour l'instant et se concentrer sur contrastive et triplet loss
Enlever les paires avec un score < 1, parce qu'il s'agit de phrases qui n'ont rien à voir entre elles
Entraîner contrastive loss (dans un premier temps) avec différentes valeurs de seuil mais sans augmentation de paires (pour séparer entre + et -)

Vérification du Locuteur

Relancer les expériences avec un seuil plus faible et plus élevé
Ajouter des logs dans un fichier pour analyser après

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Notes de Réunion

8 avril 2019

16 avril 2019

19 avril 2019

7 mai 2019

15 mai 2019

21 mai 2019

17 juin 2019

STS

Vérification du Locuteur

Clone this wiki locally