-
Notifications
You must be signed in to change notification settings - Fork 4
/
index.Rmd
220 lines (155 loc) · 10 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
---
title: "NLP avec r et en français - un Manuel synthétique"
author: "Sophie Balech, Julien Monnot, Christophe Benavent"
date: "`r Sys.Date()`"
site: bookdown::bookdown_site
output: bookdown::gitbook
documentclass: book
bibliography: [book.bib, packages.bib]
biblio-style: apalike
link-citations: yes
github-repo: rstudio/bookdown-demo
description: " Un manuel pratique de NLP en français"
---
# Préambule
![](./images/Incantationfor6voices_scotthelmes2001.jpeg)
^[Incantation for 6 voices Scott helmes, 2001. [Museum of Minessota](https://medium.com/minneapolis-institute-of-art/painting-a-picture-with-words-a0a3fef3cf63)]
L'écosystème r s'est enrichi ces dernières années à grande vitesse dans le domaine du traitement du langage naturel.
Le but de ce manuel est de donner une synthèse des méthodes et des modèles disponibles à chacune des étapes de traitement des données textuelles : collecte, pré-processing, modélisation, visualisation.
Sa vocation est pratique, on s'appuie sur des corpus caractéristiques, et les scripts sont totalement reproductible.
On y laissera germer quelques considérations plus méthodologiques, voire épistémologiques. On ouvrira chaque fois que c'est possible et nécessaire la discussion aux questions théoriques et éthiques de ces méthodes. Leur réalisation computationnelle est le fruit souvent d'une longue histoire, au cours de laquelle les linguistes ont semé des idées essentielles qu'ont systématisées les informaticiens. Si ce champs est désormais désigné par l'acronyme NLP, pour "Natural Langage Processing" auquel correspond en français le TAL (Traitement Automatique du Langage naturel), l'expression de linguistique computationnelle convient peut-être mieux.
On soignera la bibliographie de manière synthétique pour en faire un état de l'art essentiel et actualisé. La rédaction de l'ouvrage est mené avec une règle de reproductibilité et de transparence, c'est le pourquoi le choix de ce support et des jeux de données associés. Il sera dynamique, modifié à mesure de nos cours, séminaires, ateliers et observations des lecteurs.
## Cours et séminaires
La liste des cours et séminaires où il sera présenté et utilisé en 2021-2022.
* [Colloque Marketing digital 2-3 septembre 2021](https://www.colloquemarketingdigital.com/) : "NLP : un panorama"
* [AFM 1er Décembre 2021](https://www.afm-marketing.org/fr/content/rencontres-2021) :
* Ecole Doctorale de Gestion à la Sorbonne - février 2022, "cours : NLP pour la recherche en gestion"
* [Dauphine master 204](https://dauphine.psl.eu/formations/masters/marketing-et-strategie/m2-chef-de-produit-et-etudes-marketing) - Cours ["Text Analytics"](https://dauphine.psl.eu/formations/masters/marketing-et-strategie/m2-chef-de-produit-et-etudes-marketing/formation), Novembre 2021
* [Master Siren - Dauphine](https://dauphine.psl.eu/formations/masters/systemes-information-reseaux-et-numerique) : intoduction aux Datasciences - mai 2022
* [Hackathon Siren]()
* [Lille Master Data Science]() :
* [Ecole Doctorals EOS Nanterre]() : introduction aux méthodes NLP
## La structure du livre
L analyse NLP peut être analysée comme un processus qui va de la production jusqu'à la diffusion des analyses. Elle est aussi traversée par des évolutions profondes de méthodes qui ont complexifié au sens formel les modèles initiaux. Ce sont ces techniques que nous introduisons ici.
Cependant, l'apprentissage automatique appliqué à des milliards de données submerge la statistique. Les modèles de langage distribués par les grands acteurs du digital, comprennent des dizaines, voir des centaines de milliards de paramètres. Ils s'appuient sur les architecture Transformer qui sont désormais le standard du domaine. Nous les évoquerons dans les derniers chapitres.
Le plan suit une logique progresse qui va du simple au très compliqué, et de l'acquisition des données à leur traitement et leur modélisation.
* Acquisition des données : directe, api et scrapping
* Corpus dtm et co-occurence
* AFC et typologie
* l'annotation syntaxique et lexicale
* analyse du sentiment et sa généralisation
* Word embedness
* Factorial models
* Topic analysis
* ML classique
* deep learning et transformer
* méthodes génératives : parce que la prochaine étape c'est quand on appliquera ces méthode sur la productions textuelles des bots.
## Les jeux de données
Au cours du développement, plusieurs cas pratiques - souvent réduits en volume pour rester exemplaires, seront employés. Les données sont partagées dans le répertoire `.\data\` du repository ``
En voici la présentation systématique.
* [Trump Twitter Archive](https://www.thetrumparchive.com/) : L'intégralité des tweets de Trump jusqu'à son banissement le 8 Janvier 2021.
* Confinement Jour J
* Citations : un recueil de citations littéraires pour de petits exemples et ponctuer le texte aride d'un peu de littérature et de poésie.
* Trip advisor Polynésie, un extrait d'un corpus établi par Pierre Ghewy et Sebastien de l'UPF
* Airbnb : paris 2019, bruxelles 2020 à partir de [InsideAirbnb - adding data to the debate](http://insideairbnb.com/get-the-data.html)
* Covid : le corpus confinement jour, ainsi que celui de Banda.
* PMP : titre et abstract de tout les article de la revue "Politique et Management Public" de 1982 à 2020. Le corpus a été constitué à l'inititive de Manel Benzarafa avec le soutien de la revue et des ses éditeurs.
* David Bowie : Les articles des magazines musicaux relatif à ,la sortie des 23 album de l'artiste. Constitué par Elias Benavent.
* Appli de fitness
* Langages / Julien
L'ensemble des codes et données sont disponibles dans le [repositery NLP Book](https://benaventc.github.io/NLPBook/) pour la reproductibilités). Les amendements et améliorations sont souhaitées et attendues.
## Les ressources
Ce _livre_ est écrit en **Markdown** [@allaire_rmarkdown_2021] et construit avec le package **Bookdown** [@R-bookdown].
Le code s'appuie très largement sur `tidyverse` et emploie largement les ressources de [`ggplot`](https://ggplot2.tidyverse.org/reference/index.html) et de [`dplyr`](https://dplyr.tidyverse.org/) . On recommande d'étudier ces deux ressources en parallèle.
Une mention particulière doit être faite sur la question du traitement du texte dont [`stringr`](https://stringr.tidyverse.org/articles/stringr.html) est un des outils fondamentaux, même si ardu. Il propose une multitude de fonctions pour traiter les chaînes de caractères. Son étude est recommandée de concert avec la connaissance des [regex](https://stringr.tidyverse.org/articles/regular-expressions.html).
D'autres outils transversaux sont utilisés dans le manuel. Pour les tableaux, nous opterons la plus part du temps pour les solutions de `flextable`.
On supposera que les lecteurs ont une connaissance satisfaisante de ces outils génériques, mais à chaque fois qu'on les introduira, on les expliquera.
### Les packages
Les data sciences sont devenue un jeu de lego. Les briques de base sont les bibliothèques, des packages qui rassemblent un jeu plus ou moins étendu et cohérent de fonctions. On en utilise dans ce manuel un grand nombre. Les packages seront introduits au fur et à mesure de leur première utilisation. On le signale par un commentaire `#library(lib) `. En voici la liste complète, pour reproduire les exemples il est recommandé des les installer tous.
```{r pack, echo = TRUE, message=FALSE, warning=FALSE}
knitr::opts_chunk$set(echo = TRUE, message=FALSE,warning=FALSE)
#boite à outils et viz
library(tidyverse) # inclut ggplot pour la viz, readr et
library(readr) #lecture de fichier csv
library(scales) # pour affiner les échelles de ggplot
#Vizualisation souvent en développement de ggplot ( inclus dans tidyverse)
library(cowplot) #pour créer des graphiques composés
library(ggridges) # le joy division touch de ggplot
library(pheatmap) #carte de chaleur
library(flextable) #mise en forme de tableaux
#networks
library(igraph) #le standard pour les représentations de réseaux
library(ggraph) #un complément compatible ggplot du précédent
# Accéder aux données
library(rtweet) # une interface efficace pour interroger l'api de Twitter
library(revtools) #acces aux bases bibliographiques
library(rvest) #pour le scrapping
# OCR et pdf
library(tesseract) #reconnaissance de caractère
library(pdftools) #gérer la lecture des pdf
# Analyse de donnée
library(FactoMineR) #le classique de l'AF et ses variantes
library(factoextra)
# NLP
library(tokenizers)
library(quanteda)
library(quanteda.textmodels)
library(quanteda.textplots)
library(quanteda.textstats)
library(udpipe) #annotation syntaxique
library(tidytext) #lda glove et autres
library(cleanNLP) #annotation syntaxique
library(syuzhet) #analyse du sentiment
#install.packages("remotes")
#remotes::install_github("bmschmidt/wordVectors")
library(wordVectors)
library(ade4)
library(ExPosition)
library(Biobase)
library(BiocManager)
library(NMF) #non negative factoring
##reconnaissance de langue
library(cld3) # c'est google qui gère
library(textcat) #ngram based
#Analyse du sentiment
library(syuzhet) #des sentiments , des émotions
#mise en page des tableaux
library(flextable) #
#Statistiques et modèles
library(lme4)
library(jtools)
library(interactions)
library("corrplot")
#ML
library(caret)
library(vip)
library(plotROC)
library(MLeval)
#Palettes
library(colorspace) #pour les couleurs
library(viridis)
library(viridisLite)
#utilitaires
library(citr) # un outil interactif pour insérer des références
library(doParallel)
#Template pour ggplot
theme_set(theme_bw())
library(udpipe)
library(quanteda.textmodels)
library(Rtsne)
library(NMF)
library(ggrepel)
library(ggplot2)
library(flextable)
library(FactoMineR)
library(factoextra)
library(frequency)
library(Rcpp)
library(rainette)
library(explor)
library(quanteda)
```
## Disponibilité
L'ensemble du code est disponible [sur github](https://github.com/BenaventC/NLPBook).
Sous licence creative common (comment met-on le badge ?)
citation. (un doi serait bien, au mini un bib)