-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathintroduction.qmd
290 lines (263 loc) · 15 KB
/
introduction.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
---
title: "Introduction"
---
## Les données émergentes dans le temps long
L'histoire de la statistique est une suite d'évolutions
de la discipline où les données émergentes un jour deviennent
le lendemain traditionnelles.
Le XIXe siècle, qui est celui
où la statistique s'est constituée en temps
que discipline autonome et s'est dotée d'une partie
des concepts qui en font aujourd'hui les fondements,
est ainsi une période où de nombreuses données
ont émergé et ont pu entraîner des révolutions scientifiques.
Parmi celles-ci, la construction de la loi normale,
qui constitue aujourd'hui l'objet central
de la statistique, correspond au besoin de construire
de nouveaux concepts et
outils afin de structurer dans une théorie commune
un ensemble de nouvelles données.
La manière dont Gauss a collecté et
synthétisé un ensemble d'observations
astronomiques a ainsi permis de construire
la méthode des moindres carrés et
le concept de loi normale, appréhendé
à partir des erreurs d'observations.
L'accès à des recensements par des universitaires
à la fin
du XIXe siècle a été un élément moteur
de la constitution de la sociologie en temps
que discipline autonome.
Les registres de décès ont ainsi permis
à Durkheim de participer aux débats sociologiques
sur le suicide et de proposer une
interprétation sociologique
de ses causes à rebours des
approches psychologisantes qui
étaient fréquentes à l'époque.
Avant Durkheim, l'usage novateur
des monographies a permis de
dessiner les prémisses de la sociologie en
temps que discipline autonome.
Les avancées de la statistique au cours
du XXe siècle sont intimement liées
à la génération des enquêtes ou des sondages.
Les notions d'échantillonnage, de représentativité,
ou encore de marges d'erreur, qui sont au coeur de la
statistique moderne, ont permis de rendre traditionnel
ce nouveau mode de collecte. Ces enquêtes sont
aujourd'hui
encore très
utilisées dans la production statistique moderne ou
dans les
études économiques et sociologiques.
La prolifération de traces numériques, parce
qu'elle a créé de nouvelles opportunités pour
la puissance publique ou pour des acteurs privés
de valoriser des données, est un moteur
d'évolution de la statistique.
L'émergence du concept
de _data-science_, qu'on le considère
comme un ensemble de pratiques ou uniquement comme
un _buzzword_, est intimement lié à la multiplication
des traces numériques.
Les nouvelles disciplines ou méthodes qui se sont développées récemment
sont intrinsèquement liées aux données
émergentes.
La vitesse à laquelle se
développent les innovations dans le domaine de
la _data-science_
est d'une ampleur inédite du fait
de la multiplicité des données collectées
et des acteurs impliqués. IBM estimait en effet que 2.5 quintillions d'octets de données étaient générés chaque jour il y a environ 10 ans.
Dans un ouvrage sur l'histoire de la statistique, @hacking-90 parle déjà en 1990 du début d'une "avalanche de chiffres".
## La production renouvelée de données de la puissance publique
La puissance publique est une productrice
historique de données. Les
registres administratifs ou
comptables sont une source
de données très appréciée des
historiens. Si elles n'atteignent
pas les volumétries actuelles,
ces sources sont néanmoins
les ancêtres de nos données administratives actuelles.
Les recensements de population sont également
une des productions historiques de données.
Le comptage de la population et des impôts
fait partie intégrante du processus
de constitution de la puissance
publique centralisatrice [@desrosieres2016politique].
Curieusement, la tablette Kish de l'empire sumérien (environ 3500 av. J.-C.), l'un des plus anciens exemples d'écriture humaine, semble être un document administratif destiné à des fins statistiques.
La
statistique publique, si elle est aujourd'hui
entendue beaucoup plus largement que par le passé,
et qu'elle dispose d'une indépendance vis-à-vis
d'autres branches de l'Etat,
c'est parce qu'elle est un élément essentiel pour
pour permettre le bon fonctionnement de l'économie et de la démocratie.
Le slogan de l'Insee, _"mesurer pour comprendre"_,
correspond bien à cette idée.
Les statistiques officielles essaient d'objectiver les phénomènes
socio-économiques par la collecte de données et la construction
de concepts cohérents avec le phénomène mesuré.
Les enquêtes sont historiquement une
source privilégiée puisque
la conception de celles-ci, en amont de la collecte et
des retraitements post-collecte, est
justement effectuée en fonction des
réutilisations futures.
Les questions sont ainsi conçues pour
s'approcher au plus près des phénomènes qu'on
désire quantifier et
l'échantillonnage puis les redressements post-collecte
permettront de contrôler la population
sur laquelle portent les statistiques construites.
L'inconvénient est que cette production nécessite des moyens
et un temps conséquents (en amont de la collecte, lors de celle-ci puis
à l'issue de celle-ci). De plus, les enquêtes ne sont pas à l'abri
d'erreurs dans la collecte, qu'il s'agisse d'omissions ou réponses
erronnées, qu'elles soient volontaires ou non.
A ces problèmes s'ajoute la baisse historique des taux de réponse
[@riviere2018].
L'Etat n'accumule pas uniquement de la connaissance sur sa population
par le biais d'enquête. Les registres des impôts, de l'assurance maladie, etc.
sont des sources de gestion par lesquelles chaque individu communique
un certain nombre d'informations sur lui. On parle
de données administratives pour regrouper cet ensemble
de sources qui sont produites par la puissance publique
et dont la collecte répond à des enjeux de
gestion mais pas à des besoins de statistique publique.
La définition qu'en donnait @desrosieres2004,
résume bien ceci: _"une source administrative est issue d'une institution dont la finalité n'est pas de produire une telle information, mais dont les activités de gestion impliquent la tenue, selon des règles générales, de fichiers ou de registres individuels, dont l'agrégation n'est qu'un sous-produit"_.
Les besoins de la statistique publique
ne sont donc pas à la source de la collecte mais on peut utiliser celle-ci
comme opportunité pour enrichir la connaissance de phénomènes
socio-économiques
(Connelly et al., Einav et al.).
Certaines informations disponibles dans ces données sont très
génériques et communes à de nombreuses bases de gestion (l'état civil notamment),
ce qui peut faciliter l'association entre elles,
alors que d'autres sont propres à chaque source. Outre la possibilité de
disposer d'informations sur une population plus importante, la différence
principale entre ces
sources de données,
historiquement collectées
par papier et de plus en plus par collecte numérique, et les enquêtes est
que les premières ne sont pas conçues initialement
à des fins de statistique donc le statisticien n'en contrôle pas
la conceptualisation et la collecte.
Néanmoins, ces sources peuvent fournir des informations très
précieuses à la statistique publique. Si on est en mesure de relier celles-ci à
une enquête, il devient possible d'enrichir ou de corriger certaines informations
collectées si les concepts présents dans l'enquête correspondent à ceux de la
source administrative.
Les données administratives deviennent ainsi de plus en plus
fréquemment mobilisées dans la production officielle
de statistiques ou dans les études économiques.
La numérisation de l'économie et
des démarches administratives, parce qu'elle a facilité
la constitution de bases et l'association entre
celles-ci, a accéléré
le mouvement de constitution de grands répertoires
administratifs. Parmi les principaux exploités par la statistique
publique :
la DSN, Fidéli, le SNDS... La construction de ces sources,
car celles-ci nécessitent pour leur usage à des fins
statistiques une reconstruction,
implique également un changement des institutions collectant
la donnée. Ce n'est plus l'Insee qui collecte directement la
donnée (que ce soit à son compte ou pour le compte d'autres
institutions comme les services statistiques ministériels)
mais des ministères. Ces derniers peuvent, ou non,
exploiter ces données à leur propre compte mais aussi
mettre à disposition la donnée brute ou une version
retravaillée de celle-ci.
Par exemple, la Direction Générale des Finances Publiques (DGFiP)
est, par son rôle de collecte des impôts, un acteur central
dans la constitution de bases sur les revenus qui permettent
de produire de nombreuses statistiques socio-économiques.
De même, la Caisse Nationale d'Assurance Maladie (CNAM)
est, par son rôle de gestionnaire du système français de sécurité sociale,
un élément central dans la constitution
du Système national des données de santé (SNDS).
La multiplication de traces numériques collectées non plus
seulement par les acteurs publics mais aussi par des
acteurs privés a permis de produire de nouvelles
sources de données, à une fréquence ou à une échelle inédite.
A ce premier facteur qu'est l'intensification de la production
de statistique, s'ajoute la demande croissante de la
population et des décideurs publics pour des statistiques
plus détaillées et disponibles plus rapidement.
Cela a ainsi amené à une intensification de la disponibilité
de statistiques, dont la production n'est plus le monopole
de la puissance publique.
Afin de pouvoir produire ces statistiques, tout en satisfaisant
aux critères usuels de qualité sur lesquels nous reviendrons,
la statistique publique se doit d'innover dans la collecte
traditionnelle, l'utilisation de nouvelles statistiques
et concepts ou dans les processus de valorisation de données
auquel elle accédait déjà. Parmi ces trois facteurs, nous
allons principalement nous concentrer sur le deuxième,
c'est-à-dire la valorisation de nouvelles sources de données, qu'il
s'agisse de données produites par l'administration ou de données
privées. Le premier point - l'innovation dans les méthodes de collecte
traditionnelles - renvoie, entre autres, à la question du multimode.
Enfin, en ce qui concerne le troisième élément - la rénovation des processus
de production - il y a des éléments connexes à notre problématique
(certaines méthodes sont intrinsèquement liées à de nouvelles sources) mais
aussi certains qui le dépassent. Nous n'allons donc pas nous concentrer sur
ceux-ci bien qu'il se peut que nous évoquions à plusieurs reprises ces enjeux.
# Innover pour traiter ces données
Les nouvelles données permettent ainsi de faire évoluer la production statistique
en amenant à essayer d'objectiver des phénomènes qui l'étaient difficilement
par le passé. Le fait qu'elles n'aient pas été produites initialement pour être traitées à
des fins de statistique publique implique un surcroit de travail et de précautions
méthodologiques pour en assurer la qualité et l'exploitation.
Il est également nécessaire de travailler sur les métadonnées (description des données)
pour répondre aux exigences de la statistique publique.
La volumétrie et la (dé)structuration des nouvelles sources de données
a de forts enjeux informatiques. Les innovations dans
ce domaine sont à un rythme impressionnant. Les acteurs
majeurs du numérique, qui sont les principaux acteurs de la collecte
de données, sont ainsi les principaux développeurs des langages de _data-science_
modernes. Ces derniers sont des solutions logicielles pour faciliter le traitement
de tel ou tel type de données.
Par exemple, `TensorFlow` a été développé par `Google`, `PyTorch` par
`Meta`, `Airflow` par `Airbnb`.
# Collaboration avec de nouveaux acteurs
Ces nouvelles sources de données sont collectées par de nouveaux acteurs, qu'il
s'agisse d'administrations, d'acteurs privés ou d'autres acteurs
tiers (ONG, associations, instituts de recherche, etc.).
Ces données sont parfois déjà valorisées par ces acteurs: certains acteurs
proposent des solutions commerciales qui revendent certains agrégats
issus des données qu'ils collectent.
Pour la statistique publique, il y a donc un enjeu à
construire des partenariats pour accéder sur la durée
à des données collectées par d'autres. Les
exploitations de nouvelles sources ayant été
principalement expérimentales,
les partenariats entre l'administration et les
entreprises ont jusqu'à présent été souvent
ponctuels. Les données de caisse, c'est-à-dire
les données de supermarchés qui sont collectées
automatiquement en caisse, sont une exception. Une réglementation
européenne imposant leur usage pour la constitution des statistiques
d'inflation et des séries de prix, [l'accès pérenne à celles-ci a été nécessaire](https://www.insee.fr/fr/information/4318285).
Pour construire ces partenariats durables,
il est nécessaire de respecter les intérêts des entreprises qui détiennent les données.
Il y a besoin de confiance, de garanties de confidentialité, ce qui demande un cadre légal facilitateur.
La responsabilité sociale doit constituer un moteur pour avancer.
- Sur la confidentialité des données : *privacy-enhancing technologies*.
- Besoin de moderniser la manière de produire des statistiques officielles pour s'adapter aux nouvelles sources de données et faciliter les partenariats : méthodologie et travail sur la qualité transparents (code open-source, reproductible au maximum);
- Fonctionnement participatif et agile pour identifier les potentiels problèmes liés à la réutilisation de données privées (besoin d'experts de ces données). Réseaux de recherche avec les partenaires privés, la recherche académique, etc.
# Historique
- [Principes fondamentaux de la statistique publique](https://unstats.un.org/unsd/dnss/gp/fundprinciples.aspx) établis par les Nations Unies ;
- Règles de qualité fixées par le [Code Européen de Bonnes Pratiques Statistiques](https://ec.europa.eu/eurostat/web/quality/european-quality-standards/european-statistics-code-of-practice).
# Futur
- L'[*Open Data Directive*](https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024) adoptée en 2019 identifie des jeux de données open-source à forte valeur potentielle pour la statistique publique ;
- Le *Data Governance Act* (adopté en Mai 2022 et appliqué à partir de Septembre 2023) : promeut le partage de données personnelles et non-personnelles en mettant en place des structures d'intermédiation:
- Assistance technique et légale pour faciliter la réutilisation de certaines données protégées du secteur publique;
- Structures d'intermédiation de la donnée;
- Certification pour les organisations qui pratiquent le *data altruism*.
- Le *Data Act* (proposition en Février 2022): règles sur qui peut accéder aux données générées au sein de l'UE dans chaque secteur économique, avec l'objectif de rendre les données plus accessibles pour tous;
- Les textes vont dans une direction commune: encourager la réutilisation de données privées. Il est aussi nécessaire d'encourager une intensification des dialogues entre parties prenantes et la société entière.