Skip to content

Latest commit

 

History

History
207 lines (112 loc) · 7.69 KB

File metadata and controls

207 lines (112 loc) · 7.69 KB
date location attendees
2017-07-13
appear.in
Pierre Chrzanowski
Thomas Parisot

Entretien avec Pierre Chrzanowski

Présentation

Pierre travaille dans le monde de l'Open Data depuis 2010 environ. Il a commencé comme chargé du numérique à l'ambassade de France à Londres lors de l'élaboration de data.gouv.fr.

Pierre a participé à la production d'un rapport sur l'Open Data au Royaume-Uni, animé des conférences autour du sujet et co-fondé Open Knowledge Foundation France.

Par la suite, il s'est focalisé sur l'accompagnement de pays et d'organisations à mettre en place des initiatives d'Open Data ainsi qu'à comprendre les utilisateurs, notamment pour le compte de la Banque Mondiale.

Thématique • Découverte des données

🗣 Utilisation de data.gouv.fr principalement pour l'alimentation d'Open Data Index — à savoir 15 jeux de données qui doivent être nécessairement de qualité.

Je ne suis pas un utilisateur de données publiques. Plutôt un observateur, consultant, travaillant à leur mise en commun.


🔍 "budget"

Je ne fais pas confiance à l'autocomplete car les propositions sont vieilles.

❗️ D'ailleurs en validant le formulaire, ça ne lance pas la recherche mais emmène vers le jeu de données précédemment survolé.

❗️ Et une fois survolé, il est impossible de le désélectionner.

🔍 "budget état"

😨 4293 résultats, j'en fais quoi ?

❓ Ils veulent dire quoi les badges ?

➡️ Cherche MinéFi / DGFip dans les facettes parce que je sais qu'ils peuvent produire les données du budget.

❓ Je suis censé savoir à quoi correspondent les titres ?


🔍 "loi de finance 2016"

😯 Rien de récent.

😤 Rien du tout (en autocomplete).

(On lance la recherche)

On choisit lequel ?

🔗 Loi de finances initiale pour 2016 (LFI 2016)

😯 18 ressources, ça fait beaucoup ! Comment je fais pour savoir quel est le budget voté pour Etalab dedans ?


👍 On a réussi à trouver la donnée même si ça aurait pu être plus facile.

Thématique • Compréhension des données

🔗 "PLF 2015 - Jaune "Personnels affectés dans les cabinets ministériels""

Ce n'est que maintenant que je comprends qu'il y a 10 ressources associées à un jeu de données.

Je n'ai pas assez de connaissances sur le budget pour comprendre ce qui est produit.

🤔 Ah, projet de loi de finance. Ce n'est qu'une annexe ? Je dois faire une nouvelle recherche pour trouver des données budgétaires.


🔗 Loi de finances initiale pour 2016 (LFI 2016)

Il manque des métadonnées. Il manque des données de référence.

❓ Elle est où cette liste ?

❓ Comment comprendre la structure du budget

😯 Ah tiens il manque la licence.

🤔 Le reste ne me dit pas grand chose pour comprendre.

❓ Il se passe quoi si je clique sur le "+", ça déplie le reste de la description ?

(Clic sur le "+")

Ah zut, qu'est-ce que je viens de faire ?

❗️ Il manque un jeu de données annexe pour comprendre.

💬 Je sais qu'il existe sur le site du Ministère des Finances mais il faut que je fasse l'effort de, et il n'est pas traitable par des machines.

❓ Il est où le lien vers le site du Ministère des Finances d'ailleurs ?

Il y'a certains jeux de données qui sont critiques pour l'utilisation des autres donnée ; par exemple le registre des entreprises pour toutes les données relatives à l'activité économique.


Pour chaque secteur d'activité, les producteurs de données sont les administrations publiques, le monde privé ainsi que les associations. Elles produisent toutes des données clés.

Thématique • Utilisation des données

🗣 Les données employées sont souvent destinées à être croisées avec celles d'autres pays.

🔗 Loi de finances initiale pour 2016 (LFI 2016)

Ah tiens, quand je double-clique sur le fichier CSV, Excel se lance mais sans faire le distingo des colonnes.

😤 Les données démarrent en quatrième ligne.

😕 Je n'ai pas d'aide pour comprendre comment manipuler les données.

C'est impossible de comprendre si on n'est pas expert.

Il y a plein de fichiers différents et autant de manières différentes de les exploiter — peu se ressemblent.

Les fichiers sont ouverts mais pas utilisables sans fournir un gros effort ; sans compter qu'on n'est que peu aidé dans le processus de réutilisation.


Pourquoi c'est si compliqué de réutiliser la donnée ? C'est parce que l'Open Data n'a jamais été la cible des Systèmes Informatiques d'où la donnée provient.

ℹ️ Systèmes Informatiques ➡️ Monde extérieur ➡️ Web

Le Web est le Système Informatique des réutilisateurs.

Quid des Systèmes Informatiques eux-même ? C'est là qu'est l'impact de la réutilisation.

💬 D'ailleurs ça m'aiderait si je pouvais prendre contact avec les producteurs.


Je ne parlerai même pas du format PDF…


  1. Il me faut un temps de compréhension
  • Titre des colonnes
  • Nettoyage des colonnes pour qu'elles aient toutes le même format de données
  1. S'il y a des identifiants pour les lignes/valeurs de colonnes c'est encore mieux (cf. Problèmes dans la recherche sur les génomes car les identifiants des gênes ne sont pas toujours les mêmes)

Tiens, prends Open Data Soft avec ses jeux de données prêts à être réutilisés.


Par exemple avec la Banque Mondiale et le comptage de l'aide publique. Combien est dépensé par les bailleurs de fond en Open Data et Systèmes d'information ? Combien est dépensé pour de l'Open Source ? Difficile à savoir aujourd'hui — tous les dépôts de données utilisent des taxonomies différentes.

ℹ️ IATI (International Aid Transparency Initiative)


Prends l'exemple des Panama Papers, qui est une fuite combinée à de l'Open Data. Sans les listes d'entreprises accessibles en open data, ça n'était pas faisable ou plus difficilement.

💬 Ça serait bien de connaître la liste globale des bénéficiaires des entreprises.

Conclusion

Avant, seuls celles et ceux qui avaient de l'argent pouvaient faire ce travail [de réutilisation des données]. Avec l'Open Data c'est devenu (en train de devenir) un pot commun.

ROTI • Retour sur le Temps Investi

  • 👍 Entretien traduit le changement vers des données de qualité.
  • 👍 Ça m'a fait réfléchir.
  • 🤔 Peut-être mieux préciser/définir les artéfacts de l'entretien lors de l'introduction.