Alors, qu’est ce que vous allez faire avec mes données ouvertes?

22 septembre 2016 Open Data

Après les archives Albert Kahn en Open Data et la nouvelle application du Ministère de l’Éducation nationale, de l’Enseignement supérieur et de la Recherche, nous posons aujourd’hui une question essentielle : que faire avec mes données ouvertes.

Vous vous rendez compte alors que faire confiance au peuple n’est pas uniquement un mythe romantique. Mais pour qu’il y ait communication, il faut qu’il y ait motivation à comprendre. Il n’y aura motivation et soif de connaître que si les circonstances en fournissent les instruments ou le permettent.

Saul Alinsky, Manuel de l’animateur social

Les données ouvertes et la démocratisation des compétences

L’Intelligence Artificielle est en train de remplacer le Big Data comme sujet le plus tendance dans le monde des technologies. C’est une bonne chose parce que nous devrions avoir maintenant le recul nécessaire pour comprendre plus précisément ce qu’est le Big Data. Il n’est évidement pas question de taille ou de performance : ce qui apparaissait énorme en 2010 peut sembler commun aujourd’hui, et le volume de données qu’il est possible de valoriser va continuer à augmenter. Il en est de même de la performance. Ce qui a été remarquable dans la dernière décennie en terme de données, c’est la démocratisation à la fois des outils et des sources de données. Il n’y a pas si longtemps, une grande entreprise avait besoin de millions de dollars et d’une large équipe d’ingénieurs issus des meilleures formations pour paralléliser d’énormes calculs et analyser des données payées au prix fort.

Aujourd’hui, n’importe qui peut se brancher sur l’API de Twitter. Les “dividendes de paix de la guerre des smartphones”, c’est à dire le coût de plus en plus marginal des composants des smartphones, a donné naissance à l’Internet des Objets. N’importe qui peut inclure un GPS et pléthore de composants très abordables à n’importe quel objet ; générant ainsi une quantité astronomique de données. N’importe qui a accès à une quantité phénoménale de données sa vie quotidienne, à moindre coût. De plus, on trouve désormais un ensemble complet d’outils, de tutoriels, de librairies et de livres pour analyser ces données. Il est possible de faire tourner des algorithmes de Machine Learning (ou même de Deep Learning si on veut rester tendance) en quelques lignes de code. Et lorsque l’on est prêt pour passer en production, les technologies de Cloud Computing permettent de déployer des infrastructures énormes pour quelques centaines de dollars. Même si la loi de Moore est mourante, ce n’est plus vraiment votre problème.

La démocratisation des technologies des données est un changement de paradigme profond.

Cela a permis à une grande quantité d’entreprise de mieux servir leurs clients. Cela a permis à beaucoup d’administrations de mieux servir leurs administrés, allant même jusqu’à sauver des vies. Je suis persuadé qu’il y a plus de personnes vivantes capables de faire une régression linéaire aujourd’hui qu’il n’y en a eu dans toute l’histoire.

N’importe qui peut apprendre, gratuitement, en ligne, comment gérer des données, comment les comprendre, comment les stocker, comment les partager et comment les grouper. Le projet d’Ecole des Données de l’Open Knowledge Foundation a été conçu en suivant l’hypothèse que de plus en plus de données seront disponibles. Et si le pouvoir découle des données, il faut des cours. Dans le même temps, des outils ouverts ou librement distribués comme les bases de données SQL ou NoSQL, ElasticSearch, l’ensemble du framework Hadoop, les outils de parallélisation, les langages comme R ou Python, et les librairies de visualisation de données comme d3.js sont disponibles. C’est génial. C’est la révolution du Big Data. Mais nous devrions aller beaucoup plus loin! Mes grands-parents ont pris le temps de maitriser la boîte mail de leur fournisseur d’accès à internet. Cette dernière est tellement mal conçue que je suis prêt à parier qu’il est possible de les guider à travers toute les étapes basiques de nettoyage des données, d’analyse ou de création de cartes, en utilisant un design plus moderne et mieux pensé.

Alors, qu’est ce que vous allez faire avec mes données ouvertes ?

Revenons à la citation d’Alinsky. Dans son livre Manuel de l’animateur social, il explique que demander à une personne lambda ce qu’elle améliorerait si on lui offrait 5 millions d’euros est absurde. En effet, à moins de savoir concrètement ce qu’est 5 millions d’euros ET à moins d’être réellement face à la dépense, on ne peut pas s’interroger profondément.

Nous devrions partager les 5 millions entre 20 écoles pour tester différentes méthodes d’éducation pendant quelques années. Puisque nous vivons dans un monde régi par la loi de puissance, il est probable que nous découvrions une méthode particulièrement adaptée. Il serait alors temps de trouver 100 millions pour appliquer le modèle aux autres écoles, y compris celle de mon enfant.

Jamais aucun parent.

Si ce n’est pas la réponse attendue de la plupart des parents, cela pourrait être celle d’un investisseur, d’un entrepreneur ou peut-être d’une famille riche.

Pourquoi? Simplement parce que 5 millions veut clairement dire quelque chose pour eux. Ils sont habitués non seulement à la situation mais aussi aux outils d’investissement. D’où la crédibilité de la réponse.

Quel impact pour mes données ouvertes ?

Les choses sont exactement les mêmes quand on parle de données ouvertes. A chaque fois que l’on discute avec quelqu’un intéressé par une ouverture de données, il ou elle finit par demander ce que serait l’impact. Nous sommes habitués à la question, mais il n’y a pas de réponse facile et cela dépendra essentiellement de la façon dont les données seront ouvertes.

Si vous attendez des gens qu’ils réutilisent vos données ouvertes, il faut les mettre dans les conditions optimales avec le bon contexte et des outils qui leurs permettront d’être ouverts d’esprit — au sens originel du terme — à propos des données.

L’Open Data de base — c’est à dire des jeux de données faciles à télécharger, dans des formats et licences standardisés — n’est pas suffisant. Si les données sont vraiment intéressantes, la démarche peut être un succès, mais ce succès ne sera probablement pas complet.
Les données ouvertes avec des outils pour les développeurs, comme des APIs donnent un plus grand spectre d’action. Mais seulement aux développeurs. C’est beaucoup mieux puisque les développeurs peuvent créer des applications et des services qui indirectement bénéficieront au gens. Mais cela n’est pas totalement satisfaisant.
Les données simplement ouvertes, sans contexte, et surtout sans efforts pour fédérer une communauté autour, peuvent avoir le même effet qu’un arbre tombant au milieu de la forêt.

Essayer d’imaginer ce que seront les usages des jeux de données ouverts avant l’ouverture est une illusion. J’irais même plus loin, si vous êtes capables d’imaginer les usages à l’avance, c’est que vous avez échoué sur la planification et l’exécution de la démarche Open Data. Le jeu de l’ouverture de données consiste à distribuer un matériau, des outils appropriés et organiser un écosystème, une communauté, pour donner aux acteurs une raison de faire quelque chose des données, indépendamment des idées préconçues.

L’organisation de la communauté peut aussi évoluer dans le temps. On observe un nombre croissant de hackathons Open Data dernièrement par exemple. Au début, les hackathons étaient un outil puissant pour organiser une communauté et pour donner du contexte aux données. Mais les derniers évènements auxquels je me suis rendu, en qualité de mentor ou de participant, étaient remplis d’habitués. Lorsqu’ils sont bien organisés, ce sont toujours des moments utiles qui contribuent à la propagation de la connaissance des données. Mais je reste persuadé qu’il doit y avoir d’autres façon d’aider les gens à se rencontrer et de les guider dans leur découverte des données.

La connaissance, prête à l’emploi

Il n’y aura motivation et soif de connaître que si les circonstances en fournissent les instruments ou le permettent. Que fait-on de ça du coup? Une fois que vous avez commencé a vraiment ouvrir des jeux de données, et que de vraies données sont disponibles, les circonstances sont globalement là. Il faut maintenir la confiance des utilisateurs (en ne cassant pas leurs applications en retirant les données par exemple). Continuer à sortir des données et maintenir de bonnes relations avec la communauté est aussi très important. Mais quand même, généralement en ouvrant des données on crée de facto les circonstances de leurs réutilisation. Le principal problème, selon moi, reste qu’il manque un élément dans la plupart des démarches Open Data : les instruments.

Historical Tornado Tracks, un jeu de données qu’on aime beaucoup chez OpenDataSoft.

Chez OpenDataSoft, nous essayons de donner à tous les outils de base pour qu’ils puissent se familiariser avec les données. Du côté du producteur des données, nous proposons une infrastructure d’ETL basique (nous croyons à la loi de puissance donc c’est un ETL qui gère 80% des besoins) grâce à des processeurs faciles à utiliser. La plateforme permet à ses utilisateurs de géocoder leurs données ou de les croiser avec des jeux de données déjà indexés. Il devient donc facile d’améliorer les données soi-même. Nous permettons de typer les données directement dans l’ETL, parce que typer c’est décrire et donner du contexte aux réutilisateurs. Les types que nous proposons sont encore très basiques, mais nous travaillons sur un typage beaucoup plus large, dans la direction de la sémantique. Nous tenons vraiment à donner aux utilisateurs métier, qui n’ont pas forcément les compétences techniques, les moyens de travailler et d’améliorer les données puisque ce sont eux qui connaissent le mieux ces données. Une fois que les données sont ouvertes, du côté de l’utilisateur final, nous proposons plusieurs outils. De la cartographie, des graphiques, des widgets open source de visualisation, un éditeur HTML-CSS (pour pouvoir simplement copier-coller des widgets et concevoir des tableaux de bord interactifs) et, évidement, une API. Chacun de ces outils permet au consommateur de se faire une idée des données, ils donnent aux gens une bonne idée de ce qu’ils pourront faire avec. Pas besoin de télécharger les données, ni d’avoir ses propres outils de travail sur les données ; il suffit de cliquer sur Carte, Analyse ou API, et c’est fait!

C’est peut être 80% de ce que de bons outils prêts à l’usage peuvent donner. Nous travaillons dur pour les améliorer mais il reste 20%. C’est la raison pour laquelle nous travaillons sur des projets comme Open Data Inception. C’est aussi la raison pour laquelle nous travaillons à développer un vrai réseau de données avec les jeux de données ouverts par nos clients. En donnant un moyen aux producteurs de données d’alimenter des portails hiérarchisés sur des sous-domaines, avec des données choisies à la bonne granularité, ils peuvent donner beaucoup plus de contexte et mieux cibler les personnes les plus intéressées. Si je vis dans une petite ville française, je n’ai pas forcément envie de trouver des jeux de données nationaux, les télécharger, les ouvrir, filtrer les données pour trouver les données qui me concernent. En prenant les données dans leur plus petite granularité tout en gardant une source unique, les producteurs de données sont maintenant capables de donner de beaux tableaux de bord aux personnes concernées. Grâce à ce design, les utilisateurs sont capables de comprendre plus rapidement les données et leur utilité. Ils sont alors capables de récupérer la source complète, et d’en faire quelque chose.

Il reste beaucoup de choses à penser. Le web des données et l’open data 5 étoiles sont peut-être le meilleur moyen de donner les circonstances au consommateur de données. Mais le segment des personnes ayant les compétences pour en profiter semble trop petit. On peut espérer que les gens apprennent, on peut leur apprendre, mais je pense que nous avons le devoir de leurs donner les outils pour en profiter directement.

L’Open Data est sur la bonne voie. Tous les jours de nouveaux jeux de données sont ouverts, c’est très enthousiasmant. Cependant, nous avons toujours beaucoup de travail pour permettre aux données d’exprimer leur potentiel. Vous ne pouvez pas sérieusement demander aux gens d’imaginer de nouveaux services avec vos données sans leurs donner à la fois les circonstances et les instruments. Commencez donc à ouvrir vos données tout de suite, apprenez vite et créez des relations réelles et honnêtes avec les gens. Vous aurez des résultats réels et honnêtes…

Cette tribune a originellement été publiée sur Medium.

Vous ne savez que faire de vos données ouvertes ?

Recevez votre guide gratuit maintenant ! Il réunit les 10 étapes essentielles pour bien amorcer votre projet Open Data.

Source : ADEC - Open data