“L’ouverture des données publiques ne se confond pas avec l’open data”


Les débats récents à l’Assemblée nationale et au Sénat autour des données publiques (articles 1 à 16 de la loi sur le numérique, dite loi Lemaire) ont permis à de nombreux élus et hauts fonctionnaires d’appréhender de plus près les enjeux stratégiques, sociaux et économiques que pose leur mise à disposition. Toutefois, des voix se sont élevées pour critiquer l’absence d’ambition, noter l’inculture numérique des parlementaires ou vitupérer contre leurs incohérences normatives.

Qu’en est-il ? La donnée est, par essence, multi-usage. Mais l’ouverture des données publiques ne se confond pas avec l’open data. On pourrait d’ailleurs opposer la tradition française d’ouverture des données instaurée par la loi de 1978 et la tradition d’origine anglo-saxonne d’open data, beaucoup plus récente et très différente dans l’esprit. Dans le premier cas, il s’agit, dans un cadre organisé, de faciliter la réutilisation des données produites par l’État et les collectivités locales. Il s’agit très souvent d’un cadre contractuel qui définit le contenu, les formats et les modes de mise à disposition, ainsi que le type de réutilisation. Cette mise à disposition, le cas échéant, peut être payante.

L’open data relève, lui, d’une logique différente : il s’agit, dès l’origine, de favoriser au maximum la réutilisation, en levant un maximum de barrières, tant juridiques et techniques que financières.

Les deux logiques ne sont pas antinomiques, mais elles ne visent pas les mêmes types de réutilisation et peuvent représenter, tant pour le producteur que pour le réutilisateur, des coûts différents.

La première est bien adaptée aux besoins des réutilisateurs professionnels, qui ont fait de l’amélioration de la donnée publique le principal, ou l’un des, moteur(s) de leur développement économique. La seconde est plus adaptée au “grand” public, c’est-à-dire à ceux, fanatiques des données ou pas, qui savent comprendre, faire parler et, s’ils le souhaitent, valoriser la donnée.

Il faut ajouter, pour complexifier un peu, que des réutilisateurs peuvent, selon le secteur d’activité et selon les modalités de mise à disposition, utiliser des données issues de l’un ou l’autre des cercles…

On le voit (la santé en est un bon exemple), rien ne s’oppose à ce que ces deux logiques cohabitent. En revanche, le problème survient quand n’existe que l’open data : la liberté laissée au réutilisateur est telle qu’il convient de ne prendre aucun risque de réidentification et que le producteur doit investir significativement pour anonymiser les données, limitant par là même le potentiel de réutilisation. Or les procédés d’anonymisation des fichiers sont complexes, lourds à mettre en œuvre et coûteux.

Comment faire ? L’idéal consiste donc à penser, dès l’origine ces cercles de diffusion en fonction des usages. Il est tout à fait possible de débuter par une politique d’ouverture limitée (loi de 1978) pour, ensuite, basculer tout ou partie des données, selon des formats et des temporalités différentes, en open data.

C’est ainsi que, plutôt que saupoudrer leurs investissements, nous invitons les producteurs publics à les focaliser dans deux directions :


Mettre en open data (coût maximum) les données qui présentent un intérêt démocratique (hors du sujet de cet article) ou qui sont des “données de référence” qui sont décrites ci-dessous.
Ouvrir, même si la qualité est médiocre et le tarif élevé, selon le régime de la loi de 1978, les données dont le potentiel économique est avéré.


Données pivots, données de référence (article 9) : de quoi s’agit-il ? Les “données pivots”, ou données de référence, sont des données considérées comme identifiantes, par l’administration ou par l’usager, pour nommer ou identifier des produits, des entités économiques, des territoires ou des acteurs (personnes physiques et morales). La plus large utilisation de ces données, dont une partie requiert un mode collaboratif étendu pour leurs mises à jour, ne peut être atteinte que s’il n’existe aucun obstacle financier ou réglementaire face à cette réutilisation et que leur qualité est irréprochable. Or ces référentiels sont indispensables pour lier des bases de données de nature hétérogène et construire tout nouveau service intégré dans les nouvelles technologies (linked data, big data, services en temps réel).

Les coûts d’extraction et de fabrication de ces données essentielles étant élevés, nous incitons l’État à se concentrer sur ce type de données et ainsi créer un véritable effet de levier dans la réutilisation des données publiques en France. Ces données, dont le GFII a publié une liste*, doivent être à 100 % en open data, c’est-à-dire lisibles par machine, livrables par API, exhaustives avec une mise à jour rapide et, point capital, gratuites. C’est pourquoi il faut soutenir la rédaction de l’article 9 du projet de loi Lemaire en n’oubliant pas que les 3 conditions qu’il fixe sont cumulatives.

Focaliser sur les données présentant un potentiel économique. Au-delà des données de référence dont il est demandé une complète ouverture, il existe de nombreux jeux de données détenus par l’État et ses établissements publics, les collectivités territoriales ou des organismes parapublics ou privés chargés de missions de service public. Ces données présentent souvent un potentiel de croissance qui reste ignoré en raison de l’absence totale d’un cadre de diffusion couvrant les aspects économiques, techniques et juridiques potentiellement constitutifs d’une véritable économie de la donnée autour de ces sources.

En matière économique, il s’agirait d’admettre plus clairement que tout ne peut pas être gratuit et que des modalités de recouvrement des coûts techniques de gestion et de diffusion des données sont non seulement licites, mais conduisent aussi à l’émergence d’un dialogue constructif entre fournisseurs et utilisateurs pour l’amélioration de la qualité de ces données.

En matière technique, il s’agirait notamment de permettre aux acteurs de s’approprier plus complètement l’ensemble des connaissances en perpétuelle évolution de manière à être en mesure de faire des choix en toute connaissance de cause. L’enjeu est primordial puisqu’il s’agit d’indépendance technique des entreprises et des administrations françaises par rapport à des solutions globales de plus en plus disponibles et dont l’efficacité et la facilité d’usage n’est pas exempte de nombreux risques.

Enfin, les aspects juridiques, notamment en considération des données personnelles qui sont présentes dans de nombreuses bases de données, doivent être examinés de manière pragmatique en vue de permettre une réutilisation dans des conditions économiques raisonnables tout en préservant les personnes des préjudices qu’elles pourraient subir du fait de la réutilisation des données qui les concernent. Au principe absolu d’élimination de toute information nominative des bases de données réutilisées pourrait se substituer un principe de proportionnalité qui conduirait à l’adoption de solution adaptées à chaque type de données et à chaque type de réutilisation.

Entre le “no data” et l’open data, une voie pragmatique et fructueuse. Depuis 2011, l’élaboration des textes récents (transposition de la directive de 2013 par la loi 2015-1779, loi Valter, projet de loi “pour une République numérique”) a vu le mouvement et le mot “open data” faire florès, occuper beaucoup certains médias, investir la rédaction de décrets, inspirer la création d’un service du Premier ministre, susciter quelques démarches de communication de collectivités locales… Or, malgré quelques avancées, il faut convenir qu’après trois débats parlementaires, les attentes ne sont pas si nombreuses, les vraies demandes encore peu satisfaites et l’avenir guère éclairé par des textes qui laissent les citoyens encore bien éloignés des données et les professionnels peu rassurés quant au développement de leur activité dans ce secteur.

Le constat est également fait que ces textes et ces discussions n’ont pas suscité de mouvement favorable à plus d’ouverture des données du côté des producteurs publics, sans doute en raison de moyens insuffisants, mais aussi en raison d’une crainte de plus d’insécurité lorsqu’il s’agit du secteur privé**.

Pourtant, face à la frilosité de certains acteurs et à la désorganisation de l’écosystème de production et de diffusion des données françaises, il est bienvenu de contraindre les acteurs publics à ouvrir leurs données et de créer un service public de la donnée. Le nouveau cadre législatif (qui reste à affiner au niveau réglementaire), même s’il ne résout qu’une partie des problèmes, établit les bases solides et stables d’un développement de la réutilisation des données publiques. Il est maintenant nécessaire de l’exploiter au maximum, d’abord en vérifiant sur la durée que les promesses en matière de disponibilité et de qualité des “données de référence” seront bien tenues, ensuite en ouvrant des données dans les différents secteurs (transport, santé, objets connectés…) qui disposent d’un potentiel de réutilisation fort. En remplissant ces deux conditions, l’État donnera aux acteurs économiques, actuels ou à venir, des opportunités de développement économique et le goût d’investir et d’entreprendre dans le secteur de la data.

* http://www.gfii.fr/uploads/docs/GFII_Donneespivots.pdf

** À cet égard, il faut mentionner la récente prise de position de l’Union des transports publics et ferroviaires (UTP), qui expose ses réserves quant aux démarches engagées de manière manifestement imprudente, selon cette association de professionnels du transport. http://utp.fr/system/files/Actu/Position/20160310_Position_Loi_Lemaire.pdf


Source : ADEC - Open data