Projet

Général

Profil

Development #13667

Ajouter une partie Open Data à BiJoe

Ajouté par Brice Mallet il y a plus de 7 ans. Mis à jour il y a environ 4 ans.

Statut:
Nouveau
Priorité:
Normal
Assigné à:
-
Version cible:
-
Début:
19 octobre 2016
Echéance:
% réalisé:

0%

Temps estimé:
Patch proposed:
Non
Planning:
Non

Description

Pour :
- exporter automatiquement des jeux de données
- proposer une API ?

Intérêts :
- devancer futures demandes de nos clients ?
- se faire mousser auprès du cabinet d'Axelle [trop tard ;-]

"Le rapport propose de travailler avec les principaux éditeurs de logiciels et progiciels accompagnant les collectivités locales, pour intégrer dans leurs produits une fonctionnalité d'export pour l'open data. Ainsi, le logiciel de gestion de cantines pourrait par exemple exporter de manière automatisée les informations d'horaires, de menus, de prix."
http://www.localtis.info/cs/ContentServer?pagename=Localtis/LOCActu/ArticleActualite&jid=1250271626823&cid=1250271620708&nl=1


Demandes liées

Lié à Publik - Development #19760: Open DataRejeté29 octobre 2017

Actions

Historique

#1

Mis à jour par Brice Mallet il y a plus de 7 ans

  • Description mis à jour (diff)
#2

Mis à jour par Benjamin Dauvergne il y a plus de 7 ans

Déjà est-ce qu'il existe un format de catalogue de donnée opendata qu'on pourrait publier pour reprise dans n'importe quel portail open-data ? Ça nous éviterait d'avoir à faire des interfaces publics. On pourrait ainsi se concentrer sur les aspects backoffice de curation: choisir les données, sous quel nom et avec quels colonnes (on n'est pas sur que les données dans nos exports soient toujours "anonymisé" ce serait mieux d'avoir un dernier garde-fou au niveau de bijoe que d'exporter bêtement tout).

#3

Mis à jour par Brice Mallet il y a plus de 7 ans

Pas très détaillée mais page de référence à mon avis : https://www.data.gouv.fr/fr/faq/producer/

#4

Mis à jour par Benjamin Dauvergne il y a plus de 7 ans

C'est plus clair ici: on a le choix soit de se faire moissonner en protocole CJAN ou OpenDataSoft (à voir si ce dernier est documenté) soit de pousser via l'API de data.gouv.fr.

#5

Mis à jour par Benjamin Dauvergne il y a plus de 7 ans

Je n'ai pas donné l'URL ou soit disant ce serait plus clair: https://www.data.gouv.fr/fr/faq/developer/#api

#6

Mis à jour par Brice Mallet il y a environ 4 ans

Je n'ai pas donné l'URL ou soit disant ce serait plus clair: https://www.data.gouv.fr/fr/faq/developer/#api

Cette page (enfin je suppose que c'était celle-ci) est maintenant accessible ici : https://doc.data.gouv.fr/jeux-de-donnees/demander-a-datagouvfr-de-moisonner-votre-site/

#7

Mis à jour par Brice Mallet il y a environ 4 ans

#8

Mis à jour par Brice Mallet il y a environ 4 ans

  • Sujet changé de Ajouter une partie public/open-data à BiJoe à Ajouter une partie Open Data à BiJoe
#10

Mis à jour par Brice Mallet il y a environ 4 ans

  • Description mis à jour (diff)
  • Echéance 15 décembre 2016 supprimé
  • Assigné à Benjamin Dauvergne supprimé
#11

Mis à jour par Brice Mallet il y a environ 4 ans

Déjà est-ce qu'il existe un format de catalogue de donnée opendata qu'on pourrait publier pour reprise dans n'importe quel portail open-data ?

Si existait, pourrait être ici : https://scdl.opendatafrance.net/docs/ (mais existe pê qqchose à l'échelon européen ?)
Ce serait donc à nous de créer notre "spécification du modèle de données relatif aux demandes en lignes", puis la proposer pour standardisation à http://www.opendatafrance.net/

#12

Mis à jour par Nicolas Roche il y a environ 4 ans

J'ai regardé du côté de https://doc.data.gouv.fr/.

Il y a à présent 3 formats : DCAT, CKAN et OpenDataSoft. Le code du moissoneur CKAN utilisé par doc.data.gouv.fr est publié ici alors que celui de DCAT est intégré au projet udata.

cf la doc technique du logiciel udata (utilisé pour doc.data.gouv.f) : DCAT is now the recommended way to harvest remote portals and repositories (and so to expose opendata metadata for any portal and repository).

DCAT est décrit par le W3C :

cf google, CKAN is the most mature opensource solution
CKAN propose un plugin pour importer/exporter suivant le format DCAT qui fourni de la doc avec des exemple dont un en JSON-LD : https://opendata.swiss/en/dataset/verbreitung-der-steinbockkolonien.jsonld qui au final serait plus pratique que de l'XML.

En python, on peut jouer avec le format RDF XML via la rdflib. Elle permet de construire des jeux de données et fourni (entre autres) un serializer RDF-XML

Sur https://www.data.gouv.fr/fr/admin où l'on peut se créer un compte, on ne peut pas jouer directement avec les catalogues, mais on peut créer un moissoneur (via le '+') qui devra ensuite être validé par un humain. Les moissoneurs sont composés par 2 attributs :
  • Implémentation : parmis DCAT, ODS, MAAF, CKAN et DKAN
  • URL : source base url
En regardant le catalogue de Tours on peut exporter le catalogue en DRF. Il utilise https://www.w3.org/ns/dcat.rdf mentionné dans la doc de doc.data.gouv.fr. Étrangement, la doc ne donne aucune indication sur la structure des données : à priori il faut juste donner un type mime.
  • Dataset noeud de type dcat:Dataset en RDF : une collection de données, publiée ou élaborée par une seule source, et disponible pour accès ou téléchargement dans un ou plusieurs formats.
  • Resource noeud de type dcat:Distribution en RDF : représente une forme spécifique d'un jeu de données : CSV...

extrait (Tours publie via opendatasoft) :

   <rdf:Description rdf:about="https://data.tours-metropole.fr/api/v2/catalog/exports/rdf?lang=fr">
       <dcat:dataset rdf:resource="https://data.tours-metropole.fr/api/v2/catalog/datasets/sections-sur-le-territoire-de-tours-metropole-val-de-loire"/>
   </rdf:Description>

   <rdf:Description rdf:about="https://data.tours-metropole.fr/api/v2/catalog/datasets/sections-sur-le-territoire-de-tours-metropole-val-de-loire-csv">
       <rdf:type rdf:resource="http://www.w3.org/ns/dcat#Distribution"/>
       <dcat:accessURL rdf:resource="https://data.tours-metropole.fr/api/v2/catalog/datasets/sections-sur-le-territoire-de-tours-metropole-val-de-loire/exports/csv"/>
       <dct:description>csv export of https://data.tours-metropole.fr/api/v2/catalog/datasets/sections-sur-le-territoire-de-tours-metropole-val-de-loire</dct:description>
       <dct:format>csv</dct:format>
       <dcat:mediaType>text/csv</dcat:mediaType>
   </rdf:Description>


Ce qui (d'après le catalogue de vidéos produit l'exemple donné sur la rdflib) devrait aussi pouvoir s'écrire comme ça :
   <rdf:Description rdf:about="url de ce fichier">
       <dcat:dataset rdf:resource="url de ce fichier#ID"/>
   </rdf:Description>

   <rdf:Description rdf:nodeID="ID">
       <rdf:type rdf:resource="http://www.w3.org/ns/dcat#Distribution"/>
       <dcat:accessURL rdf:resource="url du jeux de donnée"/>
       <dct:format>json</dct:format>
   </rdf:Description>

Tout ça pour dire que la question du format de catalogue de donnée opendata concerne uniquement les métadonnées et ne répond pas à la question du format des données, pour qu'elles soient ensuite reprisent dans n'importe quel portail open-data.

A cette seconde question, d'après ce que je lis dans la doc d'opendatasoft je dirais du GeoJSON ou un JSON du type :

{
  "data": [
    {"id1": {"key1": "val1", "key2": "val2", ...}},
    {"id2": {"key1": "val1", "key2": "val2", ...}},
    ...]
}

Formats disponibles : Atom PDF