Open Refine

Open Refine

OpenRefine (anciennement Google Refine) est un outil « magique », j’ai bien dit « MAGIQUE », qui permet de nettoyer des données et de les transformer d’un format à un autre.

Description

OpenRefine est une application installée en local, sur l’ordinateur de l’utilisateur, mais qui dispose d’une interface Web à partir de laquelle l’utilisateur va travailler. Pour ce faire, il faut télécharger le fichier qui doit faire l’objet de corrections. OpenRefine supporte plusieurs formats d’import.

L’outil permet de visualiser son fichier sous forme de tableau et de corriger les données au moyen de :

  • Facettes : on repère grâce à elles les erreurs de frappe, les doublons, les colonnes vides

  • Clusters : ils proposent des regroupements de différentes valeurs de cellules qui pourraient être des représentations alternatives d’une même chose (singulier-pluriel, minuscules-majuscules, mots composés avec ou sans espace, caractères accentués ou non…etc.) et peuvent pointer des erreurs de saisie.

Il est aussi possible de modifier le contenu des colonnes du tableau de différentes manières :

  • En éditant une cellule et en la modifiant manuellement,

  • En utilisant les fonctionnalités de transformation courantes disponibles :

  • suppression des espaces initiaux et finaux et des espaces consécutifs, voire le contenu des cellules,

  • transformation en majuscule, en minuscule ou avec en minuscule avec une majuscule en début de phrase,

  • conversion des cellules en type nombre, date ou text .

  • En utilisant des fonctions (langage GREL, clojure ou jython) et des expressions régulières. Et, là, on peut quasiment tout faire :

    • Ajouter des éléments de ponctuation,

    • Remplacer une valeur ou une chaîne de caractères par une autre,

    • Modifier la structure de données en ajoutant une colonne,

    • Fractionner les cellules à valeurs multiples.

Ce travail de nettoyage est journalisé et il est possible d’exporter la liste des actions effectuées pour les appliquer à un nouveau fichier.

Une fois le nettoyage achevé, l’outil permet d’exporter le fichier dans différents formats, et même de formater son propre fichier.

Commentaires

OpenRefine évite de passer du temps à rechercher, filtrer, remplacer, construire des macros dans un tableur EXCEL. En quelques clics, sur une interface très ergonomique, il fait le job. Si vous ne l’aviez pas compris, c’est un outil idéal quand on souhaite corriger un fichier et harmoniser les données.

Il peut être utilisé pour :

  • Préparer des fichiers en vue d’une publication (instrument de recherche sous EXCEL en particulier, données Open Data) ;
  • Vérifier un fichier de récolement sous forme de tableur et corriger les anomalies ;

  • Exploiter un fichier à des fins statistiques : avec son système de facettes et de filtres, il permet de compter le nombre d’occurrences d’une valeur et de croiser les données entre elles ;

  • Avec un plugin, géolocaliser les données présentes dans le tableau ;

  • Récupérer des données de bibliothèques ;

  • Exporter le tableau selon un format particulier.

On trouve de la documentation en ligne, dont des tutoriels en français. Il est d’ailleurs possible de paramétrer OpenRefine en français. Mais, les documentations les plus complètes restent en anglais.

Sources

BOURDIC Maïwenn, « #36 – OpenRefine, « Excel aux hormones » pour nettoyage de données », in Patrimoine et numérique : https://patrimoine-et-numerique.fr/tutoriels/52-36-openrefine-excel-aux-hormones-pour-nettoyage-de-donnees

OPENREFINE, Documentation for Users : https://github.com/OpenRefine/OpenRefine/wiki/Documentation-For-Users

SABY Mathieu, Nettoyer, préparer et transformer des données avec OpenRefine : des premiers pas aux usages avancés, novembre 2019 : https://msaby.gitlab.io/formation-openrefine-Lyon20191122/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *