DataLAC

Données, Archives et Textes Archéologiques : création et exploitation d’un Lac de données sémantiques pour l’Archéologie de la Catalogne
Financement par la Région Auvergne Rhône-Alpes puis par l'Université Lumière Lyon 2.

Logo Région AURA      Logo Université Lyon 2

Objectifs du projet

DataLAC est un projet interdisciplinaire international financé par la Région AURA puis par l'université Lyon 2, qui vise à extraire des informations qualitatives (sémantiques) à l’aide de l’intelligence artificielle, afin de constituer un stock de métadonnées nécessaire à l’analyse de documents numériques stockés dans un lac de données. Le lac va contenir trois types de données :

  • des bases de données structurées
  • un corpus de transcriptions de carnets de fouille manuscrits concernant le site archéologique d’Ullastret en Catalogne
  • des documents graphiques : croquis dans les carnets de fouille, dessins techniques (relevés de terrain, planches de profils de céramiques), photographies techniques (vestiges sur le terrain, couches stratigraphiques, planches d’objets), cartes et plans de diverses époques, voire des « scans » 3D.

L’objectif du projet DataLAC est l’extraction de métadonnées (concepts présents dans les documents ci-dessus) par des méthodes de transcription supervisée, non supervisée et de fouille de texte. Il s’agit de rechercher par similitudes aussi bien l’affectation directe de métadonnées descriptives (« ce document représente cette entité ») que la documentation de liens logiques entre documents (« ces deux documents représentent la même entité »). Toutes les métadonnées sont rassemblées et structurées dans un thésaurus bilingue catalan-castillan apparié avec des concepts en français.

Musée d'archéoogie de Catalogne, site d'Ullastret

Gabriel de Prado Cordero, Josefina Simon Reig

Laboratoire Archéorient

Jean-Pierre Girard, Marie-Odile Rousset

Laboratoire ERIC

Juba Agoun, Jérôme Darmont, Rajae El-Idrissi, Sabine Loudcher

Acceder à notre portail web

Transcription manuelle des premiers cahiers de fouille

Constitution d’un début de thésaurus bilingue catalan-castillan (métadonnées terminologiques) à partir de cette transcription, thésaurus développé dans OpenTheso

Conception d’un modèle conceptuel et d’un modèle logique de métadonnées techniques et sémantiques-terminologiques pour décrire les carnets, les illustrations associées ainsi que les images documentaires ou scientifiques

Développement d’une base PostgreSQL pour le stockage des métadonnées et d'une API (back-end)

Développement d'une interface pour la saisie, consultation, modification des métadonnées des carnets de fouille et des images scientifiques-documentaires (front-end))

Réalisation d'un lien entre la base de données et le thésaurus via l'API

Numérisation systématique des archives permettant une transcription par une IA entraînée grâce aux transcriptions manuelles

Entrainement d'un modèle de machine learning pour la transcription semi-automatique des carnets

Acceder au repo Gitlab se trouvent notre code source et notre documentation