Thursday, November 7, 2019

Offres de stages

La chaire des Humanités numériques de l’université de Genève porte en partenariat avec le Centre d’excellence Jean Monnet IMAGO basé à l’Ecole normale supérieure de Paris et financé par l’European Research Council Executive Agency, un projet d’étude de la mondialisation par l’image à l’époque contemporaine (des années 1890 à 1990 – images fixes, avant Internet). Le projet, intitulé Visual Contagions, implique une recherche innovante sur un corpus d’images illustrées tirées de catalogues d’expositions et de périodiques, images qu’il s’agit de récupérer, décrire, dater et géoréférencer, avant d’en faire l’analyse à l’aide d’algorithmes de vision artificielle, pour repérer les images les plus reproduites et les motifs qui ont le plus circulé à l’échelle mondiale des années 1890 à l’avant-Internet. L’équipe pourra ainsi décrire les canaux et la chronologie de ces circulations, et mieux comprendre la mondialisation par l’image. Un deuxième temps sera consacré à une étude plus traditionnelle de ces circulations, étude historique, esthétique, sociale, économique, politique et cognitive, partant d’études de cas pertinentes choisies lors de la première étape « distante » du projet.

Les 2 stages proposés ici concernent la chaîne de traitement du texte contenu dans les catalogues d’expositions.
D’autres stages sont proposés en vision artificielle (pour la récupération et l’analyse des images, contenu et motifs). Me contacter par retour de mail si vous êtes intéressé.e.s pour vous-mêmes ou vos étudiant.e.s.  

1. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
OCRisation et postcorrection de documents numériques

Ce stage vise à mettre au point un système de numérisation et de description semi-automatique de documents semi-structurés, en partant de pdf de catalogues d’expositions (puis de catalogues de vente). Il s’agira de produire des données d’entraînement de qualité, de comparer les solutions disponibles pour sélectionner les plus adaptées, et enfin d’articuler ces dernières les unes aux autres pour former une chaîne de traitement efficace. Le résultat final devra être aussi user friendly que possible, et permettre à des contributeurs éparpillés dans le monde de traiter en ligne leurs propres documents en toute indépendance et avec un haut niveau de qualité en sortie. Le document doit être prêt pour une description sémantique semi-automatique (voir stage n°2).

Les outils retenus devront être open sourcelanguage-agnostic, et à terme capables de gérer des scripts non romain (arabe/japonais). Trois tâches essentielles ont été identifiées : la segmentation du pdf, OCRisation, postcorrection, pour lesquels de nombreux outils sont disponibles (Dhsegment, Kraken, Tesseract, OCR4all, PoCoTo…).

Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, format de pdf (XML-ALTO/PageXML).

Proposé comme stage rémunéré de 5 mois, rémunération légale.


2. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
Description sémantique semi-automatisée de catalogues

Ce stage propose d’adapter un précédent travail (Rondeau, Gabay, Khemakhem, Romary, TEI2019, Graz) pour répondre aux besoins spécifiques d’une collection de catalogue d’exposition, mais aussi de prolonger les recherches sur la rétro-conversion à large échelle de données de type encyclopédiques. Il s’agira donc de transformer des document pdf en documents au format XML-TEI afin d’en faciliter l’analyse et d’alimenter une base de données déjà existante.

Le travail se fera en deux temps :
-        produire et évaluer des données d’entraînement pour plusieurs types de catalogues d’exposition afin d’évaluer le comportement de GROBID dictionaries avec de tels documents
-        augmenter la granularité de l’encodage en sortie de GROBID de deux manières :
o   d’une part en utilisant des systèmes de reconnaissance d’entités nommées (pour les noms de personnes ou de lieux), notamment GROBID NERD ;
o   d’autre part avec des systèmes d’extraction de termes (format d’œuvre, précisions techniques), comme par exemple TermSuite.

Ce stage permettra aussi de faire avancer les recherches sur la constitution de modèles généraux pour la structuration de données de type catalogue (vente/exposition).
Références :                               
-        Khemakhem, Mohamed, Romary, Laurent et al. (2018) “Automatically Encoding Encyclopedic-like Resources in TEI”. The annual TEI Conference and Members Meeting, Tokyo, Japan. url: https://tei2018.dhii.asiahal-01819505.
-        Rondeau du Noyer, Lucie, Encoder automatiquement des catalogues en XML-TEI. Principes, évaluation et application à la Revue des autographes de la librairie Charavay, mémoire de master « Technologies numériques appliquées à l’histoire », dir, Thibault Clérice et Simon Gabay, École nationale des chartes, 2019.

Livrable technique : la chaîne de traitement mentionnée supra.
Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, XML-TEI (et notamment ODD), XSLT.

Proposé comme stage rémunéré de 5 mois, rémunération légale
     
Contact :

Pr. Béatrice Joyeux-Prunel, université de Genève, Suisse (Chaire des Humanités numériques). Beatrice.joyeux-prunel@unige.ch ,
Dr. Léa Saint-Raymond, Ecole normale supérieure (Dpt de Mathématiques appliquées), lea.saint-raymond@ens.fr, et
Dr. Simon Gabay, université de Neuchâtel, Suisse (simon.gabay@unine.ch).

Modalités matérielles des stages : chaque stage peut se faire à distance, avec l’organisation de réunions par visioconférence. Si une réunion est organisée à Paris ou à Genève, les frais de déplacement des stagiaires seront pris en charge.
Gratification légale en France : 612 euros mensuels.

No comments:

Post a Comment