Thursday, November 7, 2019

Offres de stages

La chaire des Humanités numériques de l’université de Genève porte en partenariat avec le Centre d’excellence Jean Monnet IMAGO basé à l’Ecole normale supérieure de Paris et financé par l’European Research Council Executive Agency, un projet d’étude de la mondialisation par l’image à l’époque contemporaine (des années 1890 à 1990 – images fixes, avant Internet). Le projet, intitulé Visual Contagions, implique une recherche innovante sur un corpus d’images illustrées tirées de catalogues d’expositions et de périodiques, images qu’il s’agit de récupérer, décrire, dater et géoréférencer, avant d’en faire l’analyse à l’aide d’algorithmes de vision artificielle, pour repérer les images les plus reproduites et les motifs qui ont le plus circulé à l’échelle mondiale des années 1890 à l’avant-Internet. L’équipe pourra ainsi décrire les canaux et la chronologie de ces circulations, et mieux comprendre la mondialisation par l’image. Un deuxième temps sera consacré à une étude plus traditionnelle de ces circulations, étude historique, esthétique, sociale, économique, politique et cognitive, partant d’études de cas pertinentes choisies lors de la première étape « distante » du projet.

Les 2 stages proposés ici concernent la chaîne de traitement du texte contenu dans les catalogues d’expositions.
D’autres stages sont proposés en vision artificielle (pour la récupération et l’analyse des images, contenu et motifs). Me contacter par retour de mail si vous êtes intéressé.e.s pour vous-mêmes ou vos étudiant.e.s.  

1. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
OCRisation et postcorrection de documents numériques

Ce stage vise à mettre au point un système de numérisation et de description semi-automatique de documents semi-structurés, en partant de pdf de catalogues d’expositions (puis de catalogues de vente). Il s’agira de produire des données d’entraînement de qualité, de comparer les solutions disponibles pour sélectionner les plus adaptées, et enfin d’articuler ces dernières les unes aux autres pour former une chaîne de traitement efficace. Le résultat final devra être aussi user friendly que possible, et permettre à des contributeurs éparpillés dans le monde de traiter en ligne leurs propres documents en toute indépendance et avec un haut niveau de qualité en sortie. Le document doit être prêt pour une description sémantique semi-automatique (voir stage n°2).

Les outils retenus devront être open sourcelanguage-agnostic, et à terme capables de gérer des scripts non romain (arabe/japonais). Trois tâches essentielles ont été identifiées : la segmentation du pdf, OCRisation, postcorrection, pour lesquels de nombreux outils sont disponibles (Dhsegment, Kraken, Tesseract, OCR4all, PoCoTo…).

Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, format de pdf (XML-ALTO/PageXML).

Proposé comme stage rémunéré de 5 mois, rémunération légale.


2. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
Description sémantique semi-automatisée de catalogues

Ce stage propose d’adapter un précédent travail (Rondeau, Gabay, Khemakhem, Romary, TEI2019, Graz) pour répondre aux besoins spécifiques d’une collection de catalogue d’exposition, mais aussi de prolonger les recherches sur la rétro-conversion à large échelle de données de type encyclopédiques. Il s’agira donc de transformer des document pdf en documents au format XML-TEI afin d’en faciliter l’analyse et d’alimenter une base de données déjà existante.

Le travail se fera en deux temps :
-        produire et évaluer des données d’entraînement pour plusieurs types de catalogues d’exposition afin d’évaluer le comportement de GROBID dictionaries avec de tels documents
-        augmenter la granularité de l’encodage en sortie de GROBID de deux manières :
o   d’une part en utilisant des systèmes de reconnaissance d’entités nommées (pour les noms de personnes ou de lieux), notamment GROBID NERD ;
o   d’autre part avec des systèmes d’extraction de termes (format d’œuvre, précisions techniques), comme par exemple TermSuite.

Ce stage permettra aussi de faire avancer les recherches sur la constitution de modèles généraux pour la structuration de données de type catalogue (vente/exposition).
Références :                               
-        Khemakhem, Mohamed, Romary, Laurent et al. (2018) “Automatically Encoding Encyclopedic-like Resources in TEI”. The annual TEI Conference and Members Meeting, Tokyo, Japan. url: https://tei2018.dhii.asiahal-01819505.
-        Rondeau du Noyer, Lucie, Encoder automatiquement des catalogues en XML-TEI. Principes, évaluation et application à la Revue des autographes de la librairie Charavay, mémoire de master « Technologies numériques appliquées à l’histoire », dir, Thibault Clérice et Simon Gabay, École nationale des chartes, 2019.

Livrable technique : la chaîne de traitement mentionnée supra.
Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, XML-TEI (et notamment ODD), XSLT.

Proposé comme stage rémunéré de 5 mois, rémunération légale
     
Contact :

Pr. Béatrice Joyeux-Prunel, université de Genève, Suisse (Chaire des Humanités numériques). Beatrice.joyeux-prunel@unige.ch ,
Dr. Léa Saint-Raymond, Ecole normale supérieure (Dpt de Mathématiques appliquées), lea.saint-raymond@ens.fr, et
Dr. Simon Gabay, université de Neuchâtel, Suisse (simon.gabay@unine.ch).

Modalités matérielles des stages : chaque stage peut se faire à distance, avec l’organisation de réunions par visioconférence. Si une réunion est organisée à Paris ou à Genève, les frais de déplacement des stagiaires seront pris en charge.
Gratification légale en France : 612 euros mensuels.

Journées Huma-Num

Huma-Num vous invite à participer, les 9 et 10 décembre prochains, à la MSH Paris Nord, à deux demi-journées d’information sur le thème de la préservation des données numériques de la recherche.

La TGIR Huma-Num organise des journées d’information sur le thème de la préservation des données numériques de la recherche à destination de tous les acteurs d’un projet de recherche (enseignant.e.s chercheur.e.s, ingénieur.e.s, bibliothécaires, documentalistes, archivistes etc).
Au cours de ces deux demi-journées, Huma-Num et des acteurs de la préservation s’attacheront à présenter cette problématique au cours des différentes étapes d’un projet de recherche : de la création du plan de gestion de données (DMP) à la pérennisation sur le long terme.

Ces journées donneront également la parole aux communautés qui évoqueront leurs retours d'expérience de projets de préservation.
Ces deux demi-journées se tiendront à la MSH Paris-Nord les lundi 9 décembre 2019 après-midi et mardi 10 décembre 2019 matin.

Cet événement est ouvert à tous sur inscription dans la limite des places disponibles. Clôture des inscriptions le 22 novembre prochain.

Informations pratiquesLundi 9 décembre 13h - 18h suivi d’un apéritif
Mardi 10 décembre 9h30 - 12h30
MSH Paris Nord 
Dans l'amphithéâtre
20, avenue George Sand  93210 Saint-Denis

=> Inscription obligatoire et programme en ligne <=

Séance d’information sur les programmes de doctorat

Séance d’information sur les programmes de doctorat en lettres françaises, cinéma et média, et langues et civilisations proche-orientales (NELC)

Mardi 12 novembre à 17:00


Centre de l’Université de Chicago à Paris
6 rue Thomas Mann
75013

Cette réunion aura pour objectif de présenter les programmes de doctorat dans les
domaines des humanités en général et en particulier dans ceux des lettres françaises, de cinéma et média, ainsi que des langues et civilisations proche-orientales (NELC). La séance est ouverte aussi aux personnes s’intéressant à la littérature comparée, le théâtre, les langues et civilisations sud-asiatiques, etc.
En outre la réunion présentera le programme de cotutelle à l’Université de Chicago.

1) Programmes de doctorat en lettres modernes, en cinéma et en média et en
langues et civilisations proche-orientales.


L’Université de Chicago, qui figure dans les classements internationaux parmi les dix meilleures universités dans le monde, offre des programmes reconnus de doctorat en lettres françaises, en cinéma et média et en langues et civilisations proche-orientales . Ces trois programmes reposent sur une forte composante interdisciplinaire et ouvrent des perspectives de carrières internationales.
Les critères d’admission au doctorat sont rigoureux, mais les candidats admis reçoivent des bourses de cinq ans couvrant tous les frais de scolarité et fournissant un salaire qui permet de vivre confortablement.
Lors de la réunion du mardi 12 novembre à 17h00, nous serons heureux de répondre à vos questions concernant les sujets suivants:

  • Comment préparer un dossier de candidature ?
  • Quels sont les critères d’admission ?
  • Quelles sont les conditions de financement ?
  • Quelles sont les conditions de recherche ?
  • Comment s’organise la vie des étudiants ?

Cette séance est ouverte à tous les étudiants inscrits en Master 1 et 2.
Si vous souhaitez participer, merci de vous inscrire auprès d’Arnaud Coulombel à l’adresse suivante : acoulomb@uchicago.edu

Pour plus d’informations sur le programme de doctorat en lettres françaises, voici le lien vers le site du Département de Langues et de Littératures Romanes :
http://rll.uchicago.edu/about
Pour plus d’informations sur le programme de doctorat en cinéma et média, voici le lien vers le site du Département de cinéma et de média :
https://cms.uchicago.edu/
Pour plus d’informations sur le programme de doctorat en langues et civilisations orientales, voici le lien vers le site du Département de langues et civilisations orientales :
https://nelc.uchicago.edu/

2) Le programme de cotutelle à l’Université de Chicago :


Nous discuterons du programme de cotutelle permet, selon les exigence spécifiques à chacune des institutions concernées, à un doctorant d’obtenir un PhD de l’Université de Chicago conjointement à un doctorat français en soutenant une seule et unique thèse sous la supervision de deux directeurs de recherche respectivement affilié à l’Université de Chicago et à un établissement d’enseignement supérieur français.
Concernant le programme de cotutelle, cliquez sur ce lien :
https://fcc.uchicago.edu/page/international-dual-phd-degree-initiative
Concernant le Centre de l’Université de Chicago à Paris, cliquez sur ce lien :
https://centerinparis.uchicago.edu/

Wednesday, November 6, 2019

Séminaire du Labex OBVIL

Le 20 novembre 2019, Damien Nouvel interviendra dans le cadre du séminaire du Labex OBVIL, sur le sujet suivant:

Les entités nommées, du prétraitement à la sémantique, théorie et pratique

Résumé: Ces dernières décennies, le Traitement Automatique des Langues a bénéficié de nombreuses avancées sur le plan théorique et applicatif. Certains traitements ont aujourd'hui une robustesse suffisante pour être considérés matures dans certains contextes. Par exemple, l'étiquetage en parties du discours (POS tagging) est couramment utilisé en amont d'autres tâches, comme prétraitement.
À cet égard, il reste difficile d'établir un état des lieux fiable pour les entités nommées. Certaines applications les utilisent comme prétraitement syntaxico-sémantique, sur lequel elles s'appuient, présumant parfois de leur fiabilité. De nombreux travaux recherche sont menés pour mieux cerner ces unités linguistiques et les traiter automatiquement. Dans ce séminaire, nous présenterons diverses facettes des entités nommées, au travers des langues et des domaines, les tâches qui y sont associées (dont en particulier leur désambiguisation), ainsi que les résultats obtenus par les campagnes d'évaluation historiques et plus récentes. Nous évoquerons les approches et architectures utilisées et évoquerons l'apport des plongements de mots (embeddings). Enfin, nous discuterons des ambitions et limites de la désambiguisation des langues dans une perspective de compréhension.


Date et horaire: 20 novembre 2019, de 13h à 15h
Lieu: salle D323, maison de la recherche, 28 rue serpente, 75006.