Thursday, November 7, 2019

Offres de stages

La chaire des Humanités numériques de l’université de Genève porte en partenariat avec le Centre d’excellence Jean Monnet IMAGO basé à l’Ecole normale supérieure de Paris et financé par l’European Research Council Executive Agency, un projet d’étude de la mondialisation par l’image à l’époque contemporaine (des années 1890 à 1990 – images fixes, avant Internet). Le projet, intitulé Visual Contagions, implique une recherche innovante sur un corpus d’images illustrées tirées de catalogues d’expositions et de périodiques, images qu’il s’agit de récupérer, décrire, dater et géoréférencer, avant d’en faire l’analyse à l’aide d’algorithmes de vision artificielle, pour repérer les images les plus reproduites et les motifs qui ont le plus circulé à l’échelle mondiale des années 1890 à l’avant-Internet. L’équipe pourra ainsi décrire les canaux et la chronologie de ces circulations, et mieux comprendre la mondialisation par l’image. Un deuxième temps sera consacré à une étude plus traditionnelle de ces circulations, étude historique, esthétique, sociale, économique, politique et cognitive, partant d’études de cas pertinentes choisies lors de la première étape « distante » du projet.

Les 2 stages proposés ici concernent la chaîne de traitement du texte contenu dans les catalogues d’expositions.
D’autres stages sont proposés en vision artificielle (pour la récupération et l’analyse des images, contenu et motifs). Me contacter par retour de mail si vous êtes intéressé.e.s pour vous-mêmes ou vos étudiant.e.s.  

1. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
OCRisation et postcorrection de documents numériques

Ce stage vise à mettre au point un système de numérisation et de description semi-automatique de documents semi-structurés, en partant de pdf de catalogues d’expositions (puis de catalogues de vente). Il s’agira de produire des données d’entraînement de qualité, de comparer les solutions disponibles pour sélectionner les plus adaptées, et enfin d’articuler ces dernières les unes aux autres pour former une chaîne de traitement efficace. Le résultat final devra être aussi user friendly que possible, et permettre à des contributeurs éparpillés dans le monde de traiter en ligne leurs propres documents en toute indépendance et avec un haut niveau de qualité en sortie. Le document doit être prêt pour une description sémantique semi-automatique (voir stage n°2).

Les outils retenus devront être open sourcelanguage-agnostic, et à terme capables de gérer des scripts non romain (arabe/japonais). Trois tâches essentielles ont été identifiées : la segmentation du pdf, OCRisation, postcorrection, pour lesquels de nombreux outils sont disponibles (Dhsegment, Kraken, Tesseract, OCR4all, PoCoTo…).

Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, format de pdf (XML-ALTO/PageXML).

Proposé comme stage rémunéré de 5 mois, rémunération légale.


2. Stage proposé au 2e semestre 2019-2020, ENS Paris / Université de Genève.
Description sémantique semi-automatisée de catalogues

Ce stage propose d’adapter un précédent travail (Rondeau, Gabay, Khemakhem, Romary, TEI2019, Graz) pour répondre aux besoins spécifiques d’une collection de catalogue d’exposition, mais aussi de prolonger les recherches sur la rétro-conversion à large échelle de données de type encyclopédiques. Il s’agira donc de transformer des document pdf en documents au format XML-TEI afin d’en faciliter l’analyse et d’alimenter une base de données déjà existante.

Le travail se fera en deux temps :
-        produire et évaluer des données d’entraînement pour plusieurs types de catalogues d’exposition afin d’évaluer le comportement de GROBID dictionaries avec de tels documents
-        augmenter la granularité de l’encodage en sortie de GROBID de deux manières :
o   d’une part en utilisant des systèmes de reconnaissance d’entités nommées (pour les noms de personnes ou de lieux), notamment GROBID NERD ;
o   d’autre part avec des systèmes d’extraction de termes (format d’œuvre, précisions techniques), comme par exemple TermSuite.

Ce stage permettra aussi de faire avancer les recherches sur la constitution de modèles généraux pour la structuration de données de type catalogue (vente/exposition).
Références :                               
-        Khemakhem, Mohamed, Romary, Laurent et al. (2018) “Automatically Encoding Encyclopedic-like Resources in TEI”. The annual TEI Conference and Members Meeting, Tokyo, Japan. url: https://tei2018.dhii.asiahal-01819505.
-        Rondeau du Noyer, Lucie, Encoder automatiquement des catalogues en XML-TEI. Principes, évaluation et application à la Revue des autographes de la librairie Charavay, mémoire de master « Technologies numériques appliquées à l’histoire », dir, Thibault Clérice et Simon Gabay, École nationale des chartes, 2019.

Livrable technique : la chaîne de traitement mentionnée supra.
Livrable scientifique : évaluation d’outils en terme d’efficacité mais aussi d’intégration dans un pipeline.
Compétences : Lignes de commandes, entraînement d’outil nécessitant du machine learning, XML-TEI (et notamment ODD), XSLT.

Proposé comme stage rémunéré de 5 mois, rémunération légale
     
Contact :

Pr. Béatrice Joyeux-Prunel, université de Genève, Suisse (Chaire des Humanités numériques). Beatrice.joyeux-prunel@unige.ch ,
Dr. Léa Saint-Raymond, Ecole normale supérieure (Dpt de Mathématiques appliquées), lea.saint-raymond@ens.fr, et
Dr. Simon Gabay, université de Neuchâtel, Suisse (simon.gabay@unine.ch).

Modalités matérielles des stages : chaque stage peut se faire à distance, avec l’organisation de réunions par visioconférence. Si une réunion est organisée à Paris ou à Genève, les frais de déplacement des stagiaires seront pris en charge.
Gratification légale en France : 612 euros mensuels.

Journées Huma-Num

Huma-Num vous invite à participer, les 9 et 10 décembre prochains, à la MSH Paris Nord, à deux demi-journées d’information sur le thème de la préservation des données numériques de la recherche.

La TGIR Huma-Num organise des journées d’information sur le thème de la préservation des données numériques de la recherche à destination de tous les acteurs d’un projet de recherche (enseignant.e.s chercheur.e.s, ingénieur.e.s, bibliothécaires, documentalistes, archivistes etc).
Au cours de ces deux demi-journées, Huma-Num et des acteurs de la préservation s’attacheront à présenter cette problématique au cours des différentes étapes d’un projet de recherche : de la création du plan de gestion de données (DMP) à la pérennisation sur le long terme.

Ces journées donneront également la parole aux communautés qui évoqueront leurs retours d'expérience de projets de préservation.
Ces deux demi-journées se tiendront à la MSH Paris-Nord les lundi 9 décembre 2019 après-midi et mardi 10 décembre 2019 matin.

Cet événement est ouvert à tous sur inscription dans la limite des places disponibles. Clôture des inscriptions le 22 novembre prochain.

Informations pratiquesLundi 9 décembre 13h - 18h suivi d’un apéritif
Mardi 10 décembre 9h30 - 12h30
MSH Paris Nord 
Dans l'amphithéâtre
20, avenue George Sand  93210 Saint-Denis

=> Inscription obligatoire et programme en ligne <=

Séance d’information sur les programmes de doctorat

Séance d’information sur les programmes de doctorat en lettres françaises, cinéma et média, et langues et civilisations proche-orientales (NELC)

Mardi 12 novembre à 17:00


Centre de l’Université de Chicago à Paris
6 rue Thomas Mann
75013

Cette réunion aura pour objectif de présenter les programmes de doctorat dans les
domaines des humanités en général et en particulier dans ceux des lettres françaises, de cinéma et média, ainsi que des langues et civilisations proche-orientales (NELC). La séance est ouverte aussi aux personnes s’intéressant à la littérature comparée, le théâtre, les langues et civilisations sud-asiatiques, etc.
En outre la réunion présentera le programme de cotutelle à l’Université de Chicago.

1) Programmes de doctorat en lettres modernes, en cinéma et en média et en
langues et civilisations proche-orientales.


L’Université de Chicago, qui figure dans les classements internationaux parmi les dix meilleures universités dans le monde, offre des programmes reconnus de doctorat en lettres françaises, en cinéma et média et en langues et civilisations proche-orientales . Ces trois programmes reposent sur une forte composante interdisciplinaire et ouvrent des perspectives de carrières internationales.
Les critères d’admission au doctorat sont rigoureux, mais les candidats admis reçoivent des bourses de cinq ans couvrant tous les frais de scolarité et fournissant un salaire qui permet de vivre confortablement.
Lors de la réunion du mardi 12 novembre à 17h00, nous serons heureux de répondre à vos questions concernant les sujets suivants:

  • Comment préparer un dossier de candidature ?
  • Quels sont les critères d’admission ?
  • Quelles sont les conditions de financement ?
  • Quelles sont les conditions de recherche ?
  • Comment s’organise la vie des étudiants ?

Cette séance est ouverte à tous les étudiants inscrits en Master 1 et 2.
Si vous souhaitez participer, merci de vous inscrire auprès d’Arnaud Coulombel à l’adresse suivante : acoulomb@uchicago.edu

Pour plus d’informations sur le programme de doctorat en lettres françaises, voici le lien vers le site du Département de Langues et de Littératures Romanes :
http://rll.uchicago.edu/about
Pour plus d’informations sur le programme de doctorat en cinéma et média, voici le lien vers le site du Département de cinéma et de média :
https://cms.uchicago.edu/
Pour plus d’informations sur le programme de doctorat en langues et civilisations orientales, voici le lien vers le site du Département de langues et civilisations orientales :
https://nelc.uchicago.edu/

2) Le programme de cotutelle à l’Université de Chicago :


Nous discuterons du programme de cotutelle permet, selon les exigence spécifiques à chacune des institutions concernées, à un doctorant d’obtenir un PhD de l’Université de Chicago conjointement à un doctorat français en soutenant une seule et unique thèse sous la supervision de deux directeurs de recherche respectivement affilié à l’Université de Chicago et à un établissement d’enseignement supérieur français.
Concernant le programme de cotutelle, cliquez sur ce lien :
https://fcc.uchicago.edu/page/international-dual-phd-degree-initiative
Concernant le Centre de l’Université de Chicago à Paris, cliquez sur ce lien :
https://centerinparis.uchicago.edu/

Wednesday, November 6, 2019

Séminaire du Labex OBVIL

Le 20 novembre 2019, Damien Nouvel interviendra dans le cadre du séminaire du Labex OBVIL, sur le sujet suivant:

Les entités nommées, du prétraitement à la sémantique, théorie et pratique

Résumé: Ces dernières décennies, le Traitement Automatique des Langues a bénéficié de nombreuses avancées sur le plan théorique et applicatif. Certains traitements ont aujourd'hui une robustesse suffisante pour être considérés matures dans certains contextes. Par exemple, l'étiquetage en parties du discours (POS tagging) est couramment utilisé en amont d'autres tâches, comme prétraitement.
À cet égard, il reste difficile d'établir un état des lieux fiable pour les entités nommées. Certaines applications les utilisent comme prétraitement syntaxico-sémantique, sur lequel elles s'appuient, présumant parfois de leur fiabilité. De nombreux travaux recherche sont menés pour mieux cerner ces unités linguistiques et les traiter automatiquement. Dans ce séminaire, nous présenterons diverses facettes des entités nommées, au travers des langues et des domaines, les tâches qui y sont associées (dont en particulier leur désambiguisation), ainsi que les résultats obtenus par les campagnes d'évaluation historiques et plus récentes. Nous évoquerons les approches et architectures utilisées et évoquerons l'apport des plongements de mots (embeddings). Enfin, nous discuterons des ambitions et limites de la désambiguisation des langues dans une perspective de compréhension.


Date et horaire: 20 novembre 2019, de 13h à 15h
Lieu: salle D323, maison de la recherche, 28 rue serpente, 75006.

Wednesday, October 30, 2019

Séminaire du Labex OBVIL

Le 13 novembre 2019, le séminaire du Labex OBVIL accueillera Mathieu Constant.

Titre: "Construction, exploitation et exploration de ressources d’expressions polylexicales"

Résumé: Dans cette communication, nous présenterons les ressources linguistiques développées au sein du projet ANR PARSEME-FR dédié au traitement automatique des expressions polylexicales pour le français. Les expressions polylexicales sont des combinaisons de lexèmes qui se composent de manière inattendue, et qui posent de sérieux défis pour le traitement automatique des langues. En particulier, nous décrirons la méthodologie que nous avons utilisée pour construire plusieurs corpus annotés de telles expressions, en nous appuyant sur un ensemble de critères formels stricts. Nous verrons ensuite comment ces corpus ont été exploités pour apprendre des outils d’identification d'expressions polylexicales. Nous montrerons enfin un démonstrateur en-ligne permettant à la fois de tester les outils développés et d’explorer un corpus annoté en expressions verbales aligné avec un lexique syntaxique.


Date et horaire: 13 novembre 2019, de 13h à 15h

Lieu: salle D323, maison de la recherche, 28 rue serpente, 75006.

Wednesday, October 16, 2019

Colloque Humanistica 2020 (date de soumission: 15 décembre 2019)



13 et 14 mai 2020
IUT Bordeaux Montaigne

À l’heure où les humanités numériques connaissent un tournant décisif tant sur le plan quantitatif que qualitatif, Humanistica, l’association francophone des humanités numériques créée en 2014, organise son premier colloque. Elle invite ainsi la communauté scientifique à interroger ses résultats et ses méthodes de recherche, ses usages de l’informatique, ses objets traditionnels ou nouveaux, pour mesurer le chemin parcouru et s’engager dans une nouvelle décennie de développement.
En 2010, le Manifeste des Digital Humanities répondait au constat de Milad Doueihi concernant la « conversion numérique en cours » et appelait à la consolidation du domaine. Dix ans plus tard, une transdiscipline a-t-elle émergé ? L’omniprésence de l’expression « humanités numériques » est-elle trompeuse ou témoigne-t-elle d’une prise en compte d’un tournant méthodologique, épistémologique et culturel pris par la recherche en sciences humaines ? Sommes-nous en train d’inventer ou de nous adapter ?

Humanistica suggère aux participants du colloque de répondre à ces différentes questions du point de vue de leurs résultats scientifiques et de leur expérience pédagogique. Trois axes, que nous donnons à titre indicatif, peuvent guider la réflexion :

Enseignement et formation à la recherche

L’université forme par la recherche et à la recherche. Les humanités numériques semblent ouvrir des possibilités de formation plus précoce grâce à l’intégration au sein de projets qui permettent de se confronter aux documents et aux corpus. Les étudiants réalisent ainsi des tâches de transcription, d’encodage mais aussi de valorisation, de médiation et de communication autour de leurs travaux. Cette relation entre enseignement et recherche paraît essentielle non seulement pour susciter des vocations mais également pour offrir des pistes de développement dans les années à venir, en relation avec le monde professionnel.

Le colloque est intéressé par vos expériences et vos expérimentations touchant ce lien entre recherche et enseignement, que ce soit au niveau de la licence ou du master, ainsi que dans le secondaire.

Infrastructures et outils

Les humanités numériques francophones ont été particulièrement actives depuis vingt ans dans la création d’infrastructures exemplaires. Qu’elles soient dédiées à la publication, à la diffusion des résultats de la recherche scientifique en accès libre, au développement de services et d’outils gérant le cycle de vie des données, ces infrastructures transversales ont contribué à transformer notre milieu de travail – mais de quelle façon et avec quel succès ? Le terrain est-il prêt pour que les sciences humaines entrent davantage dans l’ère numérique ?

Le colloque attend vos retours d’expériences en matière de projets d’infrastructures, d’utilisation des services, de besoins encore à satisfaire.

Sciences humaines et résultats

Alors que la numérisation de la société transforme les emplois et les carrières dans de nombreux secteurs professionnels, les métiers de la science n’échappent pas à ces évolutions. De nouveaux besoins, en termes de services notamment, changent la façon de faire des humanités à l’époque de la science ouverte. Quels sont exactement ces nouveaux besoins ? Comment influencent-ils la conduite de la recherche ? Qu’appelle-t-on dorénavant « résultats » de la recherche en sciences humaines, notamment lorsqu’elle est financée selon des critères en évolution ? S’agit-il d’exposer le processus de collecte des données ? D’adopter une approche expérimentale ? De rendre transparente la méthode mise en œuvre ? De tout cela à la fois ? Qu’est-ce que la reproductibilité des travaux dans les sciences humaines ? Que signifie, en outre, « passer à l’échelle » dans nos disciplines ?

> Le colloque attend des réflexions issues de votre recherche et de vos pratiques.

COMMUNICATIONS
Seront acceptées des communications sur des travaux achevés ou en cours, des présentations d’outils ou de prototypes et des réflexions sur les sources utilisées dans un cadre académique ou pédagogique (archives, corpus, enquêtes, données), qu’il s’agisse de rendre opérationnelles ou de redéfinir nos catégories d’analyse. À moins qu’elles ne comportent explicitement une dimension réflexive ou méthodologique, les présentations de projets, infrastructures ou institutions privilégieront le format “poster”.

Les propositions de contribution prendront les formes suivantes :


  • Communications de 20 minutes, qui seront ensuite organisées en sessions thématiques. Les propositions de communications se présenteront sous la forme d’un texte de 250 à 500 mots, références non comprises.
  • Posters, que les auteurs seront invités à présenter en 3 minutes durant une session d’interventions éclair (poster slam). Les propositions de posters se présenteront sous la forme d’un texte de 250 à 500 mots, références non comprises.
Les propositions devront être soumises sur la plateforme du colloque (https://humanistica2020.sciencesconf.org) le 15 décembre 2019 au plus tard. Les réponses (acceptation ou refus) seront envoyées au terme d’une évaluation en simple aveugle, au plus tard le 15 février 2020.

Des articles découlant des communications pourront être soumis à la revue Humanités numériques, dont les numéros 1 et 2 paraîtront en 2020.

En février 2020 sera diffusé un appel spécifique concernant les formes suivantes :

Ateliers de formation ou de groupes de travail, qui prendront place le jour qui précède le colloque, c’est-à-dire le 12 mai 2020.
Tables rondes dont l’objectif est d’offrir la possibilité de proposer en amont du colloque des sujets de discussion, à propos de méthodes de recherche, de questions pédagogiques ou de débats. Un document collaboratif permettra aux propositions de se rejoindre et former des panels destinés à s’auto-organiser en vue du colloque.
INFORMATIONS PRATIQUES
Web
Site de l’association Humanistica : http://www.humanisti.ca


Courriel de contact : humanistica2020@sciencesconf.org

Hashtag : #Humanistica2020

Comité d’organisation local
Philippe Baudorre (université Bordeaux Montaigne)
Julien Baudry (SCD, université Bordeaux Montaigne)
Jessica de Bideran (université Bordeaux Montaigne)
Olivier Le Deuff (université Bordeaux Montaigne)
Fatiha Idmhand (université de Poitiers)
Nathalie Prévôt (université Bordeaux Montaigne)
Vincent Razanajao (université Bordeaux Montaigne)
Comité scientifique du colloque
Fatiha Idmhand (université de Poitiers), co-présidente
Vincent Razanajao (université Bordeaux Montaigne), co-président
Julien Baudry (université Bordeaux Montaigne)
Aurélien Berra (université Paris-Nanterre)
Jessica de Bideran (université Bordeaux Montaigne)
Claire Clivaz (SIB Institut Suisse de Bioinformatique, Lausanne)
Martin Grandjean (université de Lausanne)
Olivier Le Deuff (université Bordeaux Montaigne)
Nathalie Prévôt (CNRS – université Bordeaux Montaigne)
Programme
Le colloque a lieu les mercredi 13 et jeudi 14 mai 2020.

Il est précédé d’une journée d’ateliers le 12 mai.

Lieu:
Université Bordeaux Montaigne

Institut universitaire de technologie Bordeaux Montaigne

1 rue Jacques Ellul

33800 Bordeaux

Monday, October 7, 2019

Séminaire du Labex OBVIL


Dans le cadre du séminaire du Labex OBVIL, nous avons le plaisir d'accueillir Thierry Hamon, qui interviendra sur le sujet suivant:

Acquisition terminologique et fouille de textes

Dans les domaines de spécialité, les terminologies jouent un rôle central pour recenser et véhiculer les informations et les connaissances des domaines. Cependant, ces ressources peuvent être difficiles à utiliser directement sur des textes. Il est nécessaire de disposer de méthodes d'acquisition terminologique.  Nous présentons plusieurs méthodes d'extraction de termes et d'acquisition de relations sémantiques entre termes. Puis nous montrons la contribution de ces méthodes à l'extraction d'information.

Date et horaire: 23 octobre, de 13h à 15h
Lieu: salle D323, maison de la recherche, 28 rue serpente, 75006.