Monday, February 11, 2019

Séminaire de l'OBVIL 11 mars: logiciel NOOJ

Le 11 mars 2019, Max Silberztein assurera une présentation de NOOJ, suivie d'un atelier pratique sur l'utilisation de ce logiciel d'analyse et d'annoation textuelles.

NooJ est un environnement de développement utilisé pour construire des ressources linguistiques sous la forme de dictionnaires et de grammaires afin de formaliser une douzaine de phénomènes linguistiques (de l’orthographe à la sémantique). NooJ offre à ses utilisateurs la possibilités d’appliquer ces ressources à des corpus de textes afin de construire des concordances, effecturr des analyses statistiques, voire les analyser et les annoter. Le moteur linguistique de NooJ a été utilisé dans une dizaine d'applications de TAL comme la fouille de donnée, la veille, la traduction automatique, etc. Le séminaire consistera en une présentation de NooJ, suivi par une séance de formation au logiciel.

Prérequis:
Chaque participant(e) doit venir avec son ordinateur portable, et avoir téléchargé le logiciel à cette adresse.

L'atelier se déroulera en salle s002 de la maison de la recherche, de 14h et 18h. Une pause café est prévue à 15h30.

Les personnes intéressées sont priées d'envoyer une simple confirmation à motasem.alrahabi@gmail.com

Wednesday, February 6, 2019

Séminaire de l'OBVIL 5 avril : analyse stylistique de textes littéraires

Dans le cadre du séminaire OBVIL, Gaël Lejeune, maître de conférences en informatique (Sorbonne Université), interviendra le 5 avril au sujet de l'analyse stylistique de textes littéraires:

L'analyse stylistique automatique (computational stylistics) fait appel à des observables et des représentations qui lui sont particulières. Dans ce séminaire, je présenterai quelques types d'observables utilisés en analyse stylistique automatique puis je montrerai comment les exploiter avec la bibliothèque "stylo" du programme d'analyse statistique R. Pré-requis :
Installer "R" puis la bibliothèque stylo https://sites.google.com/site/computationalstylistics/stylo).

L'atelier aura lieu en salle D323 de 10h à 13h (Maison de la Recherche). Une pause café est prévue à 11h30.
Pour des raisons d'organisation, les personnes intéressées sont priées de confirmer leur présence par mail (motasem.alrahabi@gmail.com).






Recrutement

Fiche de poste
RECRUTEMENT
04 FÉVRIER 2019

Identification du poste

Type de contrat : CDD ; quotité : temps plein 9 mois
Date de prise de fonctions :  mars 2019
Employeur :  Fondation des Sciences du Patrimoine (FSP))
Rémunération : Salaire net mensuel, environ 2 000 euros
Cadres de référence du ministère de l’Enseignement supérieur et de la Recherche auxquels l’emploi peut être rattaché :
BAP E (informatique, statistiques et calcul scientifique)
E1C43 : Chef-fe de projet ou expert-e en ingénierie logicielle
E2C45 : Ingénieur-e en ingénierie logicielle
Localisation du poste : Université de Cergy-Pontoise (sites de Saint-Martin et des Chênes) et Archives nationales (site de Pierrefitte-sur-Seine)
Encadrement : Florence Clavaud (conservatrice en chef du patrimoine aux Archives nationales, directrice technique du projet Testaments de Poilus), Boris Borzic (ingénieur de recherche, Université de Cergy-Pontoise, laboratoire ETIS - Equipes Traitement de l’Information et Systèmes)

Environnement fonctionnel

La personne recrutée, outre les personnes responsables de son encadrement au quotidien, travaillera en concertation avec l’ensemble des membres de l’équipe projet Testaments de Poilus, archivistes, ingénieurs d’étude, enseignants-chercheurs, qui représentent actuellement six institutions : les Archives nationales, les Archives départementales des Yvelines, les Archives départementales du Val-d’Oise, l’École nationale des chartes, l’Université de Cergy-Pontoise, l’Université Paris 8. La coordination générale du projet est assurée par Emmanuelle de Champs (professeure des universités, laboratoire AGORA, Université de Cergy-Pontoise).

Description du poste

Dans une première phase du projet (2016-2018), grâce à un financement de la FSP et de la Mission du centenaire, afin de permettre à des internautes bénévoles de contribuer activement (crowdsourcing) à la transcription des testaments de guerre des Poilus morts pour la France pendant ou après la Première Guerre mondiale conservés aux Archives nationales et dans les services français d’archives départementales, une plateforme web de transcription collaborative des testaments a été conçue, développée et mise en production en janvier 2018 à l’adresse https://testaments-de-poilus.huma-num.fr. Depuis janvier 2018, elle a permis à l’équipe projet de publier les images numériques de 323 testaments préalablement identifiés, décrits et numérisés par les services d’archives responsables de leur conservation, de les faire transcrire selon des règles précises conformément à un modèle TEI spécifique, lui-même évolutif, et, à l’aide d’une interface dynamique et réactive, de contrôler soigneusement la qualité de la transcription et de l’encodage. Une communauté de plus de trois cents transcripteurs s’est formée, dont quelques-uns sont extrêmement actifs et produisent aujourd’hui des transcriptions de haute qualité. Les travaux d’identification, de description et de numérisation des testaments se poursuivent, de sorte que le contenu de la plateforme va continuer de s’enrichir ; on estime à 1500 le nombre total de testaments conservés aux Archives nationales, et à une centaine au plus le nombre de testaments conservés dans chacun des services d’archives départementales partenaires du projet (le nombre de services d’AD partenaires va très probablement augmenter). Pour plus d’informations voir notamment le compte-rendu de la journée des contributeurs du 11 septembre 2018 (https://testaments-de-poilus.huma-num.fr/#!/content/30) et les fichiers attachés.
Ce programme de transcription TEI vise à produire une version informatique hautement exploitable et pérennisable, conforme à un modèle documenté, du texte des testaments, afin que les chercheurs associés au projet puissent en réaliser une étude scientifique approfondie, en s’attachant en particulier à la forme de ces textes, à la culture de l’écrit des testateurs, à leur attitude par rapport au danger de mort qu’ils encourent. Il s’agit également de valoriser et de faire connaître au plus grand nombre ces documents inédits. Les partenaires du projet se sont donc engagés à réaliser une deuxième application web restituant à tous ces publics les résultats obtenus, servant d’interface de recherche, d’éditorialisation et de consultation des testaments dont les transcriptions TEI auront été validées et exportées de la plateforme de transcription, et destinée à subsister après que les opérations de transcription auront été achevées.
La personne recrutée sera chargée de la conception, de la réalisation, de la documentation et de la mise en production de cette application.
En ce qui concerne la conception de l’application, la personne recrutée pourra s’appuyer sur les travaux préalables menés en 2018 (enquêtes auprès des futurs utilisateurs, état de l’art rapide en ce qui concerne les fonctionnalités de sites web d’édition numérique comparables, note de cadrage fonctionnelle, état de l’art sommaire des solutions techniques existantes).
Les développements se feront impérativement à partir de briques logicielles open source et les librairies qui seront écrites seront placées sous licence libre et déposées dans un entrepôt public de sources tel que Github.
L’application web devra être une application REST, dotée d’une API permettant au minimum à des applications tierces d’exécuter des requêtes pour récupérer la transcription TEI d’un testament. En ce qui concerne les images numériques des testaments elle utilisera le serveur IIIF mis en place pour la plateforme collaborative de transcription. Le design et l’ergonomie de l’interface seront tout particulièrement à soigner ; la réalisation de la charte graphique sera probablement confiée à un prestataire spécialisé.
La personne recrutée devra également documenter l’application afin que l’équipe de direction technique du projet puisse en prendre en main l’administration et la maintenance.

Compétences requises pour le poste

  • Connaître de façon approfondie (théorique et pratique) le standard XML/TEI ; maîtriser les normes et langages XML (Relax NG, XSLT, XQuery) et au moins une base de données XML (BaseX, eXist)
  • Connaître les normes, méthodes et langages de développement Web (XHTML5, CSS, JavaScript/DOM, AJAX, JSON) ; connaître une ou plusieurs frameworks JavaScript telles que JQuery, AngularJS, React
  • Connaître au minimum un langage de programmation tel que PHP ou Python
  • Maîtriser les bases de données relationnelles : MySQL, SQL
  • Maîtriser les concepts et techniques de gestion de projets : approche agile de préférence
  • Maîtriser l’anglais (notamment technique)

Compétences opérationnelles (savoir faire)

  • Piloter un projet (expertise)
  • Appliquer les techniques citées ci-dessus
  • Disposer de capacités d’analyse et de synthèse et de fortes capacités d’adaptation et d’apprentissage

Compétences comportementales (savoir être)

  • Être très rigoureux
  • Avoir le sens des initiatives
  • Disposer d’aptitudes relationnelles (capacités à écouter et prendre en compte les besoins des utilisateurs, à expliquer, de manière générale à communiquer).

Conditions d’embauche

Les candidats doivent être titulaires au minimum d’un Master 2 en sciences de l’information et de la communication, ou en humanités numériques.
Une expérience antérieure de conception et développement d’application web fondée sur TEI, au sein d’un laboratoire de recherche en sciences humaines et sociales ou d’une institution patrimoniale, serait l’idéal.

Conditions d’embauche

Les candidats doivent adresser un CV et une lettre de motivation  avant le 4 février 2019 aux trois adresses ci-dessous :
florence.clavaud@culture.gouv.fr;boris.borzic@u-cergy.frEmmanuelle.de-champs@u-cergy.fr
Ils seront convoqués pour un entretien début février.

Sunday, January 27, 2019

Séminaire de l'OBVIL 22 mars : Topic Modeling (analyse lexicométrique de textes)

Samuel Coavoux, ingénieur chez Orange Labs, assurera un atelier dans le cadre du séminaire de l'OBVIL sur le sujet de l'anlayse lexicométrique de textes (Topic Modeling). L'atelier aura lieu le 22 mars à la maison de la recherche, de 14h à 18h (salle D117).

Résumé:
Le topic model est une famille de techniques de lexicométrie visant à classifier automatiquement des documents. Dans cette séance, je propose de présenter un exemple de recherche original employant cette technique, qui sera suivie d’un tutoriel informatique pour la mettre en pratique avec le logiciel R. La recherche porte sur la critique culturelle. Dans le cadre d’une thèse de doctorat portant sur la réception d’un tableau de Nicolas Poussin, la fuite en Égypte (1658), j’ai collecté l’ensemble des articles de la presse française portant sur ce tableau, qui a connu une histoire mouvementée depuis sa découverte en 1986 jusqu’à son achat en 2007 par le musée des beaux-arts de Lyon. L’approche lexicométrique permet de mettre en évidence, à travers cet exemple, les ressorts du l’attention médiatique pour l’art.
Pour la partie logiciel : il faudrait installer le langage de programmation R  https://www.r-project.org et le logiciel Rstudio https://www.rstudio.com/ ; puis, d’installer dans R les packages suivants : topicmodels, quanteda, tidyverse. Je parlerais également d’autres packages, mais ils ne sont pas nécessaires dans un premier temps.

Les places sont limitées. Pour des raisons d'organisation, les personnes intéressées sont priées de confirmer leur présence par mail (motasem.alrahabi@gmail.com).

Tuesday, January 22, 2019

Séminaire de l'OBVIL 20 févier: Visualisation de données

Jean-Marie Lagnel, auteur du Manuel de datavisualisation (Dunod) et directeur de création de STUDIO V2, interviendra dans le cadre du séminaire Obvil le mercredi 20 février 2019, de 14h à 17h à la Maison de la Recherche (28 rue Serpente, 75006), salle D513.

Résumé:
Récolter, analyser, organiser les données et concevoir à l’aide d’outils open source une visualisation pour le web. Découvrir comment choisir la bonne forme graphique en fonction de vos données afin d’obtenir un résultat lisible et compréhensible. 

Les places sont limitées. Inscription nécessaire auprès de motasem.alrahabi@gmail.com.

Friday, January 18, 2019

Atelier Entitiés Nommées - Deuxième partie (8 février 2019)

A la suite de la première partie de la formation "Atelier Entitiés Nommées (30 novembre 2018)", Carmen Brando, ingénieure de recherche EHESS et spécialiste dans le domaine de la détection et l'extraction d'entités nommées, interviendra le 8 février 2019 dans le cadre du séminaire de l'OBVIL.

De nombreux textes historiques et littéraires sont riches en noms propres et descriptions définies désignant des personnes, lieux et organisations. Ces segments de textes sont désignés sous le nom d’entité nommée dans le domaine du traitement automatique des langues (TAL). Cette présentation s’intéressera à l’étiquetage et l’identification manuelle et automatique des entités nommées. Il sera question des outils TAL qui vont aider à automatiser ces tâches pour l’indexation des textes en humanités numériques dans le cadre d’une collaboration avec les laboratoires LATTICE (UMR 8094) et PRAXILING (UMR 5267) et l'Université de Carthage.

Dans cette deuxième partie de la formation, il sera question d'améliorer la qualité des résultats obtenus en jouant sur le corpus d'entraînement et aussi les dictionnaires.

L'atelier se déroulera de 14h et 18h en salle D224 à la Maison de la Recherche, 28 rue Serpente, 75006 Paris.

Une pause café est prévue à 15h30.

Thursday, January 17, 2019

Appel à communication

Colloque du Labex Obvil (Sorbonne Université)

Jeudi 20 et vendredi 21 juin 2019

Maison de la recherche (28 rue Serpente, 75006), salle D040



La critique littéraire du XIXe siècle s’est progressivement définie comme une science positive, en reprenant la perspective naturaliste et anthropologique popularisée par Montesquieu ou en se fondant sur les méthodes de disciplines nouvelles comme l’histoire et la sociologie. Elle a accompagné, dans l’histoire de la littérature, une évolution épistémologique qui s’est manifestée, notamment, par le démantèlement du système des belles-lettres, tel que l’avait théorisé l’abbé Batteux, et par la structuration de la discipline de l’histoire littéraire, de La Harpe et de Germaine de Staël à Gustave Lanson. Les critiques du XIXe siècle ont joué un rôle important dans la redécouverte de la littérature du Moyen Âge et de celle du XVIe siècle, dans l’identification d’un modèle canonique avec la littérature du XVIIe siècle et dans la définition de l’idée de littérature nationale. Ils ont accordé une importance nouvelle à l’établissement du texte, à la figure de l’auteur, au contexte d’écriture et à l’idée qu’une littérature est le produit d’une société et d’une époque. Ils ont également repensé, après la Révolution, le lien entre la démocratie, le goût et la valeur littéraire, et posé en termes nouveaux la question de la singularité de l’auteur et celle de l’« individualité » de l’œuvre, tout en recherchant, dans l’histoire, les règles d’un art poétique pérenne et les traces d’une nature humaine irréductible à l’expression de l’individualisme. Cette recherche de catégories universelles a pu conditionner le caractère normatif d’une critique de professeurs constitués en gardiens de la valeur littéraire, à laquelle une critique dite « impressionniste » s’est opposée à la fin du siècle.
Les historiens de la littérature décrivent les principaux jalons de l’évolution de la pensée critique, de La Harpe à Lanson, à travers le tropisme biographique et bibliographique de Sainte-Beuve, l’intérêt de Taine pour la psychologie ou encore l’ambition de Brunetière de rattacher les œuvres à l’histoire des genres. Cependant, ils mentionnent le maintien dans le discours, tout au long du siècle, de l’impératif moral associé à la littérature et à l’art, et de catégories esthétiques se rattachant peu ou prou aux belles-lettres, comme le goût, le beau ou l’esprit d’à-propos.
Dans le prolongement de ces réflexions, nous proposons de consacrer un colloque à la question du renouvellement et de la permanence du vocabulaire de la critique au XIXe siècle. Les interventions, en littérature ou en information-communication pourront s’intéresser à l’apparition d’un terme dans la pensée critique, à l’évolution du sémantisme d’un mot ou d’une figure, à la fortune d’une notion ou d’une idée. Elles pourront porter sur l’œuvre d’un critique en particulier ou embrasser une période et un corpus larges, en mettant à profit les ressources numériques proposées par le Labex Obvil, notamment la bibliothèque critique, ou en s’intéressant à la presse numérisée.

Les interventions donneront lieu à une publication en ligne. Les propositions d’intervention (environ 250 mots) doivent être envoyées à jalabert.obvil@gmail.com avant le 15 mars 2019.

Organisation : Romain Jalabert (Labex Obvil, Sorbonne Université), Marine Riguet (Labex Obvil, Sorbonne Université)et Glenn Roe (Labex Obvil, Sorbonne Université)