Philologie computationnelle: au delà de l’encodage du texte

books-g39394ddb5_1920.jpg

 

Philologie computationnelle: au delà de l’encodage du texte

Jeudi 2 et vendredi 3 décembre 2021. Genève, Pavillon Ansermet (le 2 décembre), salle Mirabeau (le 3 décembre) 

Organisation: Benedetta Salvati (doctorante à l’UniL), Aude Sartenar (doctorante à l’UniGE) et Simon Gabay (maître-assistant à l’UniGE)

Nous nous proposons, à l’aide de spécialistes de linguistique computationnelle, de présenter l’état de la recherche ainsi que les derniers outils en cours de développement. L’accent sera mis sur le français pré-orthographique, avec un intérêt particulier pour le français moyen et moderne (1400-1700). L’absence de stabilité du système graphique à ces époques est à la fois un véritable obstacle à l’étude de ces états de la langue, jusqu’à présent très délaissés par la recherche, mais aussi des objets d’études particulièrement riches pour les approches computationnelles. Nous aborderons ainsi la question des modèles de langue, ces modélisations statistiques de la distribution des mots, qui sont au cœur de la linguistique computationnelle actuelle.

 

Ces modèles sont utilisés dans une multitude de tâches de TAL, dont trois ont été identifiées comme particulièrement utiles pour les philologues.

  1. L’analyse du changement linguistique, et notamment d’un lexique, en diachronie: quels mots apparaissent, quels mots disparaissent?
  2. La reconnaissance des entités nommées, et notamment les noms de lieux: il est ainsi possible de produire des cartes qui permettent la «lecture distante», si plébiscitée en humanités numériques.
  3. La normalisation linguistique automatique: comment transformer des transcriptions diplomatiques (eſtoit) en transcriptions interprétatives (estoit) ou normalisées (était)?

 

Inscriptions ici 

 

Programme prévisionnel : 

 

2 décembre 

  • 9h-10h30 Traitements numériques pour l'analyse du changement linguistique (Lucence Ing, ENC|PSL)
  • 10h30-11h Pause
  • 11h-12h30 TP
  • REPAS 
  • 14h-15h30 La reconnaissance optique de caractères: imprimés, manuscrits (Alexandre Bartz, Sorbonne Université)
  • 15h30-16h Pause
  • 16h-17h30 TP: le projet FoNDUE
  • 18h-19h Keynote: Modèles de langue: histoire et objectifs (Benoît Sagot, INRIA)

3 décembre 

  • 9h-10h30 Reconnaître les entités nommées (Pedro Ortiz, INRIA)
  • 10h30-11h Pause
  • 11h-12h30 TP
  • REPAS
  • 14h-15h30 Normaliser la langue (Rachel Bawden, INRIA)
  • 15h30-16h Pause
  • 16h-17h30 TP
Partagez:
Université de Berne Université de Bâle Université de Fribourg Université de Genève Université de Lausanne Université de Neuchâtel École polytechnique fédérale de Lausanne (EPFL)