Philologie computationnelle: au delà de l’encodage du texte

Jeudi 2 et vendredi 3 décembre 2021. Genève, Pavillon Ansermet (le 2 décembre), salle Mirabeau (le 3 décembre)

Organisation: Benedetta Salvati (doctorante à l’UniL), Aude Sartenar (doctorante à l’UniGE) et Simon Gabay (maître-assistant à l’UniGE)

Nous nous proposons, à l’aide de spécialistes de linguistique computationnelle, de présenter l’état de la recherche ainsi que les derniers outils en cours de développement. L’accent sera mis sur le français pré-orthographique, avec un intérêt particulier pour le français moyen et moderne (1400-1700). L’absence de stabilité du système graphique à ces époques est à la fois un véritable obstacle à l’étude de ces états de la langue, jusqu’à présent très délaissés par la recherche, mais aussi des objets d’études particulièrement riches pour les approches computationnelles. Nous aborderons ainsi la question des modèles de langue, ces modélisations statistiques de la distribution des mots, qui sont au cœur de la linguistique computationnelle actuelle.

Ces modèles sont utilisés dans une multitude de tâches de TAL, dont trois ont été identifiées comme particulièrement utiles pour les philologues.

L’analyse du changement linguistique, et notamment d’un lexique, en diachronie: quels mots apparaissent, quels mots disparaissent?
La reconnaissance des entités nommées, et notamment les noms de lieux: il est ainsi possible de produire des cartes qui permettent la «lecture distante», si plébiscitée en humanités numériques.
La normalisation linguistique automatique: comment transformer des transcriptions diplomatiques (eſtoit) en transcriptions interprétatives (estoit) ou normalisées (était)?

Inscriptions ici

Programme prévisionnel :

2 décembre

9h-10h30 Traitements numériques pour l'analyse du changement linguistique (Lucence Ing, ENC|PSL)
10h30-11h Pause
11h-12h30 TP
REPAS
14h-15h30 La reconnaissance optique de caractères: imprimés, manuscrits (Alexandre Bartz, Sorbonne Université)
15h30-16h Pause
16h-17h30 TP: le projet FoNDUE
18h-19h Keynote: Modèles de langue: histoire et objectifs (Benoît Sagot, INRIA)

3 décembre

9h-10h30 Reconnaître les entités nommées (Pedro Ortiz, INRIA)
10h30-11h Pause
11h-12h30 TP
REPAS
14h-15h30 Normaliser la langue (Rachel Bawden, INRIA)
15h30-16h Pause
16h-17h30 TP