Distant Reading – Tools and Methods

Bibliothek_des_Rechtswissenschaftlichen_Instituts_der_Universität_Zürich_371736445_42bf4...

The following course will be held in English, by specialists of French speaking, German speaking and Italian speaking literature

Objectif

La lecture distante (distant reading), portée par le développement du numérique dans les sciences humaines, s’est imposée comme une des approches les plus prolifiques des textes littéraires. Les cartes, les graphiques et les arbres, pour reprendre les mots de Moretti (2005), nous permettent en effet de relire les œuvres les plus célèbres d’une manière inédite, ou de nous pencher sur des textes jusqu’alors oubliés. Ces études nouvelles ne reviennent cependant que trop peu sur l’acquisition des données à observer : d’où viennent-elles ? Comment sont-elles construites ?

La présente école se propose de revenir sur l’étape cruciale de l’acquisition des données, en revenant dans le détail sur leur chaîne de production. Nous commencerons par l’OCR (optical character recognition, reconnaissance optique de caractère), qui permet de transformer un jeu d’image en un texte exploitable, en dépit des difficultés introduites par la variation des systèmes graphiques ou la matérialité des artefacts anciens. Le second temps – décisif – est celui de l’encodage en XML-TEI, qui transforme le texte en base de données exploitable et permet d’ajouter un surcroît d’information au texte (auteur, genre, période). Le troisième et dernier temps est celui de l’analyse avec R, qui permet de tester des hypothèses par l’analyse et la visualisation de données.

Fortement tournée vers la pratique, cette école voudrait jeter les bases d’un premier corpus suisse multilingue (français, italien et allemand). Sa construction au cours de l’école sera l’occasion de discuter de ces enjeux.

Ce cours s’inscrit dans le cadre d’un travail collectif mené au sein du projet européen COST Distant reading pour lequel les organisateurs sont les représentants suisses.

Inhalt

Distant Reading, ein Verfahren, das durch die Digitalisierung in den Geisteswissenschaften entstanden ist, hat sich als einer der produktivsten Ansätze für literarische Texte erwiesen. Karten, Grafiken und Bäume, so Moretti (2005) in seinem Buch „Graphs, Maps, Trees: Abstract Models for a Literary History“ ermöglichen die innovative Relektüre berühmter Werke ebenso die Beschäftigung mit in Vergessenheit geratenen Texten. Neue Muster werden sichtbar, Hypothesen können erstmals systematisch auf grösseren Korpora überprüft werden. Jedoch wird beim Distant Reading oftmals die wichtige Ebene der ursprünglichen Datenerfassung vernachlässigt: Woher kommen die Daten? Wie werden sie gewonnen? Welche Implikationen haben hier bestimmte Entscheidungen?

Unser Kurs schlägt vor, zur entscheidenden Phase der Datenerfassung zurückzukehren, indem wir die Produktionskette detailliert beschreiben. Wir beginnen mit OCR (Optical Character Recognition), ein Verfahren, das einen Bilddatensatz in nutzbaren Text umwandelt, wobei Variationen in Druck, Orthographie sowie Materialität der Artefakte Herausforderungen darstellen. Die zweite – und entscheidende – Einheit ist die XML-TEI-Codierung, die die gewonnenen Textdaten in eine durchsuchbare Datenbank transformiert und mit weiteren Informationen, etwa zu AutorIn, Gattung und Publikationszeitraum, versieht. Als dritte Einheit wird die Analyse mit der Software R aufgezeigt, die es ermöglicht, Forschungsfragen zu testen, sowie Daten explorativ zu analysieren und zu visualisieren.

Stark praxisorientiert möchte dieser Kurs den Grundstein für ein erstes mehrsprachiges Schweizer Literaturkorpus (Französisch, Italienisch und Deutsch) legen. Anhand dieses Korpus wird es im Verlauf des Kurses Gelegenheit geben, das Verfahren des Distant Reading und seine Bedingungen auf allen Ebenen zu diskutieren.

Der Kurs ist angebunden an ein gemeinsames Forschungsprojekt im Rahmen des europäischen Projekts Distant Reading for European Literary Historyhttps://www.distant-reading.net/.

Programme/Programm

Jour/Tag 1

- 9h30-10h : Accueil des participants / Empfang
- 10h-10h30 : Leçon d’ouverture/Eröffnungsvortrag, Distant Reading (Gerhard Lauer, UNIBAS)
- 10h30-11h : Introduction à l’OCR / Einführung in OCR
- 11h-11h30 : Pause-café / Kaffeepause
- 11h30-12h30 : TP : entraîner et utiliser un OCR / Einführung und Verwendung OCR
- 12h30-14h : Repas / Mittagessen
- 14h-15h30 : Introduction à la construction de corpus : balancement du corpus + TP / Einführung in den Korpusbau: Repräsentativität und Balancing + TP
- 15h30-16h : Pause-café / Kaffeepause
- 16h-17h30 : Introduction à la construction de corpus : encoder son corpus + TP / Einführung in den Korpusbau: XML-Kodierung + TP
18h-19h : Keynote I, Caractéristiques de la littérature suisse: Gibt es Kennzeichen von Schweizer Literatur? (Rosemarie Zeller, UNIBAS)

Jour/Tag 2

9h-10h : Keynote II, Annotations as category-based interpretations of texts (Carolin Odebrecht, Berlin HU)
- 10h-10h30 : Pause-café / Kaffeepause
- 11h-12h30 : Encodage de corpus XML (avancé) + TP / XML-Kodierung (erweitert) + TP
- 12h30-14h : Repas / Mittagessen
- 14h-16h : Encodage de corpus XML + TP / XML-Kodierung + TP
- 16h-16h30 : Pause-café / Kaffeepause
- 16h30-17h30 : Analyse des résultats / Analyse der Ergebnisse

PDEN_Distant Reading_programme-1.pdf (418 Ko)

Inscription

Les doctorant-e-s des universités de Bâle, Berne, Fribourg, Genève, Neuchâtel et Lausanne ainsi que de l'EPFL peuvent s'inscrire à ce cours. Les chercheurs et chercheuses post-doc peuvent faire une demande. La participation à cet événement est gratuite pour les doctorant-e-s. Les éventuels frais de déplacement et d'hébergement sont pris en charge par le programme doctoral.

Doktoranden der Universitäten Basel, Bern, Freiburg, Genf, Neuenburg und Lausanne sowie der EPFL können sich für diesen Kurs anmelden. Post-Doc-Forscher können sich bewerben. Die Teilnahme an dieser Veranstaltung ist für Doktoranden kostenlos. Die Reise- und Aufenthaltskosten werden durch das Doktorandenprogramm übernommen.

Contact/Kontakt : alexandre.camus@unil.ch.

Informations pratiques / Praktische Information

Intitulé du cours	Distant Reading – Tools and Methods
Enseignants	Simon Gabay, Berenike Herrmann, Simone Rebora, Elias Kreyenbühl
Date	12 et 13 décembre 2019
Lieu	Bibliothèque publique et universitaire de Bâle
Horaire	9h-17h30