Der Fontane-Code

Ein CRETA-Team nimmt am kommenden Wochenende am Fontane-Hackathon „Der Fontane-Code“ teil. Das Team besteht aus Sandra Murr, Sarah Schulz, Tim Strohmeyer und Nils Reiter und arbeitet an den Besonderheiten Fontanes im Vergleich mit seinen Zeitgenossen:

Als wiederkehrende Charakteristika werden in den Werken Theodor Fontanes gerne die historischen Referenzräume, die vertikalen Handlungsentwicklungen, der auktoriale Erzählgestus, die Charakterisierung der Figuren im Dialog sowie die Ironie und Humor als Stilmittel herausgestellt.
In unserem Projekt möchten wir uns mithilfe von computergestützten Analysen der Auffindung von diesen und weiteren Aspekten des Erzählstils Fontanes auf Textebene annähern. Wir fokussieren dabei Sprachstrukturen, linguistische Eigenschaften sowie sprach-strukturelle und semantisch-inhaltliche Merkmalen. Um die Besonderheit dieser Aspekte für die Werke Fontanes herauszuarbeiten, ziehen wir Texte zeitgenössischer Autoren wie Wilhelm Raabe und Gottfried Keller zum Vergleich heran und erwirken so eine quantitative und kontrastive Charakterisierung fontanespezifischer Stilmittel.

Kurs: Reflektierte Textanalyse in den Digital Humanities

Im Rahmen der European Summer University in Digital Humanities geben Sarah Schulz und Nils Reiter einen Kurs zur reflektierten Textanalyse:

Der Workshop gibt einen Einblick in die reflektierte Textanalyse und deckt verschiedene, dafür relevante Themen ab. Kernidee dabei ist, den “Vorhang zu Lüften”: Die Teilnehmerinnen und Teilnehmer lernen dabei, wie reflektierte Textanalyse praktisch funktioniert, so dass sie im Anschluss an den Workshop auch angewendet werden kann. Themen des Workshops werden sein: Annotation und Konzeptentwicklung durch Annotation, Programmieren mit Python, Maschinelles Lernen in Theorie und Praxis. Die Teilnehmerinnen und Teilnehmer werden an ihren eigenen Programmen und Daten arbeiten können, und selbst programmieren und statistische Modelle trainieren. Vorkenntnisse sind nicht erforderlich, aber ein Laptop und eine Internetverbindung.

Werkstatt-Treffen: Netzwerkanalyse

Im Rahmen des CRETA-Projekts findet ein öffentliches Werkstatt-Treffen statt, zu dem externe Gastvortragende eingeladen sind (Vortrags- und Diskussionssprache ist Englisch).

Das Programm  für Mittwoch, den 14. März 2018:

• 09:00 Nils Reiter, CRETA
Welcome & Introduction

• 09:15 Nora Ketschik, Evgeny Kim & Florian Barth, CRETA
Extracting Character Networks from Arthurian Romances and Werther
Adaptations

• 10:30 Coffee break

• 11:00 Yannick Rochat, Université de Lausanne
Character Network Analysis: A Review

• 12:30 Lunch break

• 14:00 Andreas Kuczera, Akademie der Wissenschaften und der Literatur, Mainz
Regesta Imperii as a Network of Entities

• 15:30 Coffee break

• 16:00 Frederik Elwert, Ruhr-Universität Bochum
Adding Meaning to Literary Networks. A Networked Topic Model of
the Mahābhārata

• 17:30 Closing discussion

• 18:00 End (ca.)

Das Programm zum Download als PDF: Agenda-WS5.PDF

Stuttgart auf der DHd 2018

Logo DHd 2018

Auf der in knapp zwei Wochen stattfindenden DHd-Konferenz 2018 kommen erfreulicherweise eine ganze Reihe Beiträge aus Stuttgart, viele davon sind CRETA-Beiträge:

  • Mo., 26.02., 14-17:30, Workshop: Maschinelles Lernen lernen: Ein CRETA-Hackatorial zur reflektierten automatischen Textanalyse (Nils Reiter, Nora Ketschik, Gerhard Kremer, Sarah Schulz)
  • Mi, 28.02., 9:00-10:30, Vortrag: A Reporting Tool for Relational Visualization and Analysis of Character Mentions in Literature (Florian Barth, Evgeny Kim, Sandra Murr, Roman Klinger)
  • Mi., 28.02., 11:00-12:30, Vortrag: Was Lesende denken: Assoziationen zu Büchern in Sozialen Medien (Jens Beck, Marcus Willand, Nils Reiter)
  • Do., 01.03., 9:00-10:30, Vortrag: Quantitatives „close reading“? Vier mikroanalytische Methoden der digitalen Dramenanalyse im Vergleich (Benjamin Krautter)
  • Do., 01.03., 11:00-12:30, Vortrag: Digitale Modellierung von Figurenkomplexität am Beispiel des Parzival von Wolfram von Eschenbach (Manuel Braun, Roman Klinger, Sebastian Padó, Gabriel Viehhauser)
  • Do., 01.03., ab 17:45, Poster: SustainLife – Erhalt lebender, digitaler Systeme für die Geisteswissenschaften (Johanna Barzen, Jonathan Blumtritt, Uwe Breitenbücher, Simone Kronenwett, Frank Leymann, Brigitte Mathiak)
  • Do., 01.03., ab 17:45, Poster: Entitäten im Fokus am Beispiel von Captivity Narratives (Linda Kessler, Tamara Braun, Tanja Preuß)
  • Do., 01.03., ab 17:45, Poster: NLP meets RegNLP meets Regesta Imperii (Andre Blessing, Andreas Kuczera)
  • Do., 01.03., ab 17:45, Poster: Verhaltensmuster in Massendiskursen: Ein Opinion Dynamics – Modell (Malte Heckelen)
  • Do., 01.03., ab 17:45, Poster: Die Max-Bense-Collection. Digitale Re-Publikation von Erstausgaben mit erweiterten Plattformfunktionen (Claus-Michael Schlesinger)
  • Fr., 02.03., 11:00-12:30, Vortrag: SANTA: Systematische Analyse Narrativer Texte durch Annotation (Evelyn Gius, Nils Reiter, Jannik Strötgen, Marcus Willand)

Maschinelles Lernen lernen: Ein CRETA- Hackatorial zur reflektierten automatischen Textanalyse

Logo DHd 2018

Wir freuen uns, dass unser Hackatorial im Rahmen der DHd 2018 stattfinden kann, und laden herzlich dazu ein mitzumachen! Die Veranstaltung findet statt am Montag, 26.02.2018, von 14 bis 17:30 Uhr. Anmeldungen sind im Zuge der allgemeinen Konferenzanmeldung möglich.

Ziel unseres Hackatorials ist es, den Teilnehmerinnen und Teilnehmern konkrete und praktische Einblicke in einen Standardfall automatischer Textanalyse zu geben. Am Beispiel der automatischen Erkennung von Entitätenreferenzen gehen wir auf allgemeine Annahmen, Verfahrensweisen und methodische Standards bei maschinellen Lernverfahren ein. Die Teilnehmerinnen und Teilnehmer können beim Bearbeiten von lauffähigem Programmiercode den Entscheidungsraum solcher Verfahren ausleuchten und austesten. Es werden keinerlei Vorkenntnisse zu maschinellem Lernen oder Programmierkenntnisse vorausgesetzt.

Es gibt keinen Grund, den Ergebnissen von maschinellen Lernverfahren im Allgemeinen und NLP-Tools im Besonderen blind zu vertrauen. Durch die konkreten Einblicke in den „Maschinenraum“ von maschinellen Lernverfahren wird den Teilnehmenden ermöglicht, das Potenzial und die Grenzen statistischer Textanalysewerkzeuge realistischer einzuschätzen. Mittelfristig hoffen wir dadurch, den immer wieder auftretenden Frustrationen beim Einsatz automatischer Verfahren für die Textanalyse und deren teilweise wenig zufriedenstellender Ergebnis-Daten zu begegnen, aber auch die Nutzung und Interpretation der Ergebnisse von maschinellen Lernverfahren (d.h. in erster Linie von automatisch erzeugten Annotationen) zu fördern. Zu deren adäquater Nutzung, etwa in hermeneutischen Interpretationsschritten, ist der Einblick in die Funktionsweise der maschinellen Methoden unerlässlich. Insbesondere ist die Art und Herkunft der Trainingsdaten für die Qualität der maschinell produzierten Daten von Bedeutung, wie wir im Tutorial deutlich machen werden.

Neben einem Python-Programm für die automatische Annotierung von Entitätenreferenzen, mit und an dem während des Tutorials gearbeitet werden wird, stellen wir ein heterogenes, manuell annotiertes Korpus sowie die Routinen zur Evaluation und zum Vergleich von Annotationen zu Verfügung. Das Korpus enthält Entitätenreferenzen, die im „Center for Reflected Text Analytics“ (CRETA) in den letzten zwei Jahren annotiert wurden, und deckt Texte verschiedener Disziplinen und Sprachstufen ab.

CRETA bei der DH 2017

CRETA beteiligte sich bei der DH 2017, der diesjährigen Internationalen Konferenz der Digital Humanities in Montréal, mit folgenden Beiträgen.

  • From Text to Networks: Combining Entity and Segment Annotations in the Analysis of Large Text Corpora
    (Nils Reiter, Maximilian Overbeck, Sandra Murr)

    Dieser Halbtages-Workshop bot Praxiserfahrung beim Erproben eines vollständig erarbeiteten und getesteten Arbeitsablaufs, der im Centrum für reflektierte TextAnalyse entwickelt worden war. Der Schwerpunkt lag auf der validen und zuverlässigen Erkennung verschiedener Arten von Entitäten und Segmenten in nicht vorverarbeiteten und nicht annotierten Texten und der Gewinnung von Informationen über charakteristische Beziehungen anhand von Netzwerk-Visualisierungen. Das Interesse an Netzwerken für die Datenrepräsentation und -visualisierung ist seit Kurzem sehr hoch, und wir glauben, dass unser dreistufiger Arbeitsablaufplan auf viele Forschungsfragen in den Sozial- und Geisteswissenschaften übertragbar ist.

Wissenschaftliche Artikel:

  • Interactive Visual Exploration of the Regesta Imperii
    (Markus John, Christian Richter, Steffen Koch, Andreas Kuczera, Thomas Ertl)
  • Prototypical Emotion Developments in Adventures, Romances, and Mystery Stories
    (Evgeny Kim, Sebastian Pado, Roman Klinger)
  • Digital Analysis Of The Literary Reception Of J.W. V. Goethe’s Die Leiden Des Jungen Werthers
    (Sandra Murr, Florian Barth)
  • A Shared Task for a Shared Goal: Systematic Annotation of Literary Texts
    (Nils Reiter, Evelyn Gius, Jannik Strötgen, Marcus Willand)
  • Towards a Digital Narratology of Space
    (Gabriel Viehhauser-Mery, Florian Barth)

CRETA bei der DHd 2017 in Bern

Unter dem Thema „Digitale Nachhaltigkeit“ fand vom 13. – 17. Februar 2017 an der Universität Bern die 4. Tagung des Verbands „Digital Humanities im deutschsprachigen Raum e.V.“ statt. In verschiedenen Formaten und unter verschiedenen Gesichtspunkten wurde in acht Workshops, zwölf Vortragsslots, acht Panels, drei Keynotes und diversen Postern das Tagungsthema diskutiert. Dabei ging es u.a. um digitale Editionen, Visualisierung und Modellierung sowie um den Erhalt digitaler Daten, deren Repräsentation und Kompatibilität.

( Details lesen )

Für uns begann die Woche Dienstagmorgen mit dem von uns mitorganisierten Workshop CUTE (CRETA Unshared Task zu Entitätenreferenzen). Bei diesem wurden andere Forschungsgruppen dazu aufgefordert, sich mit Bezug zu ihren eigenen Forschungsfragen mit dem im Rahmen des Projekts entstandenen Datensatz zu Entitäten in unterschiedlichen Textsorten zu beschäftigen. Hervorzuheben war die Heterogenität unserer Daten, die sowohl aus den Sozialwissenschaften als auch aus der älteren und neueren Literaturwissenschaft stammen. Im Workshop wurde das Konzept von Entitäten als ein textübergreifender Baustein vorgestellt, das dem Textverständnis dient und für forschungsspezifische Fragestellungen anschlussfähig ist. Trotz geringer Beteiligung am Unshared Task fand der Workshop bei den Teilnehmern vor Ort regen Anklang.

Am Donnerstag ging es im Vortrag von Gabriel Viehhauser und Florian Barth um eine spezifische Entität: die digitale Modellierung des Raums. Es wurden erste Ergebnisse zur Operationalisierung des Raumkonzepts in literarischen Texten vorgestellt und netzwerkgraphisch visualisiert.

Am Nachmittag diskutierten Nils Reiter und Marcus Willand gemeinsam mit Peer Trilcke, Frank Fischer, Nanette Rißler-Pipka und Christof Schöch über Methoden der quantitativen Dramenanalyse. Es wurden drei verschiedene Ansätze präsentiert und in einer Podiumsdiskussion reflektiert. Dabei wurde einerseits die Beziehung zwischen dem literaturwissenschaftlichen Gegenstand und der computergestützten Methode, andererseits unter dem Stichwort der Inter-Interpretabilität die Zusammenführung der verschiedenen Ansätze thematisiert, wobei sich die institutsübergreifende Kollaborationsbereitschaft zeigte. Auch das Leitthema der DHd fand Eingang in die Diskussion, indem anhand von Fragen nach Standardformaten und Dokumentationen Möglichkeiten der Nachhaltigkeit besprochen wurden.

Zu guter Letzt stellten wir am Freitagmorgen unseren PoS-Tagger für „das“ Mittelhochdeutsche vor. Für das Training eines Modells für den TreeTagger mussten zunächst semi-automatisch Daten erstellt werden, wofür wir auf die Mittelhochdeutsche Begriffsdatenbank zurückgreifen konnten. Die Daten, die uns von Forschern aus Salzburg zur Verfügung gestellt wurden, sind teils manuell, teils automatisch mit PoS-Tags ausgezeichnet worden, um dann als Trainingsmaterial für ein mittelhochdeutsches Taggermodell zu dienen. Ein sehr interessiertes Publikum gab positive Rückmeldung: Es sei an der Zeit gewesen, diese Lücke für mittelhochdeutsche Texte zu schließen. Die Verfügbarkeit eines wichtigen Vorverarbeitungswerkzeugs als Grundlage für weiterführende automatische Analysen wird zukünftig die Möglichkeiten digitaler Methoden auch im Kontext der Mediävistik positiv prägen können.

Die fast schon familiäre Atmosphäre der Tagung lud zum Austausch mit Wissenschaftlern nicht nur aus der eigenen Forschungsrichtung ein, sondern förderte auch den interdisziplinären Kontakt. Denn zuletzt beschäftigten sich alle Teilnehmer mit Möglichkeiten der Konservierung von Daten, Standardisierung von Formaten und der Frage, wie sich Kollaborationen langfristig bewähren können. So zog sich das Thema der Nachhaltigkeit nicht nur durch das Programm, sondern gab auch Anlass zur kritischen Reflektion der Disziplin, womit sich bereits erste Anklänge zum Thema der 5. DHd-Tagung „Kritik der digitalen Vernunft“ im Jahr 2018 in Köln andeuteten.

( Weniger zeigen )

Wir danken für die finanzielle Unterstützung in Form eines Reisestipendiums ermöglicht von der Dürrmüller-Bol-Stiftung.

Von Nora Echelmeyer und Sarah Schulz

CUTE Evaluationsdaten

Die CUTE-Evaluationsdaten sind nun verfügbar. Im zip-Archiv befindet sich ein Unterordner namens eval mit neuen Texten zu den vier Genres (Briefroman, mittelhochdeutscher Artusroman, Parlamentsdebatte, Philosophischer Text).

Das Paket kann hier heruntergeladen werden (ohne Adorno, wegen Copyright). Wer sich vorher schon für das komplette Datenset (inkl. Adorno) registriert hat, kann den Download-Link aus der E-Mail wiederverwenden oder sich hier einen neuen besorgen.

Submissions

Evaluationsdaten für den CUTE shared task (track 1) sollten entweder im XMI oder CoNLL-Format eingereicht werden. Bitte schicken Sie die annotierten Daten bis inkl. Montag, 5. Dezember, an <cute@ims.uni-stuttgart.de>. Bitte geben Sie auch an, welche Genres und Entitätentypen annotiert wurden (wenn nicht alle).