Maschinelles Lernen lernen: Ein CRETA-Hackatorial zur reflektierten automatischen Textanalyse

Wir freuen uns, dass Kerstin Jung und Gerhard Kremer unser Hackatorial am 26. März auf der DHd 2019 (9:00-12:30 im Philosophicum in Mainz) vorstellen können und laden herzlich dazu ein, mitzumachen!

Die Online-Anmeldung ist über das Konferenz-Verwaltungstool für die diesjährige DHd Konferenz möglich.

Kurzbeschreibung

Das Ziel dieses Tutorials ist es, den Teilnehmerinnen und Teilnehmern konkrete und praktische Einblicke in einen Standardfall automatischer Textanalyse zu geben. Am Beispiel der automatischen Erkennung von Entitätenreferenzen gehen wir auf allgemeine Annahmen, Verfahrensweisen und methodische Standards bei maschinellen Lernverfahren ein. Die Teilnehmerinnen und Teilnehmer können beim Bearbeiten von lauffähigem Programmiercode den Entscheidungsraum solcher Verfahren ausleuchten und austesten. Es werden dabei keinerlei Vorkenntnisse zu maschinellem Lernen oder Programmierkenntnisse vorausgesetzt.

Es gibt keinen Grund, den Ergebnissen von maschinellen Lernverfahren im Allgemeinen und NLP-Tools im Besonderen blind zu vertrauen. Durch die konkreten Einblicke in den „Maschinenraum“ von maschinellen Lernverfahren wird den Teilnehmenden ermöglicht, das Potenzial und die Grenzen statistischer Textanalysewerkzeuge realistischer einzuschätzen. Mittelfristig hoffen wir dadurch, den immer wieder auftretenden Frustrationen beim Einsatz automatischer Verfahren für die Textanalyse und deren teilweise wenig zufriedenstellender Ergebnis-Daten zu begegnen, aber auch die Nutzung und Interpretation der Ergebnisse von maschinellen Lernverfahren (d.h. in erster Linie von automatisch erzeugten Annotationen) zu fördern. Zu deren adäquater Nutzung, etwa in hermeneutischen Interpretationsschritten, ist der Einblick in die Funktionsweise der maschinellen Methoden unerlässlich. Insbesondere ist die Art und Herkunft der Trainingsdaten für die Qualität der maschinell produzierten Daten von Bedeutung, wie wir im Tutorial deutlich machen werden.

Neben einem Python-Programm für die automatische Annotierung von Entitätenreferenzen, mit und an dem während des Tutorials gearbeitet werden wird, stellen wir ein heterogenes, manuell annotiertes Korpus sowie die Routinen zur Evaluation und zum Vergleich von Annotationen zu Verfügung. Das Korpus enthält Entitätenreferenzen, die im „Center for Reflected Text Analytics“ (CRETA) in den letzten drei Jahren annotiert wurden, und deckt Texte verschiedener Disziplinen und Sprachstufen ab.

Downloads

Neuer Artikel zur Visualisierung von Figurennetzwerken

Der unter Tools und Demos von der Fachgruppe Visualisierung vorgestellte Ansatz zum „Visuellen Vergleich von Netzwerken“ wurde zur Präsentation auf der PacificVis-Konferenz (23.-26. April in Bangkok) angenommen.

Figurenbeziehungen in unterschiedlichen Textpassagen
Der Ansatz erlaubt die Analyse der Entwicklung, welche die Figuren eines Erzähltextes und deren Beziehungen über den Lauf einer Handlung nehmen. Hierzu können Graphen, welche die Figurenkonstellationen in mehreren, unterschiedlichen Textpassagen repräsentieren, in einer Reihe von visuellen Repräsentationsformen miteinander verglichen werden. Die Textpassagen selbst werden mit diesen Visualisierungen verschränkt und erlauben die Betrachtung der Figurennennungen in ihrem jeweiligen textuellen Umfeld. Beziehungen zwischen Figuren lassen sich auf Wunsch durch eine Zusammenfassung dieses Umfelds näher charakterisieren. Durch Interaktion mit den Visualisierungen lassen sich die Elemente von Graphen großer, mannigfach verknüpfter Figurenbestände derart filtern und fokussieren, dass die jeweils interessierenden Teilstrukturen augenfällig zu Tage treten.

Graph von Figurenbeziehungen mit fokussierter Teilstruktur
In zwei Anwendungsszenarien wurde demonstriert, wie sich mit unserem Ansatz eine Reihe typischer literaturwissenschaftlicher Analyseaufgaben angehen ließe. Textgrundlage der Szenarien bildeten ein mit automatisch extrahierten Figurenkonstellationen angereicherter Roman in modernem Englisch sowie ein mittelhochdeutscher Text, in welchem die Figuren manuell annotiert worden waren. Die an diesen Texten demonstrierten Aufgaben umfassten:
  • Bereinigung von Fehlern des automatischen Extraktionsverfahrens.
  • Rasche Erschließung der Charakteristika einer Figur und ihrer Funktion im Handlungsgefüge.
  • Erkennen von Figurengruppen, die vornehmlich in einer der selegierten Passagen vorkommen sowie von zentralen „Brückenfiguren“, welche diese Gruppen miteinander verbinden.
  • Charakterisierung der Beziehungen, die zentrale Figuren mit anderen unterhalten.
  • Nachweis der Hypothese, dass der Figurengraph sich über den Lauf einer Serie von Passagen stark verändert.
  • Nachweis der Hypothese, dass diese sukzessiven Konstellationen nur über einige wenige, zentrale Charaktere verbunden sind.
Der Artikel von Markus John, Martin Baumann, David Schuetz, Steffen Koch und Thomas Ertl erscheint unter dem Titel „A Visual Approach for the Comparative Analysis of Character Networks in Narrative Texts“.

Neuer Artikel: Soziale Netzwerkanalysen zum mittelhochdeutschen Roman

Im Themenheft „Digitale Mediävistik“ der Zeitschrift „Das Mittelalter. Perspektiven mediävistischer Forschung“ wird in Kürze ein Artikel über Soziale Netzwerkanalysen zum mittelhochdeutschen Artusroman erscheinen. Der Artikel unternimmt den Versuch, das Verhältnis von Märchen und Artusroman systematisch und methodisch neu zu bestimmen. Hierfür werden in einem ersten Schritt Merkmale des Europäischen Volksmärchens identifiziert, die in einem zweiten Schritt für die computergestützte Analyse operationalisiert und anschließend auf ein Textkorpus aus klassischen Artusromanen (Hartmanns von Aue ‚Erec‘ und ‚Iwein‘, Wolframs von Eschenbach ‚Parzival‘) angewandt werden.
Methodisch greifen wir für die Untersuchung auf das empirische Verfahren der Sozialen Netzwerkanalyse zurück, mit dem wir vor allem Aspekte der Kategorie Figur in den Blick nehmen. Auf diese Weise können wir nicht nur die Nähe der Artusromane zur ‚einfachen Form‘ des Märchens genauer bestimmen, sondern auch das Verhältnis der ausgewählten Romane zueinander differenziert betrachten. Der Beitrag zeigt, dass die vielschichtigen Ergebnisse der datengetriebenen Untersuchung eine eindeutige Interpretation verweigern und damit neue Einsichten in den bekannten Untersuchungsgegenstand ermöglichen können.

Beispiel: Netzwerk zum ‚Parzival‘ (Parzival-Partie)

Das Themenheft „Digitale Mediävistik“ mit diesem Artikel von Manuel Braun und Nora Ketschik erscheint voraussichtlich im Juni 2019.

Neuer Artikel: Die Analyse „weicher“ Konzepte mit „harten“ korpusanalytischen Methoden

Der sozialwissenschaftliche Forschungsschwerpunkt veröffentlichte kürzlich einen neuen Methodenartikel. Darin reflektieren wir, welchen grundsätzlichen methodischen Herausforderungen die theoriegeleitete sozialwissenschaftliche Forschung begegnet, wenn sie ihre Arbeit im Sinne der in den Sozialwissenschaften etablierten Gütekriterien gut machen will.
Wir identifizieren drei grundsätzliche Barrieren: Erstens bereitet es immer noch einen sehr hohen Aufwand, große Textkorpora zu erstellen und aufzubereiten. Zweitens ist das Problem der semantisch validen Operationalisierung komplexer geistes-, sozial- und kulturwissenschaftlicher Begriffe noch völlig unzureichend gelöst. Drittens erlauben viele der für linguistische Fragestellungen designten Tools kaum eine sozialwissenschaftlich anschlussfähige Ergebnisdarstellung. Wir brauchen flexible Optionen der Datenausgabe und Visualisierung, um die mit Hilfe korpuslinguistischer Methoden generierten Daten zur vorhandenen Forschung unseres Faches in Beziehung setzen zu können. Für alle Herausforderungen gilt, dass es hierfür keine „one size fits all“-Lösungen geben kann, weil aus der Perspektive unterschiedlicher wissenschaftlicher Forschungsfragen unterschiedliche methodische Entscheidungen zu treffen bleiben.

Der Artikel von Cathleen Kantner und Maximilian Overbeck ist Teil des Sammelbands Computational Social Science, der von Andreas Blätte, Joachim Behnke, Kai-Uwe Schnapp und Claudius Wagemann herausgegeben wurde: https://www.nomos-elibrary.de/10.5771/9783845286556-163/8-die-analyse-weicher-konzepte-mit-harten-korpusanalyti-schen-methoden

Der Fontane-Code

Ein CRETA-Team nimmt am kommenden Wochenende am Fontane-Hackathon „Der Fontane-Code“ teil. Das Team besteht aus Sandra Murr, Sarah Schulz, Tim Strohmeyer und Nils Reiter und arbeitet an den Besonderheiten Fontanes im Vergleich mit seinen Zeitgenossen:

Als wiederkehrende Charakteristika werden in den Werken Theodor Fontanes gerne die historischen Referenzräume, die vertikalen Handlungsentwicklungen, der auktoriale Erzählgestus, die Charakterisierung der Figuren im Dialog sowie die Ironie und Humor als Stilmittel herausgestellt.
In unserem Projekt möchten wir uns mithilfe von computergestützten Analysen der Auffindung von diesen und weiteren Aspekten des Erzählstils Fontanes auf Textebene annähern. Wir fokussieren dabei Sprachstrukturen, linguistische Eigenschaften sowie sprach-strukturelle und semantisch-inhaltliche Merkmalen. Um die Besonderheit dieser Aspekte für die Werke Fontanes herauszuarbeiten, ziehen wir Texte zeitgenössischer Autoren wie Wilhelm Raabe und Gottfried Keller zum Vergleich heran und erwirken so eine quantitative und kontrastive Charakterisierung fontanespezifischer Stilmittel.

Kurs: Reflektierte Textanalyse in den Digital Humanities

Im Rahmen der European Summer University in Digital Humanities geben Sarah Schulz und Nils Reiter einen Kurs zur reflektierten Textanalyse:

Der Workshop gibt einen Einblick in die reflektierte Textanalyse und deckt verschiedene, dafür relevante Themen ab. Kernidee dabei ist, den “Vorhang zu Lüften”: Die Teilnehmerinnen und Teilnehmer lernen dabei, wie reflektierte Textanalyse praktisch funktioniert, so dass sie im Anschluss an den Workshop auch angewendet werden kann. Themen des Workshops werden sein: Annotation und Konzeptentwicklung durch Annotation, Programmieren mit Python, Maschinelles Lernen in Theorie und Praxis. Die Teilnehmerinnen und Teilnehmer werden an ihren eigenen Programmen und Daten arbeiten können, und selbst programmieren und statistische Modelle trainieren. Vorkenntnisse sind nicht erforderlich, aber ein Laptop und eine Internetverbindung.

Werkstatt-Treffen: Netzwerkanalyse

Im Rahmen des CRETA-Projekts findet ein öffentliches Werkstatt-Treffen statt, zu dem externe Gastvortragende eingeladen sind (Vortrags- und Diskussionssprache ist Englisch).

Das Programm  für Mittwoch, den 14. März 2018:

• 09:00 Nils Reiter, CRETA
Welcome & Introduction

• 09:15 Nora Ketschik, Evgeny Kim & Florian Barth, CRETA
Extracting Character Networks from Arthurian Romances and Werther
Adaptations

• 10:30 Coffee break

• 11:00 Yannick Rochat, Université de Lausanne
Character Network Analysis: A Review

• 12:30 Lunch break

• 14:00 Andreas Kuczera, Akademie der Wissenschaften und der Literatur, Mainz
Regesta Imperii as a Network of Entities

• 15:30 Coffee break

• 16:00 Frederik Elwert, Ruhr-Universität Bochum
Adding Meaning to Literary Networks. A Networked Topic Model of
the Mahābhārata

• 17:30 Closing discussion

• 18:00 End (ca.)

Das Programm zum Download als PDF: Agenda-WS5.PDF

Stuttgart auf der DHd 2018

Logo DHd 2018

Auf der in knapp zwei Wochen stattfindenden DHd-Konferenz 2018 kommen erfreulicherweise eine ganze Reihe Beiträge aus Stuttgart, viele davon sind CRETA-Beiträge:

  • Mo., 26.02., 14-17:30, Workshop: Maschinelles Lernen lernen: Ein CRETA-Hackatorial zur reflektierten automatischen Textanalyse (Nils Reiter, Nora Ketschik, Gerhard Kremer, Sarah Schulz)
  • Mi, 28.02., 9:00-10:30, Vortrag: A Reporting Tool for Relational Visualization and Analysis of Character Mentions in Literature (Florian Barth, Evgeny Kim, Sandra Murr, Roman Klinger)
  • Mi., 28.02., 11:00-12:30, Vortrag: Was Lesende denken: Assoziationen zu Büchern in Sozialen Medien (Jens Beck, Marcus Willand, Nils Reiter)
  • Do., 01.03., 9:00-10:30, Vortrag: Quantitatives „close reading“? Vier mikroanalytische Methoden der digitalen Dramenanalyse im Vergleich (Benjamin Krautter)
  • Do., 01.03., 11:00-12:30, Vortrag: Digitale Modellierung von Figurenkomplexität am Beispiel des Parzival von Wolfram von Eschenbach (Manuel Braun, Roman Klinger, Sebastian Padó, Gabriel Viehhauser)
  • Do., 01.03., ab 17:45, Poster: SustainLife – Erhalt lebender, digitaler Systeme für die Geisteswissenschaften (Johanna Barzen, Jonathan Blumtritt, Uwe Breitenbücher, Simone Kronenwett, Frank Leymann, Brigitte Mathiak)
  • Do., 01.03., ab 17:45, Poster: Entitäten im Fokus am Beispiel von Captivity Narratives (Linda Kessler, Tamara Braun, Tanja Preuß)
  • Do., 01.03., ab 17:45, Poster: NLP meets RegNLP meets Regesta Imperii (Andre Blessing, Andreas Kuczera)
  • Do., 01.03., ab 17:45, Poster: Verhaltensmuster in Massendiskursen: Ein Opinion Dynamics – Modell (Malte Heckelen)
  • Do., 01.03., ab 17:45, Poster: Die Max-Bense-Collection. Digitale Re-Publikation von Erstausgaben mit erweiterten Plattformfunktionen (Claus-Michael Schlesinger)
  • Fr., 02.03., 11:00-12:30, Vortrag: SANTA: Systematische Analyse Narrativer Texte durch Annotation (Evelyn Gius, Nils Reiter, Jannik Strötgen, Marcus Willand)

Maschinelles Lernen lernen: Ein CRETA- Hackatorial zur reflektierten automatischen Textanalyse

Logo DHd 2018

Wir freuen uns, dass unser Hackatorial im Rahmen der DHd 2018 stattfinden kann, und laden herzlich dazu ein mitzumachen! Die Veranstaltung findet statt am Montag, 26.02.2018, von 14 bis 17:30 Uhr. Anmeldungen sind im Zuge der allgemeinen Konferenzanmeldung möglich.

Ziel unseres Hackatorials ist es, den Teilnehmerinnen und Teilnehmern konkrete und praktische Einblicke in einen Standardfall automatischer Textanalyse zu geben. Am Beispiel der automatischen Erkennung von Entitätenreferenzen gehen wir auf allgemeine Annahmen, Verfahrensweisen und methodische Standards bei maschinellen Lernverfahren ein. Die Teilnehmerinnen und Teilnehmer können beim Bearbeiten von lauffähigem Programmiercode den Entscheidungsraum solcher Verfahren ausleuchten und austesten. Es werden keinerlei Vorkenntnisse zu maschinellem Lernen oder Programmierkenntnisse vorausgesetzt.

Es gibt keinen Grund, den Ergebnissen von maschinellen Lernverfahren im Allgemeinen und NLP-Tools im Besonderen blind zu vertrauen. Durch die konkreten Einblicke in den „Maschinenraum“ von maschinellen Lernverfahren wird den Teilnehmenden ermöglicht, das Potenzial und die Grenzen statistischer Textanalysewerkzeuge realistischer einzuschätzen. Mittelfristig hoffen wir dadurch, den immer wieder auftretenden Frustrationen beim Einsatz automatischer Verfahren für die Textanalyse und deren teilweise wenig zufriedenstellender Ergebnis-Daten zu begegnen, aber auch die Nutzung und Interpretation der Ergebnisse von maschinellen Lernverfahren (d.h. in erster Linie von automatisch erzeugten Annotationen) zu fördern. Zu deren adäquater Nutzung, etwa in hermeneutischen Interpretationsschritten, ist der Einblick in die Funktionsweise der maschinellen Methoden unerlässlich. Insbesondere ist die Art und Herkunft der Trainingsdaten für die Qualität der maschinell produzierten Daten von Bedeutung, wie wir im Tutorial deutlich machen werden.

Neben einem Python-Programm für die automatische Annotierung von Entitätenreferenzen, mit und an dem während des Tutorials gearbeitet werden wird, stellen wir ein heterogenes, manuell annotiertes Korpus sowie die Routinen zur Evaluation und zum Vergleich von Annotationen zu Verfügung. Das Korpus enthält Entitätenreferenzen, die im „Center for Reflected Text Analytics“ (CRETA) in den letzten zwei Jahren annotiert wurden, und deckt Texte verschiedener Disziplinen und Sprachstufen ab.