Workshop „Text Mining politischer Kommunikation“

Workshop „Text Mining politischer Kommunikation“

NaPoKo-Workshop am 7. Februar 2019 in Duisburg unter der Leitung von Prof. Dr. Andreas Blätte (Universität Duisburg-Essen):

Big Data, Data Mining, Text Mining: Diese Schlagworte sind in den Debatten rund um die neuen Datenwelten im Zeitalter der Digitalisierung schon seit längerem Signalworte für neue technologische und methodologische Möglichkeiten und bisher nicht dagewesene analytische Potentiale. In der jüngeren Debatte um maschinelles Lernen und Künstliche Intelligenz (KI) schwingt neben aller Skepsis die Verheißung mit, dass mühselige Routinen automatisiert, schneller und besser technisch gelöst werden können.

Es muss nicht gleich KI sein, aber genau diese Perspektive der Arbeitserleichterung durch Automatisierung macht Verfahren der maschinellen Erkundung und Auswertung von Texten („Text Mining“) für die Sozialwissenschaften hochattraktiv. Inhaltsanalytische Projekte erforderten traditionell einen hohen Arbeitseinsatz – d.h. ein nennenswertes Team von Codiererinnen und Codierern – so dass sie in aller Regel nur von denjenigen durchgeführt werden konnten, die erfolgreich Forschungsmittel beantragen konnten. Die maschinelle Auswertung von Text, man kann sie auch als computerunterstützte Inhaltsanalyse oder als „Text Mining“ bezeichnen, verspricht hier, dass große Textmengen schneller, besser, und auch egalitärer – von jedermann mit den erforderlichen technischen Fähigkeiten – bearbeitet werden können.

Das „Text Mining“ in den Sozialwissenschaften hat, von dieser Vorstellung getrieben, eine erste Innovations- und Pionierphase bereits längst erlebt: es hat sich ein Repertoire von Tools etabliert, um größere Text-Korpora aufzubauen und auszuwerten. Für die Analyse politischer Kommunikation ist die Kenntnis der wichtigsten analytischen Ansätze mit ihren Potenzialen und Grenzen besonders relevant.

Vor diesem Hintergrund zielt der diesjährige NapoKo-Methodenworkshop darauf ab:

(a) Einen Überblick über die technische und methodische Entwicklung zu vermitteln: ist es erforderlich, Grundkenntnisse einer Programmiersprache zu erwerben? Welche Programmiersprache? Welche Programm-Bibliotheken sind einschlägig? Welches Problem (z.B. Natural Language Processing) lässt sich wie am besten angehen?

(b) Einen Überblick über Standard-Verfahren zu vermitteln: Zählen und Dispersions-Analyse, Kookkurrenz-Analyse und Term-Extraktion, Arbeit mit Diktionären, Topic-Modelling, Machine Learning. Dabei steht die Erprobung der Verfahren am eigenen Rechner im Vordergrund. Welche Möglichkeiten und Grenzen haben diese Verfahren jeweils?

(c) Die technisch gegebenen Möglichkeiten an die Methodologie der sozialwissenschaftlichen Forschung zurückzubinden. Welche sozialwissenschaftlichen Konzepte (z.B. Frames, Narrative) lassen sich mit welchem Verfahren adäquat operationalisieren. Wie lässt sich Validität und Reliabilität sicherstellen?

(d) Zu vermitteln, welche Verfahren für welche Daten geeignet sind, die stets die Eigenheiten eines bestimmten Genres aufweisen. Bei den verschiedenen Datenarten (insb. soziale Medien, Zeitungsberichterstattung) sind vor allem auch die jeweiligen lizenzrechtlichen Rahmenbedingungen zu beachten. Wie kommt man an welche Daten, wie lässt sich die lizenzrechtliche Lage klären?

In die Veranstaltung sind gezielt Elemente eingebunden, in denen die Teilnehmerinnen und Teilnehmer Verfahren selbst erkunden können. Für diese werden die Daten und R-Pakete des PolMine-Projekts genutzt, insbesondere das „polmineR“-Paket und ein Korpus des Deutschen Bundestags („GermaParl“). Falls eine aktive Teilnahme gewünscht ist, sollte der eigene Rechner mitgebracht werden. Für die Installation im Vorfeld steht eine Schritt für Schritt Anleitung unter folgendem Link bereit: https://polmine.github.io/UCSSR/getting_started.html#1

Die Anmeldung für den Workshop erfolgt über:
https://www.uni-due.de/polkomm2019/
oder alternativ per Mail unter: sprecher@napoko.de