Profil

Abteilung Computational Social Science

CSS liegt an der Schnittstelle zwischen Sozial- und Computerwissenschaften. Soziale Phänomene stehen dabei im Mittelpunkt des Erkenntnisinteresses, diese werden allerdings mit bislang in den Sozialwissenschaften wenig genutzten Datentypen und Verfahren analysiert.
Konkret geht es z.B. um die Nutzung von prozessgenerierten Daten, also etwa Plenarprotokolle des Bundestags, wissenschaftliche Texte und Kollaborationen oder Messages in Social Media Kanälen (etwa Tweets). Methodisch vereint CSS klassische Inferenzstatistik mit iterativen Rechenregeln (also Algorithmen) oder Bayesianischen Wahrscheinlichkeitsklassifikationen. Diese werden dann beispielsweise dazu genutzt um Themen in großen Mengen an Text zu erkennen, Wirtschaftswachstum zu prognostizieren oder soziale Beziehungen aufgrund basaler sozialer Attribute vorherzusagen.
Neben der Aufbereitung vielfältiger Datentypen und der Entwicklung innovativer Methoden ist in unserer Gruppe aber auch deren „sozialwissenschaftliche Passung“ ein wesentlicher Teil der Aufgabe. D.h. uns geht es auch darum die Validität und Reliabilität der Daten sowie die theoretische Anschlussfähigkeit der Analysemethoden sicherzustellen.

Die thematischen Schwerpunkte der Abteilung auf einen Blick:

Machine learning bezeichnet im Allgemeinen einen Prozess, in welchem Computer von Daten lernen. Machine learning kann als eine der wichtigsten Methoden der Künstlichen Intelligenz verstanden werden.

Generell werden „supervised“ und „unsupervised learning“ Algorithmen unterschieden:

  • Supervised machine learning (Link) benötigt sowohl Input als auch Output-Daten, um den Lernprozess voranzutreiben (z.B. Naive Bayes Klassifizierungen). Dem Programm werden durch einen Trainingsdatensatz Beispiele für Klassifikationen als Grundlage geliefert, h. Outputs werden sogenannte „features“ der Daten zugeordnet. Jedem Input wird ein erwünschter Output zugeschrieben. Der Algorithmus versucht anschließend aus dem Trainingsdatensatz die bestmögliche Klassifikation für weitere Daten abzuleiten. Man ist dann in der Lage, unbekannte Daten zu klassifizieren und einzuordnen. Eine Einführung in die Thematik kann hier gefunden werden
  • Unsupervised machine learning versucht mit Hilfe von nicht-zugeordneten Daten (also ohne Trainingsdaten) Muster in Daten zu erkennen und sie zu gruppieren (z.B. Cluster-Analyse, Topic Modeling). Die Gruppen werden aufgrund statistischer Gemeinsamkeiten und Unterschiede eingeteilt. Es wird also nicht auf bereits bestehende Klassifikationen wie bei (i) zurückgegriffen, sondern die Muster „aus den Daten heraus“ abgebildet.

Eine Einführung in die Thematik kann hier gefunden werden.

Die Soziale Netzwerkanalyse (SNA) beschreibt Relationen zwischen Akteuren und untersucht die Bedeutung von Netzwerkstrukturen (z.B. Gatekeeper- oder Brokerpositionen) für soziale Integration, ökonomische oder politische Prozesse oder allgemeine gesellschaftliche Entwicklungen. Das rasch expandierende Forschungsfeld ist getrieben von relationalen Maßzahlen für akteursbasierte Netzwerkpositionen (z.B. „Centrality“ von Akteuren) und Strukturangaben für die Beschreibung von Gesamtnetzwerken (z.B. die Identifikation von „Communities“). Im letzten Jahrzehnt wurden zahlreiche Fortschritte beim Verständnis der Dynamiken und der Modellierung von Netzwerken erzielt (z.B. durch „Exponential Random Graph“ oder „Stochastic Actor-Oriented“ Modellen).

Natural Language Processing (NLP) steht an der Schnittstelle von Computer Science und Linguistik. Es wird versucht mit Hilfe von Computern natürliche Sprache zu erfassen („natural language understanding“), zu klassifizieren („speech recognition“) und zu analysieren. Hierdurch findet diese Methode auch zahlreiche Anwendungen in den Sozialwissenschaften, bspw. können große Textcorpora „automatisch“ zusammengefasst und auf ihre zentralen Dimensionen reduziert werden („Topic Models“). Damit können breite Diskurse quantitativ und über lange Zeiträume abgebildet werden. Anwendungsgebiete hierfür sind die Analyse prozessgenerierter Daten, beispielsweise Plenarprotokolle des deutschen Bundestages, Tweets, aber auch Zeitungsartikel.

Zum Seitenanfang