Course Details

Digital Data im Internet (DatAn, Teil I) (DatAn)

Course: 080277 | Time: Mon 10-12 | Room: FNO 02/074 | Term: Summer 2018

Mann

Vorraussetzungen

Anmeldung über eCampusab dem 26.02.2018. Erfolgreicher Abschluss des Methodenmoduls “Methoden der empirischen Sozialforschung”; aktive Teilnahme.

Beschreibung

Im ersten Abschnitt der Veranstaltung liegt der Fokus auf bereits aufbereiteten Daten (z. B. aus der amtlichen Statistik oder sozialwissenschaftlichen Umfragen), die oftmals ohne Antragsverfahren aus dem Internet heruntergeladen werden können. Im Rahmen des Kurses sollen im Hinblick auf sozialwissenschaftliche Fragestellungen entsprechende Datensätze gesucht, methodische Besonderheiten betrachtet und bewertet werden.

Im zweiten Abschnitt liegt der Fokus auf der Datenerhebung im Internet bzw. auf unaufbereiteten Informationen, die mithilfe maschineller Methoden heruntergeladen werden können. Der Vorteil hierbei ist die Skalierbarkeit: Anstatt sich durch 1000-de Seiten „durchzuklicken“ und manuell Daten herunterzuladen, kann man selbiges in einem Bruchteil der Zeit umsetzen und in ein analysefähiges Format überführen. Eine dieser Methoden, das sog. „web scraping“, soll mithilfe der kostenlosen Statistiksoftware R anhand eines konkreten Beispiels vermittelt werden. Welche Fragestellungen mit dieser maschinellen Art der Datenextraktion – im Kontrast zu den aus dem ersten Teil behandelten Datensätzen – betrachtet werden können, soll kritisch diskutiert werden.

Neben einer allgemeinen Einführung in die Statistiksoftware und ersten Anwendungen innerhalb der Software, soll der Kurs die Teilnehmenden dazu in die Lage versetzen selbstständig eine Fragestellung hinsichtlich eines „web scraping“-Projekts zu entwickeln und Grenzen der Methode zu erkennen. Der Kurs richtet sich nicht nur an quantitativ interessierte Studierende. Die vorgestellte Methode eignet sich auch für qualitative Forschungsvorhaben.

Voraussetzungen für Studiennachweise / Modulprüfungen

  • Bearbeitung von kleineren Aufgaben (MP+SN)
  • Schriftliche Hausarbeit bzw. Erstellung von Lernmaterialien (MP)
  • Regelmäßige aktive Teilnahme und gegenseitiges Feedback (MP+SN)

Literatur

  • Munzert, Simon; Rubba, Christian; Meißner, Peter; Nyhuis, Dominic (2015): Automated data collection with R. A practical guide to web scraping and text mining. John Wiley & Sons, Ltd, Chichester, UK.