Applying machine learning in sociology : how to predict gender and reveal research preferences
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Applications of machine learning (ML) in industry and natural sciences yielded some of the most impactful innovations of the last decade (for instance, artificial intelligence, gene prediction or search engines) and changed the everyday-life of many people. From a methodological perspective, we can differentiate between unsupervised machine learning (UML) and supervised machine learning (SML). While SML uses labeled data as input to train algorithms in order to predict outcomes of unlabeled data, UML detects underlying patterns in unlabeled observations by exploiting the statistical properties of the data. The possibilities of ML for analyzing large datasets are slowly finding their way into the social sciences; yet, it lacks systematic introductions into the epistemologically alien subject. I present applications of some of the most common methods for SML (i.e., logistic regression) and UML (i.e., topic models). A practical example offers social scientists a “how-to” description for utilizing both. With regard to SML, the case is made by predicting gender of a large dataset of sociologists. The proposed approach is based on open-source data and outperforms a popular commercial application (genderize.io). Utilizing the predicted gender in topic models reveals the stark thematic differences between male and female scholars that have been widely overlooked in the literature. By applying ML, hence, the empirical results shed new light on the longstanding question of gender-specific biases in academia.
In der Industrie und in den Naturwissenschaften haben Anwendungen des „Maschinellen Lernens“ (ML) einige der einflussreichsten Innovationen des letzten Jahrzehnts hervorgebracht, die das Alltagsleben vieler Menschen verändert haben (z. B. künstliche Intelligenz, Genvorhersage oder Suchmaschinen). Aus methodischer Sicht können wir dabei zwischen „unsupervised machine learning“ (UML) und „supervised machine learning“ (SML) unterscheiden. Während SML annotierte Daten als Input für das Training von Algorithmen verwendet um die Ergebnisse von nicht-annotierten Daten vorherzusagen, erkennt UML zugrundeliegende Muster in unklassifizierten Beobachtungen, indem es die statistischen Eigenschaften der Daten nutzt. Die Möglichkeiten, die ML zur Analyse großer Datenmengen bietet, finden langsam auch ihren Weg in die Sozialwissenschaften. Es fehlt jedoch an systematischen Einführungen in das erkenntnistheoretisch fremd erscheinende Thema. In diesem Beitrag stelle ich daher Anwendungen einiger der gängigsten Methoden sowohl für SML (logistische Regression) als auch UML (Topic Models) vor. Ein praktisches Beispiel bietet Sozialwissenschaftlerinnen und -wissenschaftlern eine „How-to“-Beschreibung für den Einsatz beider Methoden. In Bezug auf die SML wird der Fall anhand der Vorhersage des Geschlechts eines großen Datensatzes von Soziologinnen und Soziologen dargestellt. Der vorgeschlagene Ansatz basiert auf Open-Source-Daten und dessen Performance übertrifft die einer populären kommerziellen Anwendung zu dem Thema (genderize.io). Die Verwendung des vorhergesagten Geschlechts in den Topic Models offenbart starke thematische Unterschiede zwischen männlichen und weiblichen Wissenschaftlern, die in der Literatur bislang weitgehend übersehen wurden. Die Anwendung von ML wirft daher ein neues Licht auf bisherige Erkenntnisse zu geschlechtsspezifischen Unterschieden in der Wissenschaft.