Establishing standards for human-annotated samples applied in supervised machine learning – Evidence from a Monte Carlo simulation

Corinna Oschatz; Marius Sältzer; Sebastian Stier

doi:10.5771/2192-4007-2023-4-289

Studies in Communication, Media (Dec 2023)

Establishing standards for human-annotated samples applied in supervised machine learning – Evidence from a Monte Carlo simulation

Corinna Oschatz,
Marius Sältzer,
Sebastian Stier

Affiliations

Corinna Oschatz
Marius Sältzer
Sebastian Stier

DOI: https://doi.org/10.5771/2192-4007-2023-4-289
Journal volume & issue: Vol. 12, no. 4
pp. 289 – 304

Abstract

Read online

Automatisierte Inhaltsanalysen sind ein häufig genutztes Instrument zur Beantwortung kommunikationswissenschaftlicher Forschungsfragen. Während Standards für die manuelle Inhaltsanalyse bereits vor Jahrzehnten etabliert wurden, bleibt zu klären, ob diese Standards für den Einsatz manuell generierter Daten im maschinellen Lernen aus- reichen. Wissenschaftler folgen in der Regel einem zweistufigen Verfahren, um mit ihren Modellen qualitativ hochwertige Vorhersagen zu treffen: eine manuelle Inhaltsanalyse, gefolgt von einem Modelltraining mit diesen handcodierten Daten. Bei diesem Vorgehen können allerdings Verzerrungen entstehen, die wir in einer Monte-Carlo-Simulation identifizieren. Simuliert werden (1) Kodierfehler (zufällig, individuell systematisch, gemeinsam systematisch) und (2) Kuratierungsstrategien (ein Kodierer pro Dokument, Mehrheitsregel, vollständige Übereinstimmung) als zwei aufeinanderfolgende Fehlerquellen. Die Ergebnisse zeigen, dass die Übereinstimmung der Codierer vor der manuellen Inhaltsanalyse ein wichtiges Quali- tätskriterium für automatisierte Inhaltsanalysen bleibt. Koeffizienten von mindestens Krippendorff’s Alpha = .8 sind wünschenswert, um zufriedenstellende Vorhersageergebnis- se durch maschinelles Lernen zu erzielen. Systematische Fehler der Codierer (individuelle und gemeinsame) müssen unbedingt vermieden werden. Die besten Ergebnisse erzielen die Kurationsstrategien „ein Kodierer pro Dokument“ oder „Mehrheitscodierung“. Die Studie dient Forschern dazu, zuverlässige Vorhersagen beim Einsatz manueller Inhaltsanalysen im maschinellen Lernen zu erzielen.

Published in Studies in Communication, Media

ISSN: 2192-4007 (Online)
Publisher: Nomos Verlagsgesellschaft mbH & Co. KG
Country of publisher: Germany
LCC subjects: Language and Literature: Philology. Linguistics: Communication. Mass media
Website: https://www.nomos-elibrary.de/zeitschrift/2192-4007

About the journal