„Śmieci na wejściu, śmieci na wyjściu”. Wpływ jakości koderów na działanie sieci neuronowej klasyfikującej wypowiedzi w mediach społecznościowych

Paweł Matuszewski

doi:10.24425/sts.2022.141426

Studia Socjologiczne (Jun 2022)

„Śmieci na wejściu, śmieci na wyjściu”. Wpływ jakości koderów na działanie sieci neuronowej klasyfikującej wypowiedzi w mediach społecznościowych

Paweł Matuszewski

Affiliations

Paweł Matuszewski: ORCiD; Collegium Civitas

DOI: https://doi.org/10.24425/sts.2022.141426
Journal volume & issue: no. No 2
pp. 137 – 164

Abstract

Read online

Jedna z głównych decyzji przy ręcznym kodowaniu danych tekstowych dotyczy tego, czy kodowanie ma być weryfikowane. W przypadku modeli nadzorowanych prowadzi to do istotnego dylematu: czy lepszym rozwiązaniem jest dostarczenie modelowi dużej liczby przypadków, na których będzie się uczyć kosztem weryfikacji poprawności danych, czy też zakodowanie każdego przypadku n-razy, co pozwoli porównać kody i sprawdzić ich poprawność, ale jednocześnie n-krotnie zmniejszy zbiór danych treningowych. Taka decyzja może zaważyć nie tylko na ostatecznych wynikach klasyfikatora. Z punktu widzenia badaczy jest istotna również dlatego, że – realistycznie zakładając, że badania mają ograniczone źródło finansowania – nie można jej cofnąć. Wykorzystując 100 tys. unikatowych i ręcznie zakodowanych tweetów przeprowadzono symulacje wyników klasyfikatora w zależności od kontrolowanego odsetka błędnie zakodowanych dokumentów. Na podstawie danych przedstawiono rekomendacje.

Published in Studia Socjologiczne

ISSN: 0039-3371 (Print); 2545-2770 (Online)
Publisher: Polska Akademia Nauk (Polish Academy of Sciences)
Country of publisher: Poland
LCC subjects: Social Sciences: Communities. Classes. Races: Urban groups. The city. Urban sociology; Social Sciences: Sociology (General)
Website: https://www.studiasocjologiczne.pl/

About the journal

Abstract

Keywords