Julius-Kühn-Archiv (Feb 2022)
Named Entity Recognition (NER) von Warndienstmeldungen im Gartenbau: Eine empirische Studie zu Design, Entwicklung und Bewertung der statistischen und Deep-Learning benutzerdefinierten NER-Modelle
Abstract
Anhand gesammelter Pflanzenschutzhinweise und Warnmeldungen wurden Named Entity Recognition (NER) Modelle zur automatischen Erkennung und Klassifizierung von relevanten Begriffen des Gartenbaus (Kulturen, Schaderreger, Pflanzenschutzmittel, BBCH Stadium) erstellt. NER ist eine Teilaufgabe der Informationsextraktion, die darauf abzielt, benannte Entitäten, die in unstrukturiertem Text erwähnt werden, zu finden und in vordefinierte Kategorien einzuordnen. 114 Dateien mit 105737 Wörtern, davon 12295 verschiedene Wörter, wurden verwendet. Mit dem Annotationswerkzeug Prodigy wurden insgesamt 9019 Entitäten annotiert. Es wurden drei verschiedene Modelle trainiert, basierend auf spaCy, Flair und CRF. Alle drei Modelle erzielten ähnlich gute Genauigkeiten (gemittelte F-Werte), spaCy erreichte mit F1=0.8997 die höchste Genauigkeit über alle vier Klassen. Mit dem hier vorgestellten Projekt werden die Voraussetzungen geschaffen, die Inhalte der Vielzahl von Warndienstmeldungen automatisiert zu erschließen und über gezielte Abfragen und Suchvorgänge zugänglich zu machen. Der Beitrag stellt das methodische Vorgehen und einige Analyseergebnisse beispielhaft dar.
Keywords