Принципи побудови хмар тегів даних

К. М. Хараш; О. В. Ольшевська; Ж. А. Титуренко

doi:10.15673/atbp.v12i1.1699

Автоматизация технологических и бизнес-процессов (Mar 2020)

Принципи побудови хмар тегів даних

К. М. Хараш,
О. В. Ольшевська,
Ж. А. Титуренко

Affiliations

К. М. Хараш: Одеська національна академія харчових технологій, вул. Канатна, 112, Одеса, 65039, Україна
О. В. Ольшевська: Одеська національна академія харчових технологій, вул. Канатна, 112, Одеса, 65039, Україна
Ж. А. Титуренко: Одеська національна академія харчових технологій, вул. Канатна, 112, Одеса, 65039, Україна

DOI: https://doi.org/10.15673/atbp.v12i1.1699
Journal volume & issue: Vol. 12, no. 1
pp. 17 – 24

Abstract

Read online

Розглядаються механізми візуалізації для побудови термінологічних хмар. На прикладі JSON, HTML, CSV, XLSX, XML, TXT наведений перелік типів файлів та ресурсів. Проаналізовано можливості добування та збереження вхідних даних. Проведено дослідження аналогічних систем, на основі якого було обрано два оптимальні типи файлів, а саме CSV та TXT. Виявлено підхід формування списку ключових слів для наукових публікацій або виокремлення провідної тематики різних текстів. Встановлено, що у разі необхідністі обробки великих текстів спільної спрямованості, якими наприклад можуть бути літературні твори, наукові статті, судові вироки тощо, достатнім буде використання малих веб-додатків для побудови тегових хмар. Тегові хмари на основі алгоритму k-середніх здатні досить ефективно виявити ключові поняття, найбільш уживані слова та провідні концепції. При порівнянні між собою форматів CSV та TXT, було підтверджено, що швидкість обробки залежить скоріше від об’єму вхідної інформації, ніж від структури файлу. Звідси, можна стверджувати, що використання одного або іншого формату зумовлено вибором користувача. Проведено аналіз з якого відзначено, що формат CSV потребує верхнього рядка, в якому вказують атрибути. Для більшої коректності подальшого аналізу, атрибути слід вказати і формувати кожний наступний рядок даних строго по черзі. Така незначна особливість структури допомагає досліднику орієнтуватися серед набору текстової інформації, а при подальшій обробці перший рядок можна не враховувати. На відміну від попереднього формату, формат TXT не потребує формування першого рядка атрибутів. Це ускладнює візуальне сприйняття наявної інформації. Не рекомендовано вводити атрибути самостійно, в подальшому при обробці це буде впливати на коректність результатів кластеризації в негативний бік.

Published in Автоматизация технологических и бизнес-процессов

ISSN: 2312-3125 (Print); 2312-931X (Online)
Publisher: Odessa National Academy of Food Technologies
Country of publisher: Ukraine
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Automation
Website: http://atbp.onaft.edu.ua/

About the journal

Abstract

Keywords