Известия Алтайского государственного университета (Sep 2022)

Упрощенный показатель силуэта для определения качества кластерных структур

  • Вера Владимировна Журавлева,
  • Анастасия Станиславовна Маничева

DOI
https://doi.org/10.14258/izvasu(2022)4-17
Journal volume & issue
no. 4(126)
pp. 110 – 114

Abstract

Read online

Обсуждаются вопросы, связанные с оценкой качества построения кластерной структуры данных. Приведено описание показателя качества кластеризации, учитывающего характеристики компактности и отделимости кластеров, — показателя силуэта в двух вариантах: классического и упрощенного. Отмечено, что для вычисления классического показателя силуэта на большом массиве данных требуется трудоемкая процедура полного перебора пар объектов. Предложена вариация данного показателя, удобная для оценки кластерных структур, построенных на больших массивах данных, — упрощенный показатель силуэта. Рассмотренный показатель протестирован на модельных данных, по которым было построено несколько вариантов кластерных структур, таких, что отдельные кластеры представляли совокупность мини-кластеров. В качестве объектов при вычислении внутрикластерных и межкластерных расстояний были выбраны центры мини-кластеров с учетом их «веса» (в качестве веса задавалось число объектов в мини-кластерах). По каждой кластерной структуре тестового набора данных был вычислен соответствующий показатель силуэта. Проведенное сравнение значений классического и упрощенного показателей силуэта для каждого набора модельных данных дало адекватную оценку качества кластеризации.

Keywords