Automatika (Oct 2018)

Parallel mining of uncertain data using segmentation of data set area and Voronoi diagrams

  • Ivica Lukić,
  • Željko Hocenski,
  • Mirko Köhler,
  • Tomislav Galba

DOI
https://doi.org/10.1080/00051144.2018.1541645
Journal volume & issue
Vol. 59, no. 3-4
pp. 349 – 356

Abstract

Read online

Clustering of uncertain objects in large uncertain databases and problem of mining uncertain data has been well studied. In this paper, clustering of uncertain objects with location uncertainty is studied. Moving objects, like mobile devices, report their locations periodically, thus their locations are uncertain and best described by a probability density function. The number of objects in a database can be large which makes the process of mining accurate data, a challenging and time consuming task. Authors will give an overview of existing clustering methods and present a new approach for data mining and parallel computing of clustering problems. All existing methods use pruning to avoid expected distance calculations. It is required to calculate the expected distance numerical integration, which is time-consuming. Therefore, a new method, called Segmentation of Data Set Area-Parallel, is proposed. In this method, a data set area is divided into many small segments. Only clusters and objects in that segment are observed. The number of segments is calculated using the number and location of clusters. The use of segments gives the possibility of parallel computing, because segments are mutually independent. Thus, each segment can be computed on multiple cores. Paralelno klasteriranje nesigurnih podatka koristeći se segmentacijom područja podataka i Voronojevim dijagramima. Klasteriranje podataka s nesigurnošću je vrlo proučavano područje u velikim bazama nesigurnih podataka. U takvim bazama podataka teško je pronaći korisne podatke u mnoštvu podataka s nesigurnošću. U ovom radu proučavano je klasteriranje objekata koji imaju nesigurnost položaja. Većina pokretnih objekata, kao što su mobilni uređd-aji, periodički izvještava svoj položaj, stoga je njihov položaj neprecizan te se mora opisati funkcijom gustoće vjerojatnosti. Broj objekata u bazi podataka može biti jako velik i doći do točnih podataka je izazovan zadatak i zahtijeva puno vremena. Sve metode za klasteriranje nesigurnih podataka koriste slične principe. Ovim radom predložen je nov pristup. Prvo je dan pregled postojećih metoda, a nakon toga predložena je nova metoda za paralelno klasteriranje nesigurnih podataka. Sve postojeće metode koriste se različitim postupcima pročišćavanja kako bi se izbjeglo računanje očekivane udaljenosti jer ono uključuje numeričke integracije i zahtijeva puno vremena. Predložili smo metodu nazvanu paralelna segmentacija područja podataka. U toj metodi, klastersko područje podijeljeno je u mnogo malih segmenata te se promatraju samo klasteri i objekti u tim malim segmentima. Broj segmenata izračunava se pomoću broja i položaja klastera u prostoru. To nam daje mogućnost za paralelno računanje jer segmenti su međd-usobno neovisni te se tako svaki segment može računati na više procesorskih jezgri.

Keywords