Vojnotehnički Glasnik (Jul 2020)

Influence of pre-processing on anomaly-based intrusion detection / Роль предварительного процессирования при обнаружении атак, основанных на аномалиях / Uticaj preprocesuiranja na detekciju napada zasnovanih na anomalijama

  • Danijela D. Protić

DOI
https://doi.org/10.5937/vojtehg68-27319
Journal volume & issue
Vol. 68, no. 3
pp. 598 – 611

Abstract

Read online

Introduction/purpose: The anomaly-based intrusion detection system detects intrusions based on a reference model which identifies the normal behavior of a computer network and flags an anomaly. Machine-learning models classify intrusions or misuse as either normal or anomaly. In complex computer networks, the number of training records is large, which makes the evaluation of the classifiers computationally expensive. Methods: A feature selection algorithm that reduces the dataset size is presented in this paper. Results: The experiments are conducted on the Kyoto 2006+ dataset and four classifier models: feedforward neural network, k-nearest neighbor, weighted k-nearest neighbor, and medium decision tree. The results show high accuracy of the models, as well as low false positive and false negative rates. Conclusion: The three-step pre-processing algorithm for feature selection and instance normalization resulted in improving performances of four binary classifiers and in decreasing processing time. / Введение/цель: Система обнаружения атак, основанных на аномалиях, выявляет вторжение в компьютерную сеть, основываясь на эталонной модели, которая идентифицирует нормальное поведение компьютерной сети, детектируя аномалию. Модели машинного обучения классифицируют вторжения или злоупотребления по двум группам: нормальный трафик или аномалия. Оценка моделей классификаторов является достаточно сложным процессом, так как в сложных компьютерных сетях большое количество обучающих записей. Методы: В данной статье представлен алгоритм выбора атрибутов, который уменьшает множество данных. Результаты: Эксперименты проведены на множестве данных Kyoto 2006+ базы и на четырех моделях классификаторов, с помощью следующих методов: метод нейронной сети с прямой связью, метод k-ближайшего соседа, метод взвешенных kближайших соседей и метод дерева принятия решений. Результаты проведенных экспериментов показали высокую точность моделей. Выводы: Трехступенчатый алгоритм предварительной обработки для выбора атрибутов и нормализации экземпляров обеспечил улучшение характеристик четырех бинарных классификаторов и сократил время обработки данных. / Uvod/cilj: Sistem za detekciju upada koji se zasniva na detekciji anomalije otkriva napad na računarsku mrežu na osnovu referentnog modela koji identifikuje normalno ponašanje računarske mreže i detektuje anomaliju. Modeli mašinskog učenja klasifikuju upade ili zloupotrebe u dve grupe: grupu normalnog saobraćaja i grupu anomalija. U složenim računarskim mrežama broj instanci u obučavajućem skupu može biti veliki, što evaluaciju modela klasifikatora čini teškom. Metode: U radu je prikazan algoritam za izbor atributa koji smanjuje veličinu skupa podataka. Rezultati: Eksperimenti su izvedeni na skupu podataka iz Kyoto 2006+ baze i na četiri modela klasifikatora: modelu feedforward neuronska mreža, modelu k-najbližih suseda, modelu ponderisanih k-najbližih suseda i modelu stabla odlučivanja. Rezultati pokazuju visoku tačnost modela. Zaključak: Preprocesuiranje trokoračnim algoritmom za izbor atributa i normalizaciju instanci rezultiralo je poboljšanjem performansi četiri binarna klasifikatora i smanjilo vreme procesuiranja.

Keywords