نشریه مهندسی معدن (Feb 2020)

کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره

  • حمید گرانیان,
  • زهرا خواجه میری

DOI
https://doi.org/10.22034/ijme.2020.37386
Journal volume & issue
Vol. 14, no. 45
pp. 63 – 82

Abstract

Read online

تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی داده‌های ژئوشیمیایی ورقه 100000/1 روم با ماتریس داده 41×902 بررسی شده است. برای این منظور ابتدا روش ilr برای باز کردن سیستم عددی داده‌ها بکار رفته و سپس داده‌ها در بازه صفر تا یک استاندارد شده است. نتایج پیاده شده چهار الگوریتم فوق بر روی مجموعه داده‌های استاندارد شده، نشان می‌دهد که در رویکرد تشخیص نمونه‌های دارای خطا، 10 نمونه که دارای بالاترین احتمال خارج از ردیف بودن هستند و در هر چهار الگوریتم نیز یکسان می‌باشند را می‌توان برای بررسی بیشتر به عنوان نمونه‌های انتخابی برای نمونه‌برداری تکراری در نظر گرفت. در رویکرد تشخیص نمونه‌های غیر نرمال، از 150 نمونه‌ی انتخابی 5/74% از نمونه‌ها در هر چهار الگوریتم و 1/16% و 4/9% نیز به ترتیب در یک و دو الگوریتم به عنوان داده‌ی خارج از ردیف شناسایی شده است. مقایسه نتایج الگوریتم‌های انتخابی با روش کلاسیک فاصله ماهالانوبیتس نشان دهنده‌ی برتری آنها در هر دو رویکرد است. همچنین پیشنهادی می‌شود از الگوریتم‌های تشخیص داده‌های خارج از ردیف چند متغیره می‌توان برای تعیین نمونه-برداری‌های تکراری، محاسبه ماتریس موقعیت و پراکندگی در آمار چند متغیره مقاوم پس از حذف داده‌های غیر نرمال و تعیین آنومالی‌های ژئوشیمیایی استفاده کرد.

Keywords