Prace Komisji Geografii Przemysłu Polskiego Towarzystwa Geograficznego (Nov 2016)

Recepta na nienormalność rozkładu i współzależność obserwacji z wykorzystaniem testów randomizacyjnych i testu Mantela – na przykładzie rozmieszczenia zasobów ludzkich w regionach Francji

  • Sławomir Dorocki,
  • Bartosz Jenner

DOI
https://doi.org/10.24917/20801653.302.12
Journal volume & issue
Vol. 30, no. 2

Abstract

Read online

Wykorzystując metody statystyczne w badaniach geograficznych, badacze często spotykają się z problemem niespełnienia przez posiadane dane założeń wymaganych przez liczne testy statystyczne. Dla przykładu wiele tzw. parametrycznych testów statystycznych opartych jest na założeniu normalności rozkładu danych. W praktyce jednak taka supozycja często nie jest zrealizowana, a rażące odchylenie rozkładu danych od rozkładu normalnego (np. rozkład J-kształtny) może prowadzić do wręcz absurdalnych wartości przedziałów ufności (np. przedział ufności dla średniej). Innym często spotykanym problemem z danymi pochodzącymi z badań geograficznych jest przestrzenna współzależność obserwacji. Wzajemne skorelowanie danych może przykładowo odzwierciedlać odległości między miejscami, gdzie te dane pozyskano. Dlatego wyniki pomiarów pochodzące z miejsc położonych w bliskiej odległości mogą być do siebie bardziej podobne niż obserwacje pochodzące z miejsc od siebie oddalonych. W takiej sytuacji oszacowanie wartości p-value dla testów badających zależności między zmiennymi (np. korelacja Pearsona) mogą być bardzo mylące, gdyż klasyczne metody statystyczne zakładają niezależność zmiennych. W powyższych sytuacjach badacz może wykorzystać tzw. testy randomizacyjne, które pozwalają obejść założenia normalności rozkładu czy niezależności obserwacji. Metody te, wraz z możliwością wykonywania złożonych obliczeń przy wykorzystaniu narzędzi informatycznych, stają się obecnie coraz bardziej popularne wśród badaczy. W artykule wyjaśniona została logika testów randomizacyjnych i dwa przykłady ich zastosowania: szacowanie przedziału dla średniej i obliczanie korelacji Mantela wraz z testowaniem jej istotności. W rezultacie przeprowadzonych obliczeń wykazano, że w obydwu przypadkach pominięcie założeń statystycznych prowadzi do otrzymania błędnych wyników. W tekście w celach zobrazowania powyższych metod statystycznych wykorzystano dane obrazujące wielkość i udział zasobów ludzkich dla nauki i techniki (HRST) w regionach Francji oraz tempo zmian tych wartości w czasie i przestrzeni. Obliczenia oparto na darmowym pakiecie statystycznym R oraz arkuszu kalkulacyjnym Excel.

Keywords