Gradacyjna analiza danych – Wikipedia, wolna encyklopedia
Gradacyjna analiza danych (ang. grade data analysis, grade correspondence analysis) – dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.
Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej.
Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.
Podstawy teoretyczne
[edytuj | edytuj kod]Gradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.
Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:
- T. Kowalczyk, E. Pleszczyńska, F. Ruland: Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. (red.). Berlin Heidelberg New York: Springer Verlag, 2004, seria: Studies in Fuzziness and Soft Computing vol. 151.
- E. Pleszczyńska, W. Szczesny. Grade exploratory methods applied to some medical data sets. „Biocybernetics and Biomedical Engineering”. Vol. 22, 1, s. 17 - 30, 2002.
Wizualizacja
[edytuj | edytuj kod]W gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.
Zobacz też
[edytuj | edytuj kod]Linki zewnętrzne
[edytuj | edytuj kod]- GradeStat. gradestat.ipipan.waw.pl. [zarchiwizowane z tego adresu (2007-07-01)]. - darmowy program implementujący algorytmy gradacyjnej analizy danych
- Wybór prac naukowych związanych z gradacyjną analizą danych