Statystyka matematyczna zajmuje się badaniami statystycznymi. Do przeprowadzenia badania konieczne jest wybranie odpowiedniej próby oraz zebranie wyników od tej próby, na podstawie których zostają wyciągnięte wnioski. Wnioski te zostają uogólnione i przełożone na całą populację. W statystyce najważniejsze są dane, a następnie analiza tych danych.
Agregacja danych polega na połączeniu danych z różnych źródeł w nowy plik. Zazwyczaj dane statystyczne są przechowywane w bazach danych, więc w wyniku agregacji danych powstanie po prostu nowa baza danych.
Najłatwiej opisać zjawisko agregacji danych na przykładzie. Przykładem będzie baza danych z danymi. Dla uproszczenia przedstawię tylko małą ilość danych.
Niech będzie dana baza danych, która przechowuje daty oraz liczbę sprzedanych kawałków ciast w pewnej kawiarni. Wybrałam tylko potrzebne dla nas dane, czyli dane z 3 dni ze wszystkich niedziel w marcu do tej pory. Możemy dokonać agregacji danych. Możemy policzyć średnią arytmetyczną sprzedanych kawałków ciast Tiramisu w niedzielę i zapisać tą średnią do nowej tabeli.
|
06.03.2022
|
13.03.2022
|
20.03.2022
|
W-Z
|
180
|
150
|
130
|
Tiramisu
|
70
|
100
|
40
|
Krówka
|
16
|
20
|
30
|
W ten sposób otrzymujemy nową tabelę.
Średnia sprzedaży
|
Niedziela
|
Tiramisu
|
70
|
Możemy oczywiście dalej dokonywać agregacji danych i wyliczać średnią sprzedaży dla innych ciast oraz w inne dni tygodnia. Wyliczać możemy różne miary statystyczne, średnie arytmetyczne, średnie ważone, minimum, maksimum.
Przykładem zastosowania agregacji mogą być wyniki z wyborów. W jednej tabeli przechowywane są wyniki z jednej komisji, następnie agregowane są do tabeli całego województwa, następnie do tabeli całego kraju. Oczywiście jest to przykład bardzo uproszczony, ale na jego podstawie łatwo zrozumieć czym jest agregacja. Innym przykładem zastosowania agregacji jest spis powszechny i jego analiza statystyczna. Cała populacja Polski musi wtedy podać informacje o sobie, na przykład: płeć, wiek, zarobki, miasto zamieszkania czy inne podstawowe dane. Następnie analitycy rządowi mogą agregować uzyskane dane ze względu na wybrane kategorie. Przykładowo ze względu na województwo, powiaty, gminy, wiek lub płeć ankietowanych. Pozwala to im na uzyskanie odpowiedzi na nurtujące pytania oraz wyznaczenie różnych średnich.
Oczywiście agregacja danych nie zawsze jest prosta, ponieważ dane z różnych źródeł mogą się od siebie różnić. Załóżmy, że mamy jedną firmę, w której dwie sekretarki pracują na innych bazach danych. Jedna zapisuje daty w formacie dd-mm-rrrr, a druga zapisuje daty w formacje rrrr-mm-dd. W takim przypadku dane muszą zostać odpowiednio transformowane do jednolitej postaci, aby można było na nich pracować za pomocą metod przetwarzania danych. Oczywiście agregacja danych ręczna jest możliwa na podstawie małej liczby danych, jednak w przypadku dużej ilości danych jest praktycznie niemożliwa. W tym celu istnieją programy i specjalne metody wspierające agregację danych. Optymalizują one procesy. Agregacja danych może być stosowana w różnych dziedzinach, nawet w medycynie. Dzięki różnym badaniom można wykryć podatność ludzi na choroby z uwzględnieniem pewnych cech.
|