Opracowanie:
Dyspersja
Dyspersja
Dyspresja – definicja
Słowo „dyspresja” oznacza „rozmieszczenie” rzeczy na dużym obszarze. W statystyce stopień, w jakim dane liczbowe są „rozłożone” lub „ściśnięte” wokół średniej wartości, nazywa się dyspersją. Krótko mówiąc, jest to dystrybucja danych. Zbiór danych o dużej wartości jest zawsze rozproszony lub ciasno skupiony. Przykład szeroko rozrzuconych danych, to choćby: 0, 30, 60, 90, 120, … i mocno zgrupowanych danych o małej wartości – 1, 2, 2, 3, 3, 4, 4,..
Wariancja, odchylenie standardowe i międzykwartyl to typy dyspersji. Jak wiemy, dyspersja to sposób na opisanie, jak rozproszony jest zbiór danych. Miarą rozproszenia jest zawsze nieujemna liczba rzeczywista, która wynosi zero, jeśli wszystkie dane są takie same i rośnie, gdy dane stają się bardziej zróżnicowane. Miary dyspersji określają jednorodność lub niejednorodność rozproszonych danych. Opisuje również zmienność danych w stosunku do siebie.
Cechy charakterystyczne środków dyspresji:
Są zawsze ściśle określone i zależne od dokonanej obserwacji.
Zrozumienie i obliczenie miar dyspersji jest łatwe.
Wahania obserwacji nie wpływają na miary dyspersji.
Przykład:
Załóżmy, że istnieje zestaw liczb wskazujących wiek osób w dwóch konkretnych lokalizacjach, ulic A i ulicy B. Liczby dla A to: 31, 3, 7, 89, 56, 45, 13, 23, 24, 2, 55. Jak widać na powyższym przykładzie, wspomniany wiek waha się od 2 lat do 89 lat. To jest przykład szeroko rozrzuconych danych w zestawie. Liczny dla ulicy B to: 21, 25, 23, 26, 30, 36, 33, 27, 37, 38. Na tym przykładzie widać, że ludzie są znacznie bliżsi wiekowi, mają tylko 21-38 lat. W tym przykładzie dane są bardziej skupione.
Miary dyspresji
Wyróżnić można miary klasyczne i miary pozycyjne. Do miar klasycznych zalicza się: odchylenie standardowe, wariacja, współczynnik zmienności, odchylenie przeciętne. Z kolei do miar pozycyjnych można zaliczyć: rozstęp, odchylenie ćwiartkowe, współczynnik zmienności.
Rozstęp
Różnica w minimalnej i maksymalnej wartości każdej serii nazywana jest zakresem.Zakres daje przybliżone pojęcie o tym, jak rozproszone są dane, ale potrzebujemy innych miar zmienności, aby znaleźć rozproszenie danych od miar tendencji centralnej.
Przykład:
Załóżmy, że dwóch zawodników ma minimalną i maksymalną liczbę zdobytych punktów w serii.
Zawodnik A – od 0 do 117
Zawodnik B – od 40 do 60
Zatem zakres zawodnika A = 117-0 = 117, natomiast zakres zawodnika B = 60-40 = 20.
Zakres zawodnika A jest większy niż zawodnika B, więc dane w przypadku zawodnika A są bardziej rozproszone niż zawodnika B.
Odchylenie kwartylowe
Słowo kwartyl pochodzi od słowa ćwiartka, które oznacza jedną czwartą. Kwartyl dzieli zestaw danych na cztery równe części. W zestawie danych zawsze występuje liczba najmniejsza, największa i mediana. Środkowa liczba między najmniejszą liczbą a medianą danych nazywana jest pierwszym kwartylem (Q1). Mediana zbioru danych nazywana jest drugim kwartylem (Q2). Środkowa liczba między medianą a największą liczbą nazywana jest trzecim kwartylem (P3). Odchylenie kwartylowe wynosi:
Odchylenie bezwzględne
Odchylenie bezwzględne jest średnią wszystkich wartości bezwzględnych różnic między liczbami w zbiorze, znanymi również jako dane statystyczne, a ich średnią lub medianą. Zazwyczaj bezwzględne odchylenie służy do zrozumienia rozproszenia danych z danych miar tendencji centralnej. Bezwzględne odchylenie zazwyczaj jest średnią albo medianą. Jest ulepszeniem zakresu i zasadniczo mierzy odchylenia od wartości ogólnie znanej jako średnia lub mediana.
Oblicza się ją poprzez: sumę bezwzględnych wartości odchyleń podzieloną przez liczby obserwacji.
Odchylenie standardowe
Wiadomo, że odchylenie standardowe jest jedną z najbardziej preferowanych metod pomiaru odchylenia w porównaniu z innymi miarami dyspersji. Odchylenie jest zawsze obliczane na podstawie średniej odniesienia i zawsze zawiera wartości dodatnie. Podobnie jak odchylenie średnie, nawet odchylenie standardowe można obliczyć dla wszystkich trzech typów szeregów — serii danych indywidualnych, serii danych dyskretnych i serii danych ciągłych. Odchylenie standardowe oznaczono sigma (σ).
Metody obliczania odchylenia standardowego:
Istnieją trzy metody obliczania odchylenia standardowego:
Metoda bezpośrednia – obejmuje następujące etapy: najpierw oblicza się średnią arytmetyczną ze wzoru, a następnie oblicza się odchylenia wszystkich obserwacji od tej wartości średniej. W kolejnym kroku odchylenia te są podnoszone do kwadratu, a ich dodanie dzieli się przez liczbę obserwacji. I wreszcie pierwiastek kwadratowy z powyższych obliczeń daje w wyniku wyprowadzenie odchylenia standardowego.
Metoda „skrócona” – w metodzie tej zakłada się, że do obliczenia odchylenia dowolna wartość losowa leży w połowie zakresu wartości. Przy wyborze wartości ekstremalnej odchylenia byłyby duże przy długich obliczeniach.
Metoda stopniowego odchylenia – odbywa się to poprzez wybór wspólnego współczynnika spośród odchyleń, tak aby po podzieleniu wartości przez ten współczynnik wszystkie wartości odchyleń zostały zredukowane do prostej liczby. Redukcja ta upraszcza obliczenia i dlatego jest bardziej preferowana niż dwie pozostałe metody.
Przykład:
Troje uczniów zdobyło 140, 150, 160 i 130 punktów w teście z matematyki. Jakie jest odchylenie standardowe od średniej liczby zdobytych punktów?
Na początku potrzebujemy średniej arytmetycznej:
Następnie obliczamy wariancję oraz odchylenie: