Opracowanie:
Estymacja
Estymacja
Estymacja to dział statystyki zajmujący się szacowaniem wartości danej zmiennej w pewnej populacji. Estymację dzielimy na estymację punktową i przedziałową.
Estymacja punktowa to oszacowanie jednej konkretnej wartości, którą przyjmuje dana zmienna w populacji. Estymacja taka może być mniej lub bardziej dokładna, jednak zawsze przyjmujemy jeden konkretny punkt, który według naszej wiedzy jest najbliższy prawdy.
Estymacja przedziałowa to oszacowanie pewnej wartości za pomocą przedziału, w którym według nas znajduje się dana zmienna. Estymację przedziałową stosujemy najczęściej dlatego, że nie posiadamy wystarczająco danych aby określić konkretną wartość czyli estymację punktową, lub po prostu opisujemy zmienną, która nigdy nie będzie miała stałej, określonej wartości.
W celu określenia estymacji przedziałowej operujemy następującymi pojęciami:
·Zmienna losowa – wybrana przez nas wartość, którą chcemy określić. Może być to jakakolwiek informacja, którą można opisać liczbowo – na przykład wiek, wzrost, zarobki, liczba uczniów, średnia ocen itd.
·Przedział ufności – jest to przedział, w którym według nas z danym prawdopodobieństwem znajduje się wybrana zmienna. Przykładowo, jeśli przyjmiemy, że średni wzrost kobiety na świecie to 160cm, a 85% kobiet na świecie ma wzrost pomiędzy 150cm a 170cm, to naszym przedziałem ufności jest (150cm, 170cm), co możemy też zapisać w postaci (150cm < t < 170cm).
·Poziom ufności – jest to współczynnik w postaci 1–α, który określa, z jaką pewnością dana zmienna znajduje się w wybranym przedziale ufności. Bazując na przykładzie wyżej, poziom ufności dla wzrostu w przedziale (150cm < t < 170cm) wynosi 85% czyli 1–α = 0.85.
Rozwiążmy teraz kilka zadań, które pozwolą nam lepiej zrozumieć definicje estymacji punktowej i przedziałowej.
Zadanie 1.
Zawodnicy młodzieżowej drużyny siatkarskiej mają odpowiednio: 11, 12, 12, 13, 13, 14 lat. Używając estymacji punktowej, oszacuj średni wiek zawodnika młodzieżowej drużyny siatkarskiej.
Rozwiązanie:
W tym przypadku najlepszym sposobem estymacji wieku jest obliczenie średniego wieku zawodnika.
Xsr = (11+12+12+13+13+14)/6 = 75/6 = 12.5
W tym przypadku możemy określić na podstawie naszej wiedzy, że średni wiek zawodnika młodzieżowej drużyny siatkarskiej to 12.5 lat. Musimy jednak pamiętać, że mamy jedynie informację na temat dość małej populacji, i przykładowo średni wiek w takiej samej drużynie w innym klubie może być zupełnie inny. Z tą myślą przechodzimy do kolejnego zadania:
Zadanie 2.
Ankieter z firmy X zapytał pięciu informatyków o ich obecną pensję brutto. Z otrzymanych odpowiedzi obliczył średni wynik wynoszący 9000zł brutto.
Ankieter z firmy Y zadał to samo pytanie stu informatykom. Z otrzymanych odpowiedzi również obliczył średni wynik, który wyniósł 11300zł brutto.
Która estymacja punktowa średnich zarobków informatyków jest dokładniejsza, i dlaczego?
Rozwiązanie:
Populacja informatyków jest populacją sporą, w samej Polsce jest ich kilkaset tysięcy. Pytając pięć losowych osób z tak dużej populacji, ankieter z firmy X jest narażony na bardzo duży błąd statystyczny – jest dość duża szansa, że wylosowani przez niego respondenci będą zarabiali znacznie poniżej lub powyżej średniej.
Pytając sto losowych osób z tej populacji, ankieter z firmy Y ma większą pewność, że większość osób poda odpowiedź zbliżoną do średniego wyniku dla całej populacji – zaś pojedyncze odpowiedzi zaniżające lub zawyżające średnią będzie można potraktować za odstępstwo od normy.
Aby otrzymać idealnie dokładną odpowiedź na to pytanie, trzeba by było spytać każdą osobę z całej populacji. Ze względów praktycznych jest to często niemożliwe – dlatego w przeróżnych ankietach, które są przeprowadzane na świecie, bardzo ważne jest zdobycie jak największej i jak najbardziej reprezentatywnej próby badawczej.
Kolejnym ważnym pojęciem w estymacji, a także ogólnie w statystyce jest odchylenie standardowe. Jest to miara określająca, jak bardzo wartości zmiennej w populacji są odległe od średniej. W przypadku, gdy wartości zmiennej są bliskie średniej, odchylenie standardowe jest niskie, a w przypadku, gdy wartości osiągają różne wartości dalekie od średniej, odchylenie standardowe jest większe. Odchylenie standardowe podniesione do kwadratu to wariancja.
Opiszmy odchylenie standardowe za pomocą najprostszego przykładu. Jeśli osoba A zarabia 4000zł, a osoba B zarabia 5000zł, to średnia ich zarobków wynosi 4500zł. Jeśli osoba C zarabia 2000zł, a osoba D zarabia 7000zł, to średnia ich zarobków również wynosi 4500zł. Jednak odchylenie standardowe dla wartości A i B jest mniejsze niż dla C i D, ponieważ są one bliższe średniej.
Znając odchylenie standardowe danej próby, możemy obliczyć między innymi błąd standardowy średniej arytmetycznej, co jest bardzo przydatną informacją w estymacji przedziałowej:
SE = , gdzie s – odchylenie standardowe, n – liczba obserwacji.
Zadanie 3.
Zapytano 25 polskich mężczyzn o ich wagę. Otrzymano średni wynik wynoszący 87kg, a odchylenie standardowe tego wyniku wynosi 30. Określ przedział ufności zakładając, że jest to średni wynik +/- błąd standardowy.
Obliczmy błąd standardowy średniej:
SE = = = = 6
Oznacza to, że średnią wagę polskiego mężczyzny można umieścić w przedziale (87-SE, 87+SE), czyli (81, 93) kg.
Podsumowując, dzięki estymacji możemy oszacować wartość punktową lub przedział wartości pewnej zmiennej bazując na dostępnych danych. Jest to bardzo przydatna umiejętność, gdy chcemy określić wartość pewnej danej z wybraną dokładnością, a nie mamy możliwości obliczenia dokładnego wyniku.