Opracowanie:
Standaryzacja zmiennych

Standaryzacja zmiennych

Zweryfikowane

Standaryzacja zmiennych, brzmi troszkę trudno. Obiła Ci się już kiedyś ta nazwa? Jeśli tak, a nie pamiętasz co to jest oraz jeśli nigdy nie słyszałeś takiego zagadnienia, przeczytaj ten artykuł.

Na wstępie wytłumaczę Ci, czym jest standaryzacja. Jest to pewnego rodzaju normalizacja zmiennej. Ona zaś polega na tym, że odejmuje się od wartości M, która jest wartością zmiennej średniej z populacji, a potem dzieli się tę wartość przez odchylenie standardowe, które oznaczane jest wielkimi literami SD.

W jakim celu wykonuje się taką standaryzację?
A no po to, aby otrzymać nową zmienną, której
średnia wartość oczekiwana wynosi 0, a odchylenie standardowe wynosi 1. Co więcej, mamy możliwość zmiany zmiennej mianowanej w zmienną niemianowaną. Ale po co to wszystko? Odpowiedź jest bardzo prosta. Dzięki takiemu zabiegowi możemy porównywać średnie pochodzące z wielu źródeł. One mogą być w różnych jednostkach lub różnych skalach, lecz nadal możemy je ze sobą porównywać.

Jakie zmienne mogą podlegać standaryzacji?
Pewnie wydaje ci się, że głównie to będą jakieś skomplikowane zmienne matematyczne. Tutaj cię zaskoczę. Standaryzacji mogą podlegać zmienne, które używamy niemal codziennie, a więc waga, BMI, wiek, ocena w skali Inteligencji Emocjonalnej itp. Poza tym, możemy dzięki tej operacji obliczyć siłę efektu, czy też wykonać tę operację jako wstępny etap przetwarzania przed modelami uczenia maszynowego. Mam tu na myśli grupowanie, algorytm regresji Lasso czy też k-średnie.

Wzór na standaryzację zmiennej wygląda następująco:

Gdzie Z to wynik testu Z, x to obserwowana wartość zmiennej,
to wartość oczekiwana (średnia), to odchylenie standardowe.
Słowami możemy opisać powyższy wzór następująco:
Jeśli chcemy otrzymać wynik wystandaryzowany dla pewnej obserwacji, uwzględniając tym samym parametr rozkładu zmiennej, to wynik odejmujemy od wartości średniej dla danej zmiennej, a otrzymany wynik dzielimy przez wartość odchylenia standardowego.

Otrzymując ten wynik, a więc otrzymując znormalizowaną postać, średnia, a więc wartość oczekiwania wynosi 0, a wariancja wynosi 1. W języku statystycznym możemy powiedzieć, że dzięki standaryzacji zmiennych możemy powiedzieć, jak wiele razy wynik x jest odległy od średniej wartości. Podsumowując, gdy Z=1 oznacza, że wynik jest wyższy o 1 odchylenie standardowe. W przypadku gdy Z=-0,5 otrzymany wynik jest pół odchylenia standardowego niższy od średniej.

Powyższe zadanie zostało zweryfikowane przez nauczyciela
To top