Opracowanie:
Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów

Zweryfikowane

Metoda najmniejszych kwadratów jest to jedna z najstarszych metod obliczeniowych w statystyce, polegająca na dopasowaniu linii prostej do danych. Wspomniana linia musi się znaleźć jak najbliżej każdego wyniku. A dokładniej suma odległości od linii musi być minimalna. Wartości tych odległości mogą być dodatnie jak i ujemne, co może spowodować ich znoszenie się. Aby tego uniknąć przed zsumowaniem należy każdą wartość podnieść do kwadratu. Stąd wzięła się nazwa omawianej metody.
W celu lepszego zobrazowania czym jest metoda najmniejszych kwadratów rozważmy poniższy przykład.

Dany jest zbiór obserwacji:

Przedstawmy te obserwacje na wykresie:

Jak widzimy punkty układają się w taki sposób, że da się wpasować w nie prostą:

Na poniższym wykresie zaznaczone zostały interesujące nas odległości:

Przerywana linia jest wprowadzona metodą najmniejszych kwadratów i nazywana jest linią regresji. Niebieskie punkty obrazują nasze dane. Pionowe, czerwone linie pomiędzy danym punktem, a linią regresji przedstawiają błąd oszacowania modelu. Model ten zakłada, że dla x=3 wartość y powinna wynosić około 3,2. Różnica pomiędzy oszacowaną linią przerywaną, a faktycznym wynikiem to błąd oszacowania.
Linia prosta wprowadzona za pomocą metody najmniejszych kwadratów przebiega w taki sposób, aby suma kwadratów tych błędów była najmniejsza. Każda inna linia poprowadzona pod innym kątem dała by większy ogólny błąd oszacowania (dla wszystkich danych łącznie).

Aby wyliczyć współczynniki regresji (czyli naszej linii prostej) metodą najmniejszych kwadratów należy obliczyć następujące rzeczy:
iloczyn XY,
średnią dla i dla ,
sumę wszystkich X podniesionych do kwadratu ,

Następnie wyliczone wartości podstawiamy do wzorów:
współczynnik b

współczynnik a

gdzie:
X – predyktor,
Y – zmienna zależna,
N – ilość obserwacji.

Równanie linii regresji przedstawia się następująco:
y=bx+a

Wadą metody najmniejszych kwadratów jest to, że jeżeli obserwacje odstające nie zostaną pominięte linia regresji staje się gorzej dopasowana do pozostałych obserwacji. Taka odstająca obserwacja mocno pociąga za sobą linię regresji przez co model przestaje być tak przewidywalny dla innych obserwacji. Zjawisko to widoczne jest poniżej:

Wykorzystane dane różnią się tylko ostatnim punktem. Można by pomyśleć, że skoro linia regresji jest linią najlepszego dopasowania i siedem na osiem punktów jest identycznych w obu przypadkach to różnica nie powinna być duża. Jednak powyższy przykład pokazuje, że każda obserwacja ma wpływ na przebieg linii.
Na pierwszym wykresie widzimy że punkty układają się idealnie w linię prostą, dzięki czemu nie ma problemu z wyznaczeniem linii. Przebiega ona dokładnie przez każdy punkt. Łatwo domyślić się że wartość y dla x=2,5 wynosiłaby 2,5.
Drugi wykres również pokazuje punkty ułożone w idealną linię poza ostatnim punktem, który już na pierwszy rzut oka wygląda na błędny. Jak widać diametralnie zmieniło to przebieg linii regresji. Mimo że rozsądek podpowiada nam, że wartość y dla x=6,5 powinna wynosić 6,5 to wykres ewidentnie pokazuje coś innego. W takim przypadku warto rozważyć nie uwzględnianie wartości odstającej w analizach, gdyż jak widzimy jedna obserwacja może zepsuć całe analizy.

Powyższe zadanie zostało zweryfikowane przez nauczyciela
To top