Opracowanie:
Regresja logistyczna
Regresja logistyczna
Regresja logistyczna jest jedną z metod regresji, które używane są w statystyce w takich przypadkach, kiedy zmienna zależna znajduje się na skali dychotomicznej, czyli przyjmuje tylko dwie wartości. Natomiast zmienne niezależne w analizie regresji logistycznej przyjmują charakter: porządkowy, nominalny, przedziałowy bądź ilorazowy. Kiedy ma się do czynienia ze zmiennymi nominalnymi i porządkowymi to przekodowuje się je w liczbę zmiennych zero-jedynkowych taką samą bądź o 1 mniejszą od liczby kategorii w jej definicji.
Najczęściej wartości zmiennej objaśnianej informują o wystąpieniu lub niewystąpieniu danego zdarzenia, które chce się prognozować. W takim przypadku regresja logistyczna umożliwia obliczenie prawdopodobieństwa tego danego zdarzenia.
W regresji logistycznej sposób wyrażania prawdopodobieństwa opiera się na szansie. Szansa to stosunek prawdopodobieństwa sukcesu do prawdopodobieństwa porażki. aby ją obliczyć, należy skorzystać ze wzoru:
gdzie z angielskiego oznacza szansę, jest stałą regresji dla regresji logistycznej, jest współczynnikiem regresji logistycznej dla -tej zmiennej niezależnej, natomiast jest zmienną niezależną.
Odwrotne przekształcenie ma postać:
Przy obliczaniu szansy ma ona zaletę w porównaniu ze zwykłym zapisem prawdopodobieństwa, ponieważ dla przyjmuje wartości z zakresu natomiast jej logarytm wartości z zakresu Dzięki tej własności do szacowania logarytmu szansy można użyć metody regresji nie ograniczone do przedziału [0,1].
Funkcja przekształcająca prawdopodobieństwo na logarytm szansy nazywana jest logitem. Wyrażana jest wzorem:
Natomiast funkcja odwrotna ma postać:
Regresja logistyczna charakteryzuje się tym, że zmienna objaśniana ma rozkład dwupunktowy o postaci: dla W tym wzorze liczba prób w procesie Bernoulliego jest znana, natomiast prawdopodobieństwo sukcesu nie jest znane. Bardzo prostym przykładem takiego przypadku jest rozkład odsetka kwiatów, które zakwitną w sadzonek. Model zakłada, że istnieje zbiór zmiennych objaśniających niosących daną informację na temat prawdopodobieństwa sukcesu dla każdej próby Bernoulliego. Takie zmienne objaśniające najlepiej wziąć za -elementowy wektor losowy W takim przypadku model wyraża się wzorem: Modelowany jako liniowa funkcja jest logit nieznanego prawdopodobieństwa sukcesu w postaci:
Jeśli do modelu wprowadzi się stałą, przez co utworzy się zmienną objaśniającą, która wszędzie ma wartość 1, co oznacza, że ustawia się dla danego oraz dla wszystkich , to nieznane parametry często są estymowane metodą największej wiarygodności.
Addytywny wpływ, jaki ma jednostkowa zmiana zmiennej na logarytm ilorazu szans jest interpretacja szacowanego parametru . Zapisuje się go jako:
gdzie są rozpatrywanymi grupami, jest prawdopodobieństwem wystąpienia zdarzenia w grupie, natomiast jest odpowiadającą mu szansą. Kiedy ma się do czynienia ze zmiennymi objaśniającymi na skali dychotomicznej to jest estymacją szansy. Jeśli tak się zdefiniuje model regresji logistycznej to rozpatrywane obserwacje zawsze muszą być od siebie niezależne oraz musi zależeć od zmiennych objaśniających w sposób liniowy.
Model ma równoważne sformułowanie wyrażane wzorem:
Podana forma funkcjonalna ma nazwy: perceptron bądź jednowarstwowa sieć neuronowa.