Opracowanie:
Regresja logistyczna

Regresja logistyczna

Zweryfikowane

Regresja logistyczna jest jedną z metod regresji, które używane są w statystyce w takich przypadkach, kiedy zmienna zależna znajduje się na skali dychotomicznej, czyli przyjmuje tylko dwie wartości. Natomiast zmienne niezależne w analizie regresji logistycznej przyjmują charakter: porządkowy, nominalny, przedziałowy bądź ilorazowy. Kiedy ma się do czynienia ze zmiennymi nominalnymi i porządkowymi to przekodowuje się je w liczbę zmiennych zero-jedynkowych taką samą bądź o 1 mniejszą od liczby kategorii w jej definicji.

Najczęściej wartości zmiennej objaśnianej informują o wystąpieniu lub niewystąpieniu danego zdarzenia, które chce się prognozować. W takim przypadku regresja logistyczna umożliwia obliczenie prawdopodobieństwa tego danego zdarzenia.

W regresji logistycznej sposób wyrażania prawdopodobieństwa opiera się na szansie. Szansa to stosunek prawdopodobieństwa sukcesu do prawdopodobieństwa porażki. aby ją obliczyć, należy skorzystać ze wzoru:
{displaystyle Odds={frac {p}{1-p}}=e^{alpha }e^{beta x},}
gdzie
z angielskiego oznacza szansę, alpha jest stałą regresji dla regresji logistycznej, beta jest współczynnikiem regresji logistycznej dla -tej zmiennej niezależnej, natomiast x jest zmienną niezależną.
Odwrotne przekształcenie ma postać:
{displaystyle p={frac {Odds}{1+Odds}}.}
Przy obliczaniu szansy ma ona zaletę w porównaniu ze zwykłym zapisem prawdopodobieństwa, ponieważ dla 0<p<1 przyjmuje wartości z zakresu {displaystyle (0,+infty ),} natomiast jej logarytm wartości z zakresu {displaystyle (-infty ,infty ).} Dzięki tej własności do szacowania logarytmu szansy można użyć metody regresji nie ograniczone do przedziału [0,1].

Funkcja przekształcająca prawdopodobieństwo na logarytm szansy nazywana jest logitem. Wyrażana jest wzorem: {displaystyle operatorname {logit} (p)=ln {frac {p}{1-p}}=ln(p)-ln(1-p).}
Natomiast funkcja odwrotna ma postać: {displaystyle p={frac {e^{operatorname {logit} (p)}}{1+e^{operatorname {logit} (p)}}}={frac {1}{1+e^{-operatorname {logit} (p)}}}.}

Regresja logistyczna charakteryzuje się tym, że zmienna objaśniana ma rozkład dwupunktowy o postaci: {displaystyle Y_{i} sim B(p_{i},n_{i}),} dla {displaystyle i=1,dots ,m.} W tym wzorze liczba prób w procesie Bernoulliego n_{i} jest znana, natomiast prawdopodobieństwo sukcesu p_{i} nie jest znane. Bardzo prostym przykładem takiego przypadku jest rozkład odsetka kwiatów, które zakwitną w n_{i} sadzonek. Model zakłada, że istnieje zbiór k zmiennych objaśniających niosących daną informację na temat prawdopodobieństwa sukcesu dla każdej próby Bernoulliego. Takie zmienne objaśniające najlepiej wziąć za k-elementowy wektor losowy {displaystyle X_{i}.} W takim przypadku model wyraża się wzorem: {displaystyle p_{i}=operatorname {E} left(left.{frac {Y_{i}}{n_{i}}}right|X_{i}right).} Modelowany jako liniowa funkcja jest logit nieznanego prawdopodobieństwa sukcesu p_{i} w postaci:
{displaystyle operatorname {logit} (p_{i})=ln left({frac {p_{i}}{1-p_{i}}}right)=beta _{1}x_{1,i}+dots +beta _{k}x_{k,i}.}
Jeśli do modelu wprowadzi się stałą, przez co utworzy się zmienną objaśniającą, która wszędzie ma wartość 1, co oznacza, że ustawia się {displaystyle x_{j,i}=1} dla danego oraz dla wszystkich , to nieznane parametry {displaystyle beta _{j}} często są estymowane metodą największej wiarygodności.
Addytywny wpływ, jaki ma jednostkowa zmiana zmiennej na logarytm ilorazu szans jest interpretacja szacowanego parametru {displaystyle beta _{j}}. Zapisuje się go jako: {displaystyle OR_{AxB}={frac {S(A)}{S(B)}}={frac {frac {P(A)}{1-P(A)}}{frac {P(B)}{1-P(B)}}}={frac {P(A)cdot (1-P(B))}{P(B)cdot (1-P(A))}},}
gdzie A,B są rozpatrywanymi grupami, P jest prawdopodobieństwem wystąpienia zdarzenia w grupie, natomiast S jest odpowiadającą mu szansą. Kiedy ma się do czynienia ze zmiennymi objaśniającymi na skali dychotomicznej to {displaystyle e^{beta }} jest estymacją szansy. Jeśli tak się zdefiniuje model regresji logistycznej to rozpatrywane obserwacje zawsze muszą być od siebie niezależne oraz {displaystyle logit(p_{i})} musi zależeć od zmiennych objaśniających w sposób liniowy.
Model ma równoważne sformułowanie wyrażane wzorem: {displaystyle p_{i}={frac {1}{1+e^{-(beta _{1}x_{1,i}+dots +beta _{k}x_{k,i})}}}.}
Podana forma funkcjonalna ma nazwy: perceptron bądź jednowarstwowa sieć neuronowa.

Powyższe zadanie zostało zweryfikowane przez nauczyciela
To top