Opracowanie:
Naiwny klasyfikator bayesa
Naiwny klasyfikator bayesa
Naiwny klasyfikator Bayesa
W tej notatce dowiesz się co to naiwna metoda Bayesa oraz co to naiwny klasyfikator Bayesa. Nauczysz się również jak obliczać prawdopodobieństwo według tej metody. Poznasz również zastosowanie klasyfikatora, a także dlaczego nazywamy tenże klasyfikator naiwnym. Życzę owocnej lektury!
NAIWNA METODA BAYESA:
Najlepiej wytłumaczyć naiwną metodę Bayesa (a w tym właśnie naiwny klasyfikator Bayesa) na przykładzie. Mamy słoik, w którym znajduje się 20 pomarańczowych kuleczek oraz 10 fioletowych kuleczek. Łącznie mamy więc 30 kuleczek w słoiku. Naszym zadaniem będzie zaklasyfikowanie nowego obiektu (kuleczki), który może pojawić się w słoiku.
W słoiku jest dwa razy więcej pomarańczowych kuleczek niż fioletowych kuleczek. Logicznie więc jest przyjąć, że prawdopodobieństwo pojawienia się pomarańczowej kulki jest dwa razy większe od pojawienia się fioletowej kulki. W analizie Bayesowskiej takie prawdopodobieństwo, które opiera się na wcześniejszych obserwacjach, nazywamy prawdopodobieństwem a priori. Prawdopodobieństwa a priori bardzo często są wykorzystywane w przewidywaniu nieznanych przypadków, zanim one nastąpią.
Nasze prawdopodobieństwo a priori możemy zapisać w następujący sposób:
Prawdopodobieństwo a priori kulki pomarańczowej = kulki pomarańczowe / wszystkie kulki w słoiku —> 20/30
Prawdopodobieństwo a priori kulki fioletowej = kulki fioletowe / wszystkie kulki w słoiku —> 10/30
Mamy już obliczone prawdopodobieństwo a priori. Zaklasyfikujmy więc nową kuleczkę (która na razie nie ma koloru). Jak widać na załączonym powyżej obrazku, więcej jest fioletowych kulek w pobliżu nieznanej kulki. Możemy założyć, że im więcej jest fioletowych kulek w pobliżu nieznanej kulki, tym większe prawdopodobieństwo, że nieznana kulka będzie fioletowa.
szansa, że nieznana kulka będzie fioletowa = liczba fioletowych kulek w pobliżu nieznanej kulki / całkowita liczba fioletowych
szansa, że nieznana kulka będzie fioletowa = 3/10
szansa, że nieznana kulka będzie pomarańczowa = liczba pomarańczowych kulek w pobliżu nieznanej kulki / całkowita liczba pom.
szansa, że nieznana kulka będzie pomarańczowa = 1/20
Z powyższych obliczeń wynika, że patrząc na prawdopodobieństwo a priori nieznana kulka będzie pomarańczowa, ale zwracając uwagę na bliskość kulek – nieznana kulka powinna być fioletowa. Końcowa klasyfikacja w analizie Bayesowskiej bazuje na obu informacjach.
pomarańczowy: prawdopodobieństwo a priori kulki pomarańczowej * szansa, że nieznana kulka będzie pomarańczowa
pomarańczowy:
fioletowy: prawdopodobieństwo a priori kulki fioletowej * szansa, że nieznana kulka będzie fioletowa
fioletowy:
W rezultacie nieznaną kulkę klasyfikujemy jako fioletową kulkę.
NAIWNY KLASYFIKATOR BAYESA:
Naiwny klasyfikator Bayesa to technika uczenia się maszyn. Można ją wykorzystać do klasyfikacji przedmiotów, takich jak dokumenty tekstowe, do dwóch bądź więcej klas. Naiwny klasyfikator bayesowski możemy używać do określania prawdopodobieństwa klas na bazie wielu różnych obserwacji. Przyjmuje się, że zmienne wyrażające cechy są warunkowo niezależne, kiedy bierzemy pod uwagę klasę.
ZASTOSOWANIE NAIWNEGO KLASYFIKATORA BAYESA:
Naiwny klasyfikator Bayesa często jest wykorzystywany w filtrach antyspamowych (np. w emailach). Patrząc właśnie na emaile – słowa użyte w emailu to zmienne wyrażające cechy, a liczba zmiennych wyrażających cechy w modelu jest natomiast określona przez długość emaila.
DLACZEGO NAIWNA?
Zostając już w filtrach – w tym przypadku chodzi o to, żeby rozumieć słowa jako wybrane jedno po drugim, a więc dobór słów zależy wyłącznie od tego, czy dana wiadomość to spam, czy wiadomość pożądana. To jest bardzo uproszczony proces, gdyż zakładamy w ten sposób, że nie istnieje żadna korelacja pomiędzy sąsiednimi słowami oraz kolejność słów jest bez znaczenia.