Opracowanie:
Analiza głównych składowych
Analiza głównych składowych
Jak możemy wyobrazić sobie analizę głównych składowych?
Zaczniemy nasze rozważania od krótkiego dialogu ojca i córki.
— Tatusiu? Mogę wziąć na wakacje 5 misiów? Chcę wziąć mamę, tatę i dzidzię pingwinków i Papę Smerfa i Smerfetkę.
— Córeczko, już ci mówiłem, że możesz wziąć tylko dwa misie, aby wszystko zmieściło się w aucie.
— A co jeśli ja nie wiem, które wybrać…?
— Spójrz na te wszystkie misie. Spróbuj w głowie przeanalizować, jakie cechy ma każdy z twoich pluszaków, z którym co lubisz robić, którego najczęściej będziesz przytulać i którego najbardziej lubisz. Gdy już to zrobisz i porównasz cechy każdego z misi, wybrałbym te dwa najbardziej różniące się od siebie.
— Hmmm, chyba masz rację. Nie potrzebuję aż pięciu misiów. Wezmę mamę pingwin oraz Smerfetkę. Dzięki twojej pomocy udało mi się ograniczyć ilość pluszaków.
— Widzisz? Dzięki mojej pomocy udało się wyobrazić „dwie grupy”. Z każdej z nich wybrałaś po jednej maskotce.
Czym jest analiza głównych składowych?
Tę część opracowania rozpoczniemy od definicji. Poza nazwą „Analiza głównych składowych” bardzo często możesz się spotkać ze skrótowym oznaczeniem tej analizy – PCA. Dzięki tej analizie mamy możliwość znaleźć prawidłowości, które występują miedzy zmiennymi. Poza tym, redukujemy liczbę zmiennych, które opisują dane zjawisko. Poprzez wyznaczenie składowych, które są kombinacją liniową analizowanych przez nas zmiennych. Jeśli nasza analiza składowych głównych jest przeprowadzona profesjonalnie lub też po prostu dokładnie, może ona nam pozwolić na konkretne wskazanie pewnych zmiennych początkowych. Co ważne, zmienne te mają ogromny wpływ na wygląd kolejnych składowych głównych. Wspomniane składowe główne tworzą grupę jednorodną. Reprezentant grupy w takim wypadku to składowa główna, u której wariancja jest zmaksymalizowana.
Jakie w takim wypadku są pozostałe zmienne – jaka jest idea głównych składowych?
Nie powinna występować korelacja między kolejnymi składowymi
Główne składowe tworzy się po co, aby zmaksymalizować zmienność, która nie została wcześniej wyjaśniona.
O czym musisz pamiętać, aby prawidłowo wykonać analizę głównych składowych?
Z „naszej bazy danych”, które będziemy analizować powinniśmy usunąć skrajne wartości, a więc te, które potocznie odstają od reszty. Skutkiem nie usunięcia ich będą zaburzone wyniki.
Zmienne podczas analizy muszą być wyrażone w tej samej skali. Bardziej fachowo możemy powiedzieć, że należy dokonać standaryzacji zbioru danych.
Mimo tego należy pamiętać, że po takiej analizie w wielu przypadkach może się okazać, że nie ma widocznych podgrup danych zmiennych.