Opracowanie:
Big data
Big data
co to jest big data?
big data – duże i złożone zbiory danych, które najczęściej pochodzą z nowych źródeł. Te zbiory są tak duże i zajmują tak duży zbiór wiedzy, że zwykłe oprogramowania nie umieją sobie poradzić z tak dużą ilością danych. Analiza takich zbiorów jest bardzo trudna, ale równocześnie może być bardzo przydatna (dzięki niej można zdobyć nową wiedzę, może zaprowadzić do rozwiązania różnych problemów).
cechy big data
big data posiada 3 najważniejsze cechy:
-ilość
-szybkość
-różnorodność
Model powyżej to model, w którym przedstawiono big data w modelu 3V.
Model ten został jednak uzupełniony:
-wykorzystywanie (należy wykorzystywać najpierw dane)
-wnioskowanie (logiczne i umiejętne wyciąganie wniosków na podstawie danych)
-wzbogacanie (wzbogacanie informacji własną wiedzą i własnymi danymi, dobre jest również korzystanie ze słowników)
-weryfikacja (ważne jest weryfikowanie utworzonych wniosków)
Ten uzupełniony model, który znajduje się powyżej nazywa się modelem 4W.
Big data w dzisiejszych czasach spotykana jest prawie wszędzie, możemy jest spotkać np.:
-w bankach – zbierają dane o ludziach, które są zapisywane przez rzeczy, które zrobią użytkownicy (ludzie) w banku
-w firmach – firmy mogą wypuścić np. stworzoną przez siebie aplikacje, która po pobraniu najczęściej automatycznie ma dostęp do naszych danych
-w portalach społecznościowych – poprzez usługi mogą zbierać dane
wartość i prawdziwość, czyli dwie kolejne cechy
Po kilku latach zwrócono jeszcze uwagę na dwie inne cechy, czyli wartość i prawdziwość. Różne dane mają swoją wartość, ale nie jest ona na nic przydatna dopóki się tej wartości nie znajdzie. Tak samo ważne jest to, czy zgromadzone dane są prawdziwe i w jakim stopniu można im wierzyć.
W dzisiejszych czasach takie dane stanowią całą wagę przedsiębiorstwa, wystarczy popatrzeć na ważne na skale światową firmy zajmujące się technologiami, takie firmy przez cały czas biorą pod uwagę wszystkie dane i je analizują tak, aby jak najlepiej działały i zaspokajały potrzeby użytkowników.
po co jest big data?
big data jest po to, żeby mogła rozwiązać problemy wszędzie gdzie jest duża ilość danych, a do nich trzeba wykorzystać wiedzę.
big data i jej historia
historia big data:
W 2005 roku ludzie dowiedzieli się i zaczęli sobie zdawać sprawę z tego ile danych gromadzą użytkownicy z takimi serwisami jak facebook i inne tego typu serwisy internetowe. Również w 2005 roku powstała platforma hadoop, która powstała specjalnie z myślą o tym, żeby gromadzić i analizować zbiory big data. Rozwój różnych platform takich jak Spark, czy właśnie hadoop było bardzo kluczowe dla big data, ponieważ dzięki nim miała ona ogromny rozwój. Te platformy pomagały, ponieważ dzięki obsługa wszystkich danych była łatwiejsza.
gdzie może zostać zastosowana technologia big data?
Big data może zostać zastosowana m.in do biznesu i jego działań, może też być zastosowana jako wspieranie firmy.
Kilka działań, w których może zostać zastosowana big data zostały przedstawione poniżej:
-obsługa klienta
-rozwój firm
-nauka maszyn
-systemy bezpieczeństwa
-gromadzenie danych w mediach społecznościowych
problemy spowodowane big data
Problemy, które zostały spowodowane big data to takie problemy jakimi są na przykład:
W big data najważniejsze jest przechowywanie wszystkich danych, jest to jednak równocześnie największy problem, spowodowany tym, że wszystkie dane muszą być gdzieś zapisywane, a te wszystkie dane zajmują na prawdę dużo miejsca. Trzeba dane nie tylko przechowywać, ale i o nie dbać, tak aby wszystkie były przydatne. W dodatku z każdym rokiem zdecydowanie rośnie ich ilość, a je trzeba przechowywać. Samo przetwarzanie i trzymanie tych wszystkich danych nie wystarcza, ponieważ należy je nie tylko odpowiednio przygotować, ale i je właściwie selekcjonować. Co ciekawe, osoby zajmujące się danymi spędzają aż około 66% czasu na tym, aby dane zostały przygotowane, ponieważ tak po prostu nie da się ich wykorzystać. Big data ulega dużym zmianą co nie zawsze jest do końca korzystne. Jakiś czas temu, aby można było obsługiwać big data należało mieć Apache Hadoop, a już na początku 2014 roku do obsługiwania trzeba było posiadać Apache Spark. W dzisiejszych czasach najlepiej mieć obie wersje.