Big Data w teorii i trochę w praktyce

29 czerwca 20138 maja 2021 Ernest Frankowski bazy danych, big data, Business Intelligence, ERP, Hadoop, hurtownia danych

Branża IT co jakiś czas skupia się na poszukiwaniu Następnej Wielkiej Rzeczy (The Next Big Thing). Innymi słowy, pomysłu, idei czy konceptu, który przez kilka kolejnych lat napędzałby całą branżę i byłby jej wizytówką medialną wobec świata zewnętrznego. Takim NWR może być swojego rodzaju moda technologiczna (niedawno Cloud Computing, z którego zrobił się trochę mały deszcz), a może być to też faktyczna, pożyteczna technologia czy pomysł biznesowy. W historii komercyjnej informatyki było już wiele NWR-ów. Chociażby graficzne interfejsy użytkownika systemów operacyjnych, komputer osobisty, chmura (choć to jeszcze aspirujący NWR), wszystko, co się działo wokół smartfonów i tabletów (i ich OS-ów) oraz usługi społecznościowe (Web 2.0). Te koncepty i technologie pozostają wciąż bardzo ważnymi dla gospodarki, ale ich medialny czas powoli mija lub minął. Innymi słowy, są to kwestie już w miarę oswojone (także przez laików – jakkolwiek nie byłoby to sprzeczne stwierdzenie), opatrzone i brak im świeżości, którą ma zawsze nowa i, idealnie, rewolucyjna idea.

Przyszedł czas poszukać kolejnej wielkie idei, będącej potencjalnym kołem zamachowym rozwoju światowej informatyki. Ponieważ informatyka (podobnie jak przyroda) nie znosi próżni, kandydat już się pojawił. Jest (są?) nim tzw. Big Data. Zanim jednak zajmiemy się szerzej tym pojęciem, warto podkreślić, że oznaką bycia NWR-em jest wchodzenie do powszechnej świadomości społecznej, a tym samym do mediów głównego nurtu. A to „robią” Big Data swobodnie i od jakiegoś czasu. Dzienniki i tygodniki rozpisują się o Big Data, akcje marketingowe na Facebooku wiąże się z tym pojęciem, a czasopisma analizujące możliwości młodych ludzi na rynku pracy na wyścigi prezentują rankingi zawodów przyszłości, wśród których brylują te związane z analizą wielkich zbiorów danych. A zatem, czym są Big Data i czy można je uznać za NWR informatyki? Poniżej spróbujemy odpowiedzieć na te pytania.

Szczypta teorii

Intuicyjnie podchodząc do sprawy, Big Data to duże zbiory danych, których rozmiar i zmieniające się parametry (niestrukturalność) uniemożliwiają tradycyjne nimi zarządzanie i analizę. Na potrzeby Big Data (choć niektórzy teoretycy wskazują, że w praktyce jest to zjawisko niedefiniowalne) ukuto także bardzo ładnie wyglądającą (zwłaszcza w wydawnictwach niespecjalistycznych) definicję „4 Vs„. Mianowicie, Big Data to szereg pojęć i działań związanych z pozyskiwaniem, utrzymywaniem i operowaniem na danych charakteryzujących się:

występowaniem w dużej ilości (volume),
dużym zróżnicowaniem (variety),
dużą zmiennością (velocity),
istotną wartością (value).

Powyższe nie zapowiada jeszcze nic rewolucyjnego. Tym niemniej, w pewnym momencie ktoś dostrzegł, że analiza (gdy już się opanuje ją z technicznego punktu widzenia) wielkich zbiorów danych (zamiast wielu mniejszych zbiorów) pozwala uzyskać bardzo szczegółowe i trafne informacje mające zastosowanie w wielu dziedzinach życia i biznesu. Co więcej, okazało się, że wiele firm i instytucji w wyniku swojej codziennej działalności (tj. niejako mimochodem) zbiera olbrzymie ilości danych choćby o użytkownikach internetu i ich zachowaniach, które potencjalnie można byłoby sensownie wykorzystać w celach komercyjnych. W ten sposób narodziło się węższe pojęcie Big Data, oderwane od specyfiki technicznej i związane z danymi, i które jest najczęściej przywoływane we współczesnych publikacjach prasowych.

Big Data to jednak przede wszystkim znany problem (czy też raczej fakt) z zakresu teorii i praktyki nauk informacyjnych. Nie od dziś można bowiem zauważyć, że ilość informacji dostępnej w postaci cyfrowej rośnie w sposób nie poddający się żadnej kontroli. Szacuje się, że codziennie jest tworzonych 2,5 tryliona bajtów danych (trylion to 10¹⁸, czyli 1 000 000 000 000 000 000). Oznacza to olbrzymi przyrost „dano-ton” informatycznych śmieci, ale też dostęp do olbrzymich ilości potencjalnie użytecznych danych. Przykładowo, instytucje dzięki zjawisku Big Data zyskują dostęp do olbrzymich ilości danych referencyjnych i porównawczych, pozwalających symulować procesy fizyczne, geologiczne, biologiczne, społeczne czy historyczne. Już sam zwiększający się zakres czasowy dostępnych danych pozwala „produkować” coraz bardziej wiarygodne informacje o trendach w naukach, od astronomii, przez ekonomię, aż po socjologię.

Chciałoby się zakrzyknąć: „Sky is the limit!”, co jest prawdą, o ile oczywiście skutecznie opanuje się techniczne i sprzętowe wymagania w zakresie operowania na wielkich zbiorach danych. No właśnie, Big Data to najczęściej zbiory danych tak duże, że tradycyjne narzędzia, takie jak relacyjne silniki bazodanowe oraz tradycyjne systemy do raportowania przestają mieć rację bytu. Tradycyjne oprogramowanie przestaje być zdolne do ewidencjonowania, operowania, zarządzania i procesowania takimi danymi. W efekcie, powstają całe nowe technologie, których nawet nazwa wskazuje, do jak wyjątkowego celu służą. Dobrym przykładem jest tutaj podejście do zarządzania wielkimi danymi o wdzięcznej i wiele mówiącej nazwie „NoSQL”.

Odrobina praktyki

Powiedzieliśmy powyżej sporo o potencjalnym zastosowaniu operacji na wielkich zbiorach danych. W tym momencie czytelnik zorientowany w technologiach IT znajdujących zastosowanie w biznesie powinien słusznie zwrócić uwagę, że wszystko to brzmi znajomo i że w biznesie od dawna funkcjonuje pod nazwą Business Intelligence (BI). Software’owymi przedstawicielami BI są choćby tzw. hurtownie danych. Są one niezastąpione w przejmowaniu danych z systemów ewidencyjnych, procesowaniu ich w oparciu o ideał wielowymiarowej kostki informacji i prezentowaniu pożądanych zestawień w formie konfigurowalnych co do treści i formatu raportów. Nie bez powodu zatem hurtowanie danych działają w dużych i bardzo dużych przedsiębiorstwach, a w swojej ofercie mają tego typu oprogramowanie najważniejsi i najwięksi dostawcy programów i pakietów ERP (Enterprise Resources Planning).

Tym niemniej, jest jednak subtelna różnica między BI a rozwiązaniami Big Data. Mianowicie, inny jest typ danych, na których operują narzędzia Big Data i BI, sposób ich pozyskiwania oraz efekt przetwarzania tych danych. Idąc po kolei, dane pozyskiwane z narzędzi BI są bardzo szczegółowe w zakresie przenoszonych informacji oraz bardzo konkretne (ustrukturyzowane). Jeśli zatem do BI przesyłamy dane finansowe z księgi głównej przedsiębiorstwa, wiadomo jakich informacji można się tam mniej-więcej spodziewać. Można się także spodziewać, że będą to informacje o wysokim współczynniku tzw. „cukru w cukrze” (czyli informacji w danych) oraz wysoce wyspecjalizowane (dane jednodziedzinowe – np. w zakresie HR, finansów, kontrolingowe, produkcyjne). A contrario, dane wprowadzane do narzędzi Big Data będą danymi o niższym stopniu upakowania informacją, mniej strukturalne i często wielodyscyplinowe.

Jeśli chodzi o różnice w sposobie pozyskiwania danych do Big Data i BI, to dane przetwarzane w systemach BI do systemu źródłowego są wprowadzane w sposób celowy, ujednolicony i proceduralny (co do zasady). Z kolei dane będące Big Data będą danymi z systemów rozproszonych oraz z systemów, gdzie są one gromadzone w pewnym sensie przypadkowo, często przy okazji realizacji zadań o innym charakterze niż późniejsze analizy tych danych.

Ostatnia główna różnica dotyczy efektów przetwarzania obu typów danych. Wobec „konkretności” danych będących wsadem do BI, są one idealne do podsumowań zarządczych ukierunkowanych na identyfikację trendów (czyli w kierunku przeszłości). Z kolei dane kwalifikowane jako Big Data co do zasady (biorąc pod uwagę ich skalę oraz sposób pozyskania) powinny umożliwić zamodelowanie pewnych zdarzeń lub trendów przyszłych (przewidywanych).

Ta ostatnia różnica poniekąd odpowiada również na pytanie, dlaczego Big Data są uznawane za NWR branży IT. Podmiot, który opanuje technologię prognozowania w oparciu o wielkie zbiory danych pozostawianych np. w sieci przez użytkowników serwisów społecznościowych, gier, usług lokalizacyjnych, serwisów aukcyjnych w pewnym sensie „zdobędzie panowanie nad światem” (do pewnego stopnia sztukę tę opanował Google). No, przynajmniej do momentu znalezienia kolejnej NWR.

Innym, bardziej szlachetnym przykładem zastosowania Big Data jest nauka. Choćby Wielki Zderzacz Hadronów (LHC – Large Hadron Collider) w Laboratoriach CERN pod Genewą. W tunelach ośrodka CERN ma miejsce nawet 600 milionów kolizji cząstek elementarnych na sekundę. Dane wynikające stąd do analizy są liczne w peta i eksabajtach (petabajt: PB – 10¹⁵; eksabajt: EB – 10¹⁸).

Inne ciekawe przykłady to analiza zachowań użytkowników wyszukiwarki Google. W 2010 r. niejaki Tobias Preis przeanalizował zapytania kierowane do Google przez użytkowników z 45 krajów. Opracowany został na tej podstawie tzw. „future orientation index”. Im większa jego wartość, tym większy procent zapytań o przyszłość w danym kraju kierowanych przez użytkowników do wyszukiwarki Google. Co ciekawe, autorzy analizy odkryli zależność między wzrostem PKB a wartością indeksu. W praktyce, im więcej pytań nakierowanych na przyszłość, tym bardziej rośnie PKB danego kraju.

Kolejny przykład pozwala snuć tylko domysły, ale ilość danych przetwarzanych potencjalnie przez agencję NSA (choćby w oparciu o ostatnią dyskutowaną aferę ze szpiegowaniem własnych obywateli) wskazuje, że przetwarzanie Big Data służba ta powinna mieć opanowane w wysokim stopniu.

Podkreśleniem znaczenia Big Data dla współczesnego świata jest inicjatywa obecnej administracji USA, która w 2012 ogłosiła tzw. Big Data Research and Development Initiative. Deklaracja związana z tą inicjatywą określa Big Data jako wyzwanie i nadzieję dla nauki i ekonomii. Cele zostały przed programem postawione bardzo ambitne. Od opracowania algorytmów wykluczających korki uliczne w wielkich metropoliach aż po znalezienie lekarstwa na raka.

Wielkie słowa i wielkie nadzieje. Być może za wielkie, dlatego Big Data, jak każdy wielki koncept NWR, doczekał się licznych głosów krytyki. Nadmierna wiara w wielkie zbiory danych została zakwestionowana przez wybitnych przedstawicieli środowisk biznesowych, naukowych i medycznych. Jest kilka elementów wspólnych w argumentach krytyków Big Data. Mianowicie, najczęściej podnoszą oni, że prawidłowości zidentyfikowane na poziomie makro nie zawsze muszą mieć przełożenie na procesy na poziomie mikro. Ponadto, pozostaje problem wyboru odpowiedniej próby danych do analizy (jakby to paradoksalnie przy Big Data nie brzmiało) oraz fakt, że spostrzeżenia co do przyszłości będą się sprawdzały tylko o tyle o ile przeszłość do tej przyszłości będzie podobna. A to może nigdy nie mieć miejsca na takim poziomie, aby informatyczna projekcja przyszłości w oparciu o dowolną próbę danych miała jakikolwiek sens.

A zatem, czy Big Data to ślepa uliczka, albo też kolejna moda technologiczno-biznesowa, która w czystej postaci nigdy nie znajdzie zastosowania? Akurat w tym przypadku dość łatwo udzielić sensownej odpowiedzi. Mimo wszelkich zastrzeżeń, Big Data są już naszą codziennością. Wystarczy powiedzieć, że określenie to zostało użyte po raz pierwszy w 2009 r. Od tego czasu zrobiło autentyczną karierę przechodząc drogę od idei, poprzez poszukiwanie użycia w celach komercyjnych i społecznych, aż po powstanie odpowiednich technologii i praktyczne implementacje. To, co obserwujemy jako kłopoty z wykorzystaniem praktycznym idei Big Data, jest kłopotem pojedynczych firm, które mają problem z wykorzystaniem akurat swoich wielkich zbiorów danych (z różnych powodów zresztą, od technicznych po prawne). Przy czym nie o wielkość tych danych chodzi, ale ich wspomnianą niestrukturalność.

Z czym do ludzi?

Skupmy się przez chwilę na możliwych do wykorzystania narzędziach, a właściwie sztandarowym narzędziu do Big Data. Jest nim oprogramowanie open source o nazwie Apache Hadoop. Projekt, którego efektem jest Hadoop rozpoczęto w 2005 r. Obecnie technologia ta cieszy się olbrzymim zainteresowaniem największych tuzów branży IT. Co więcej, wokół rozwiązań opartych na Hadoop i jego modyfikacjach wyrósł cały sektor usług wdrożeniowo-doradczych. Hadoop jako taki „obrósł” też kolejnymi projektami rozwijającymi jego możliwości. Do takich należą MapReduce i jego nowa wersja Yarn (platforma programistyczna), system plików o dużej wydajności i nazwie Hadoop Distributed File System (HDFS) oraz Common, czyli zestaw narzędzi programistycznych.

Czym jest zatem w praktyce oprogramowanie skupione wokół Hadoop? Przede wszystkim są to narzędzia do zarządzania bazami danych (a poprzez MapReduce także do tworzenia narzędzi do analizy tych danych), zawierającymi dane niestrukturalne, a do tego o olbrzymim wolumenie tych danych. Olbrzymią zaletą Hadoop jest „myślenie” o danych typu NoSQL tak, aby ich przetwarzanie było jak najbardziej efektywne. W efekcie Hadoop umożliwia efektywne przetwarzanie Big Data za pomocą dostępnego sprzętu komputerowego, choćby poprzez łączenie przestrzeni i wydajności standardowych urządzeń dyskowych. Ta konkretna cecha Hadoop jest odpowiedzią na powtarzające się od lat 90-tych pytanie (odrobinę patetyczne), czy ludzkość jest w stanie obsługiwać „produkowane” przez nią dane. Obsługiwać – w domyśle – efektywnie.

Głównym problem tej efektywności był przez długi czas paradoks hardware’owy. Mianowicie, w wymiarze jednostkowym mamy do czynienia z bezprecedensowym wzrostem wydajności sprzętu komputerowego. W tym przypadku, dysków twardych. Tym niemniej, bezprecedensowo rośnie także dostępna przestrzeń dyskowa do zagospodarowania na przeciętnym urządzeniu pamięci masowej. Ponieważ z kolei człowiek jest istotą twórczą, każdą ilość przestrzeni dyskowej uda mu się prędzej czy później zapełnić (inną kwestią jest wartość tych treści). W efekcie, samo odczytanie danych z przeciętnego, współczesnego dysku (mimo wzrostu wydajności, a przez wzrost jego pojemności) jest… dużo dłuższe, niż ta sama operacja na przeciętnym dysku twardym sprzed np. 10 czy 15 lat.

Rozwiązanie tego problemu daje w pewnym sensie Hadoop, który potrafi „zatrudnić” w zasadzie dowolną ilość dysków twardych i rozkładając ich wydajność oraz dzieląc duże zbiory danych na części przydzielane poszczególnym urządzeniom (lub ich węzłom), rozwiązuje problem wydajności. W efekcie, Hadoop radzi sobie z przetwarzaniem Big Data nie wymuszając zmiany obecnie używanej infrastruktury sprzętowej. Co z powodów ekonomicznych jest wyjątkowo istotne.

Aby taką filozofię działania wdrożyć, musiały powstać narzędzia umożliwiające integrację Hadoop z istniejącymi systemami. Są nimi Apache Flume (obsługa wymiany danych między Hadoop i tradycyjnymi systemami bazodanowymi) oraz Apache Sqoop. Biorąc pod uwagę dojrzałość rozwiązań związanych z Hadoop, nic dziwnego, że jego implementację znaleźć można w ofercie każdej większej firmy zajmującej się oprogramowaniem bazodanowym i/lub biznesowym. Użytkownikami Hadoop są przy tym takie firmy jako Amazon, AOL, Facebook i Yahoo. Jak widać, wszystkie w taki czy inny sposób związane przez samą istotę swojej działalności z Big Data. Więcej informacji praktycznych o Hadoop można znaleźć na stronie projektu, ale także w bardzo dobrych publikacjach książkowych (także na Google Books), takich jak „Hadoop: The Definite Guide” Toma White (wydawnictwo O’Reilly). Jako ciekawostkę można dodać, że w USA wiele startupów powstaje na bazie jakiegoś pomysłu wykorzystania Hardoop. Z kolei w Unii Europejskiej pomysły biznesowe oparte na zastosowaniu Hardoop mogły niejako z urzędu cieszyć się zaklasyfikowaniem do kategorii innowacyjnych (co jest ważne w kontekście ew. finansowania ze środków publicznych).

Komercyjność Big Data

W zasadzie nie ma już dużej firmy z branży IT, która w jakiś sposób nie odnosiłaby się do Big Data. Możliwych i reprezentowanych postaw biznesu wobec Big Data jest oczywiście wiele. Wyróżnijmy trzy podstawowe modele. Możemy na przykład obserwować postawę tzw. „szorstkiej przyjaźni” (lub „nieodwzajemnionego uczucia”). Dobrym przykładem jest tutaj Facebook, który przy gigantycznej liczbie użytkowników wciąż najczęściej rozczarowuje inwestorów w zakresie generowanych przychodów i zysków (stąd słynne już zawirowania kursu po debiucie giełdowym). Facebook zmaga się z klasyczną biznesową zagadką, jak wykorzystać Big Data pozostawiane przez użytkowników jego serwisów, tak aby z danych tych wypracować nową (sprzedawalną) jakość i solidne źródło przychodów. Nie czas tu i miejsce na analizowanie sukcesów i porażek firmy tym zakresie. Dość jednak powiedzieć, że jeśli Facebook wypracuje odpowiedni (i bezpieczny prawnie) model zarabiania na danych o swoich użytkownikach, stanie się pierwszoplanową (a także jeszcze bardziej modną, kultową, trendy) firmą swoich czasów (tak jak były albo są nimi w pewnym momencie dziejów Ford, General Electric, IBM, Microsoft, Google czy Apple).

Inne podejście do Big Data to podpięcie się pod „pędzący pociąg”. Taką strategię prezentują producenci oprogramowania biznesowego i narzędziowego, którzy zaczynają oferować rozwiązania (doradztwo + oprogramowanie + sprzęt) do zarządzania wielkimi zbiorami danych. Tutaj z kolei dobrym przykładem mogą być działania takich firm jak IBM, SAP czy Oracle. Zwłaszcza te dwie ostatnie musiały wręcz uzupełnić swoje tradycyjne ERP-owo-bazodanowe portfolio podejściem do obsługi Big Data. Żeby zilustrować takie podejście przykładem, wystarczy choćby zerknąć na „opracowanie” nt. Big Data zamieszczone na stronach firmy IBM. Oczywiście jest to tylko wstęp do oferty, której elementem jest wspomniany już wcześniej Hadoop.

Mamy za sobą przykład firmy mającej niejako przy okazji swojej działalności do czynienia z Big Data. Wiemy już także, że jest wiele firm, które tej pierwszej firmie dostarczy narzędzia i infrastrukturę pod rozwiązanie operujące na wielkich danych. Pozostaje ostatni etap, który jest też tożsamy z ostatnim (czy też może w przyszłości okaże się, że tylko kolejnym) modelem zarabiania na Big Data. Istnieje mianowicie wiele firm (zwłaszcza w Dolinie Krzemowej), które specjalizują się w dostarczaniu know-how w zakresie analizy i prezentowania wyników tych analiz (interrogacji) dużych zbiorów danych. Wspomniany know-how może mieć charakter ekspercki. To jest, może polegać na wskazywaniu przez doradcę, jak zacząć, zaplanować i zrealizować odpytywanie danych, biorąc pod uwagę doświadczenia podobnych firm (np. z podobnej branży lub mającej podobnych użytkowników). Inną postacią tego know-how jest postać technologiczna. Firmy z tej kategorii mogą dostarczać narzędzia do analizy danych, interpretacji wyników zapytań oraz prezentacji tych wyników w mniej lub bardziej atrakcyjnej formie. Przykładem takich firm są Splunk i Google. Oczywiście, modele są tylko modelami i w postaci czystej najczęściej w „przyrodzie” nie występują. Może więc się zdarzyć, że firma typu Facebook sama sobie wdroży Hadoop, a następnie zbuduje wokół Big Data odpowiednią analitykę. Może też być tak, że firma z drugiej grupy, oprócz platformy, wdroży także jakąś formułę systemu BI do odpytywania i prezentowania wyników zapytań do Big Data.

Czy Big Data są społecznie odpowiedzialne

Bez wątpienia możliwe jest wykorzystanie Big Data do wielu społecznie użytecznych celów. Mogą i są to: walka z rakiem, rozszyfrowanie genomu, badania astronomiczne, zwalczanie terroryzmu (przy pamiętaniu o całej kontrowersyjności i delikatności tej kwestii), badania dotyczące mechaniki kwantowej, przeciwdziałanie korkom w wielkich metropoliach amerykańskich i azjatyckich. O faktycznym sukcesie takich inicjatyw, koniec końców, przesądzają jednak wysiłki wpływowych rządów, silnych organizacji pozarządowych oraz omawianego już biznesu. Opracowania i inicjatywy rządu amerykańskiego w kontekście Big Data były już w tym materiale sygnalizowane. Wykorzystanie Big Data w nauce jest także dość oczywiste (choćby przykład Laboratoriów CERN i LHC).

A jak się zapatruje na funkcje niekomercyjne Big Data wielki biznes? Przecież po częstokroć od efektywności tegoż może zależeć szereg cennych inicjatyw społecznych (pomijamy tutaj najczęstszy, mimo wszystko, egoistyczny i ekonomiczny motyw takich działań). Ciekawym obrazkiem aspektu społecznościowego Big Data w biznesie jest zapis dyskusji między przedstawicielami firm Microsoft, IBM, Google oraz Cloud of Data (Big Data for Good z 5 czerwca 2012 r.). W toku tej dyskusji uczestnicy podają wiele przykładów społecznego wykorzystania fenomenu Big Data. Oczywiście, większość tych wypowiedzi kończy się wskazaniem inicjatyw firmy, w której pracuje wypowiadająca się osoba. Tym niemniej obraz, kto z tego wyścigu jest bardziej społecznie odpowiedzialny (społeczna odpowiedzialność biznesu to kolejna współczesna moda) jest obiektywnie bardzo ciekawy. I tak, możemy dowiedzieć się o programie Smarter Planet, który to program pozwala śledzić (przewidywać?) zdarzenia przyrodnicze wywołane (lub nie) przez człowieka. Kolejny przykład to Flu Trends, którego przeznaczenia nie trzeba raczej wyjaśniać. Rozmówcy podają również przykład, jak można wykorzystać Big Data do śledzenia postępów cholery (w tym przypadku na Haiti). Padają również przykłady systemów translatorskich opartych na Big Data (przydatnych zwłaszcza w czasie wielkich klęsk żywiołowych w ubogich regionach Ziemi). Po ostatniej katastrofie w Japonii (trzęsienie ziemi i późniejsze problemy z elektrownią jądrową) przydatny okazał się Fusion Tables, który umożliwiał tworzenia map z informacjami niezbędnymi dla ludzi w rejonach objętych stanem klęski żywiołowej.

Wypada uznać, za panelistami ze wspomnianych firm, że społeczne projekty związane z Big Data mają przyszłość i powinny być rozwijane. Zdecydowanie ta idea i ta technologia może być bardzo pomocna w rozwiązaniu bardzo wielu współczesnych problemów ekologicznych, społecznych czy naukowych. Tym niemniej, uważna lektura wypowiedzi osób z czterech wymienionych firm wskazuje, że Święty Graal wielkich danych nie został jeszcze odnaleziony. Mianowicie, na podstawie masy danych, które mamy do dyspozycji, wciąż nie udaje się przewidzieć pewnych prawidłowości na przyszłość oraz poradzić sobie z tak złożonymi problemami, jak znalezienie leku na raka czy AIDS. Może więc się okazać, że sama ilość danych nie poprawia jakości analiz na ich podstawie, podobnie jak wydaje się, że zwiększająca się ilość danych i sumarycznej mocy urządzeń spiętych w sieć nie warunkują samoistnego pojawiania się sztucznej inteligencji.

Coś się kończy, coś się zaczyna…

Podsumowując, czy Big Data są Kolejną Wielką Rzeczą w branży informatycznej? Naszym zdaniem, zdecydowanie tak. Bycie NWR oznacza przebycie drogi, której przystanki nazywają się: koncept, model biznesowy, technologia, upowszechnienie i moda. Etap użytecznego konceptu Big Data mają dawno za sobą. Narzędzia też już powstały. Wokół zaś tych powstał cały biznes i tym samym modele biznesowe (z pewnymi perturbacjami). Big Data stają się także dostępne (relatywnie duża powszechność) dla wielu (nie tylko wielkich) firm, co – wydaje nam się – wykazaliśmy przy okazji prezentowania różnych sposobów zarabiania na Big Data. Stają się także Big Data zjawiskiem medialnym, co też w efekcie napędza modę na to zjawisko. Wyrazem tej mody jest choćby umieszczanie wszelkich zawodów i zajęć związanych z Big Data (analityk, researcher wielkich danych, integrator Hadoop, programista MapReduced) na szczytach list zawodów przyszłości.

Przy czym pamiętajmy w całym tym szale związanym z Big Data, że zanim przestawimy politechniki na kształcenie rzesz specjalistów od Big Data, te mogą spowszednieć, i za 7 lat (przygotowanie programu plus wyprodukowanie pierwszego rocznika absolwentów) młodzi specjaliści od Big Data mogą trafić na rynek rozczarowany Big Data (Big Data nie pozwolą raczej przewidywać przyszłości i jako takie nie rozwiążą problemów ludzkości), a zatem na rynek goniący już za kolejnym The Next Big Thing… Et sic transit gloria mundi.