o serwisie | redakcja | reklama | kontakt
szukaj w serwisie
Spis treści

Indeks działów

29 czerwca 2013
Ernest Frankowski
 

Z czym do ludzi?

Skupmy się przez chwilę na możliwych do wykorzystania narzędziach, a właściwie sztandarowym narzędziu do Big Data. Jest nim oprogramowanie open source o nazwie Apache Hadoop. Projekt, którego efektem jest Hadoop rozpoczęto w 2005 r. Obecnie technologia ta cieszy się olbrzymim zainteresowaniem największych tuzów branży IT. Co więcej, wokół rozwiązań opartych na Hadoop i jego modyfikacjach wyrósł cały sektor usług wdrożeniowo-doradczych. Hadoop jako taki „obrósł” też kolejnymi projektami rozwijającymi jego możliwości. Do takich należą MapReduce i jego nowa wersja Yarn (platforma programistyczna), system plików o dużej wydajności i nazwie Hadoop Distributed File System (HDFS) oraz Common, czyli zestaw narzędzi programistycznych.

Czym jest zatem w praktyce oprogramowanie skupione wokół Hadoop? Przede wszystkim są to narzędzia do zarządzania bazami danych (a poprzez MapReduce także do tworzenia narzędzi do analizy tych danych), zawierającymi dane niestrukturalne, a do tego o olbrzymim wolumenie tych danych. Olbrzymią zaletą Hadoop jest „myślenie” o danych typu NoSQL tak, aby ich przetwarzanie było jak najbardziej efektywne. W efekcie Hadoop umożliwia efektywne przetwarzanie Big Data za pomocą dostępnego sprzętu komputerowego, choćby poprzez łączenie przestrzeni i wydajności standardowych urządzeń dyskowych. Ta konkretna cecha Hadoop jest odpowiedzią na powtarzające się od lat 90-tych pytanie (odrobinę patetyczne), czy ludzkość jest w stanie obsługiwać „produkowane” przez nią dane. Obsługiwać – w domyśle – efektywnie.

Głównym problem tej efektywności był przez długi czas paradoks hardware'owy. Mianowicie, w wymiarze jednostkowym mamy do czynienia z bezprecedensowym wzrostem wydajności sprzętu komputerowego. W tym przypadku, dysków twardych. Tym niemniej, bezprecedensowo rośnie także dostępna przestrzeń dyskowa do zagospodarowania na przeciętnym urządzeniu pamięci masowej. Ponieważ z kolei człowiek jest istotą twórczą, każdą ilość przestrzeni dyskowej uda mu się prędzej czy później zapełnić (inną kwestią jest wartość tych treści). W efekcie, samo odczytanie danych z przeciętnego, współczesnego dysku (mimo wzrostu wydajności, a przez wzrost jego pojemności) jest... dużo dłuższe, niż ta sama operacja na przeciętnym dysku twardym sprzed np. 10 czy 15 lat.

Rozwiązanie tego problemu daje w pewnym sensie Hadoop, który potrafi „zatrudnić” w zasadzie dowolną ilość dysków twardych i rozkładając ich wydajność oraz dzieląc duże zbiory danych na części przydzielane poszczególnym urządzeniom (lub ich węzłom), rozwiązuje problem wydajności. W efekcie, Hadoop radzi sobie z przetwarzaniem Big Data nie wymuszając zmiany obecnie używanej infrastruktury sprzętowej. Co z powodów ekonomicznych jest wyjątkowo istotne.

Aby taką filozofię działania wdrożyć, musiały powstać narzędzia umożliwiające integrację Hadoop z istniejącymi systemami. Są nimi Apache Flume (obsługa wymiany danych między Hadoop i tradycyjnymi systemami bazodanowymi) oraz Apache Sqoop. Biorąc pod uwagę dojrzałość rozwiązań związanych z Hadoop, nic dziwnego, że jego implementację znaleźć można w ofercie każdej większej firmy zajmującej się oprogramowaniem bazodanowym i/lub biznesowym. Użytkownikami Hadoop są przy tym takie firmy jako Amazon, AOL, Facebook i Yahoo. Jak widać, wszystkie w taki czy inny sposób związane przez samą istotę swojej działalności z Big Data. Więcej informacji praktycznych o Hadoop można znaleźć na stronie projektu, ale także w bardzo dobrych publikacjach książkowych (także na Google Books), takich jak „Hadoop: The Definite Guide” Toma White (wydawnictwo O'Reilly). Jako ciekawostkę można dodać, że w USA wiele startupów powstaje na bazie jakiegoś pomysłu wykorzystania Hardoop. Z kolei w Unii Europejskiej pomysły biznesowe oparte na zastosowaniu Hardoop mogły niejako z urzędu cieszyć się zaklasyfikowaniem do kategorii innowacyjnych (co jest ważne w kontekście ew. finansowania ze środków publicznych).


Następna strona »


Zobacz komentarze do artykułu / 0
Wersja do druku

Przeczytaj również...

Zaloguj się, by dodać komentarz. Nie masz konta? Zarejestruj się.

Login
Hasło
Zarejestruj się
Zapomniałem hasła
  Ostatnio komentowane
  Ostatnio na forum
więcej »
strona główna | o serwisie | redakcja | reklama | kontakt