Funkcjonalności warstw architektury referencyjnej Big Data

W moim ostatnim poście omówiliśmy analizę problemu biznesowego i podstawowe kroki do zaprojektowania Architektury Big Data. Dzisiaj opowiem o różnych warstwach w architekturze Big Data i ich funkcjonalnościach.

Logiczne warstwy architektury referencyjnej Big Data

Główną ideą architektury Big Data jest udokumentowanie właściwych podstaw architektury, infrastruktury i aplikacji. Dzięki temu firmy mogą na co dzień efektywniej wykorzystywać big data.

Jest tworzony przez projektantów/architektów big data przed fizycznym wdrożeniem rozwiązania. Tworzenie architektury big data zazwyczaj wymaga zrozumienia biznesu/organizacji i jej potrzeb w zakresie big data. Zazwyczaj architektury Big Data określają komponenty sprzętowe i programowe, które są niezbędne do realizacji rozwiązania Big Data. Dokumenty architektury Big Data mogą również opisywać protokoły udostępniania danych, integracji aplikacji i bezpieczeństwa informacji.

Więcej informacji: Przewodnik dla początkujących po analizie Big Data

Wiąże się to również z łączeniem i organizacją istniejących zasobów w celu zaspokojenia potrzeb związanych z dużymi danymi.

Warstwy logiczne architektury referencyjnej są następujące:

Identyfikacja źródła danych: Wiedza o tym, skąd pochodzą te dane.

Profilowanie źródeł jest jednym z najważniejszych kroków przy podejmowaniu decyzji o architekturze lub big data. Polega na identyfikowaniu różnych systemów źródłowych i kategoryzowaniu ich na podstawie ich charakteru i typu.

Punkty, które należy wziąć pod uwagę przy profilowaniu źródeł danych:

Zidentyfikuj systemy źródeł wewnętrznych i zewnętrznych.
Założenie wysokiego poziomu dla ilości danych pozyskiwanych z każdego źródła
Zidentyfikuj mechanizm używany do pobierania danych – push lub pull
Określ typ źródła danych – baza danych, plik, usługa sieciowa, strumienie itp.
Określ rodzaj danych – ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane

Strategia i pozyskiwanie danych : proces wprowadzania danych do systemu.

Pozyskiwanie danych polega na ekstrakcji danych z wyżej wymienionych źródeł. Dane te są przechowywane w magazynie, a następnie przetwarzane w celu dalszego przetwarzania na nim.

Punkty do rozważenia:

Określ częstotliwość, z jaką dane będą pozyskiwane z każdego źródła
Czy istnieje potrzeba zmiany semantyki danych?
Czy przed pozyskiwaniem wymagana jest weryfikacja lub przekształcenie danych (przetwarzanie wstępne)?
Segreguj źródła danych na podstawie trybu przetwarzania — wsadowego lub w czasie rzeczywistym

Przechowywanie danych : obiekt, w którym będą faktycznie przechowywane duże dane.

Powinna istnieć możliwość przechowywania dużych ilości danych dowolnego typu i możliwość skalowania w zależności od potrzeb. Powinniśmy również wziąć pod uwagę liczbę operacji IOPS (operacji wejściowych i wyjściowych na sekundę), które może zapewnić. Rozproszony system plików Hadoop to najczęściej używana platforma przechowywania danych w świecie Big Data, inne to magazyny danych NoSQL – MongoDB, HBase, Cassandra itp.

Rzeczy do rozważenia przy planowaniu metodologii przechowywania:

Rodzaj danych (historyczne lub przyrostowe)
Format danych (ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane)
Wymagania dotyczące kompresji
Częstotliwość przychodzących danych
Wzorzec zapytania o dane
Konsumenci danych

Przetwarzanie danych : narzędzia umożliwiające analizę dużych zbiorów danych.

Wielokrotnie wzrosła nie tylko ilość przechowywanych danych, ale także ich przetwarzanie.

Wcześniej często używane dane były przechowywane w dynamicznych pamięciach RAM. Ale teraz jest przechowywany na wielu dyskach na wielu maszynach połączonych przez sieć ze względu na samą objętość. Dlatego zamiast zbierać porcje danych do przetwarzania, moduły przetwarzania są przenoszone do big data. W ten sposób znacznie redukując I/O sieci. Metodologia przetwarzania jest oparta na wymaganiach biznesowych. Na podstawie umowy SLA można ją podzielić na Batch, w czasie rzeczywistym lub Hybrid.

Przetwarzanie wsadowe — wsadowe zbiera dane wejściowe przez określony czas i uruchamia na nim przekształcenia w zaplanowany sposób. Ładowanie danych historycznych jest typową operacją wsadową
Przetwarzanie w czasie rzeczywistym — Przetwarzanie w czasie rzeczywistym obejmuje uruchamianie przekształceń w miarę pozyskiwania danych.
Przetwarzanie hybrydowe — jest to połączenie potrzeb przetwarzania wsadowego i przetwarzania w czasie rzeczywistym.

Zużycie/wykorzystanie danych : Użytkownicy/usługi wykorzystujące analizowane dane.

Ta warstwa zużywa dane wyjściowe dostarczane przez warstwę przetwarzania. Różni użytkownicy, tacy jak administrator, użytkownicy biznesowi, dostawcy, partnerzy itp., mogą wykorzystywać dane w różnych formatach. Wyniki analizy mogą zostać wykorzystane przez silnik rekomendacji lub procesy biznesowe mogą zostać uruchomione na podstawie analizy.

Różne formy wykorzystania danych to:

Eksportuj zestawy danych — mogą istnieć wymagania dotyczące generowania zestawów danych stron trzecich. Zestawy danych można generować za pomocą eksportu do gałęzi lub bezpośrednio z HDFS.
Raportowanie i wizualizacja — Różne narzędzia do raportowania i wizualizacji łączą się z Hadoop za pomocą połączenia JDBC/ODBC z Hive.
Eksploracja danych — naukowcy zajmujący się danymi mogą budować modele i przeprowadzać głęboką eksplorację w środowisku piaskownicy. Piaskownica może być oddzielnym klastrem (zalecane podejście) lub oddzielnym schematem w ramach tego samego klastra, który zawiera podzbiór rzeczywistych danych.
Zapytania Adhoc – Zapytania Adhoc lub Interactive mogą być obsługiwane za pomocą Hive, Impala lub Spark SQL.

Przeczytaj także: Big Data: przyszły koszmar?

Warstwy funkcjonalne architektury Big Data:

Mógłby być jeszcze jeden sposób definiowania architektury, tj. poprzez podział funkcjonalności. Ale kategorie funkcjonalności mogą być zgrupowane w logicznej warstwie architektury referencyjnej, więc preferowaną architekturą jest ta wykonana przy użyciu warstw logicznych.

Warstwy w oparciu o Funkcjonalności są następujące:

Źródła danych:

W tej kategorii należy wymienić wszystkie źródła, z których organizacja otrzymuje dane i które mogą pomóc organizacji w podejmowaniu przyszłych decyzji. Wymienione tutaj źródła danych są niezależne od tego, czy dane są ustrukturyzowane, nieustrukturyzowane czy częściowo ustrukturyzowane.

Ekstrakcja danych:

Zanim będziesz mógł przechowywać, analizować lub wizualizować swoje dane, musisz je mieć. Ekstrakcja danych polega na przekształceniu czegoś, co nie ma struktury, na przykład strony internetowej, w ustrukturyzowaną tabelę. Po uporządkowaniu możesz nim manipulować na różne sposoby, korzystając z narzędzi opisanych poniżej, aby uzyskać szczegółowe informacje.

Przechowywanie danych:

Podstawową koniecznością podczas pracy z big data jest zastanowienie się, jak je przechowywać. Częścią tego, w jaki sposób Big Data zyskało rozróżnienie jako „WIELKIE”, jest to, że stało się to zbyt duże dla tradycyjnych systemów. Dobry dostawca przechowywania danych powinien oferować infrastrukturę, na której można uruchamiać wszystkie inne narzędzia analityczne, a także miejsce do przechowywania i odpytywania danych.

Czyszczenie danych:

Wstępnie niezbędny krok, zanim zaczniemy faktycznie wydobywać dane w celu uzyskania wglądu. Dobrą praktyką jest zawsze tworzenie czystego, dobrze ustrukturyzowanego zestawu danych. Zestawy danych mogą mieć różne kształty i rozmiary, zwłaszcza gdy pochodzą z internetu. Wybierz narzędzie zgodnie z wymaganiami dotyczącymi danych.

Eksploracja danych:

Eksploracja danych to proces odkrywania spostrzeżeń w bazie danych. Celem eksploracji danych jest podejmowanie decyzji i przewidywanie danych, które masz pod ręką. Wybierz oprogramowanie, które daje najlepsze prognozy dla wszystkich rodzajów danych i pozwala tworzyć własne algorytmy do wydobywania danych.

Analityka danych:

Podczas gdy eksploracja danych polega na przeszukiwaniu danych w poszukiwaniu wcześniej nierozpoznanych wzorców, analiza danych polega na rozbiciu tych danych i ocenie wpływu tych wzorców w czasie. Analytics polega na zadawaniu konkretnych pytań i znajdowaniu odpowiedzi w danych. Możesz nawet zadawać pytania o to, co wydarzy się w przyszłości!

Wizualizacja danych:

Wizualizacje są jasnym i łatwym sposobem przekazywania złożonych spostrzeżeń dotyczących danych. A najlepsze jest to, że większość z nich nie wymaga kodowania. Firmy zajmujące się wizualizacją danych ożywią Twoje dane. Częścią wyzwania dla każdego analityka danych jest przekazanie spostrzeżeń z tych danych reszcie Twojej firmy. Narzędzia mogą pomóc w tworzeniu wykresów, map i innych podobnych grafik na podstawie wglądu w dane.

Integracja danych:

Platformy integracji danych są spoiwem między każdym programem. Łączą różne wnioski narzędzi z innymi Oprogramowaniem. Możesz udostępniać wyniki swoich narzędzi wizualizacyjnych bezpośrednio na Facebooku za pomocą tych narzędzi.

Języki danych:

Nadejdą chwile w Twojej karierze danych, kiedy narzędzie po prostu nie będzie w stanie tego zrobić. Podczas gdy dzisiejsze narzędzia stają się coraz potężniejsze i łatwiejsze w użyciu, czasami lepiej jest po prostu samemu je zakodować. Istnieją różne języki, które pomagają w różnych aspektach, takich jak obliczenia statystyczne i grafika. Te języki mogą działać jako dodatek do oprogramowania do eksploracji danych i statystycznego.

Funkcjonalności warstw architektury referencyjnej Big Data

Kluczową rzeczą do zapamiętania przy projektowaniu Architektury Big Data są:

Dynamika użytkowania : W artykule przedstawiono szereg scenariuszy, które należy wziąć pod uwagę przy projektowaniu architektury – forma i częstotliwość danych, rodzaj danych, rodzaj przetwarzania i wymagane analizy.
Mnóstwo technologii: Rozprzestrzenianie się narzędzi na rynku doprowadziło do wielu nieporozumień dotyczących tego, czego i kiedy używać. Istnieje wiele technologii oferujących podobne funkcje i twierdzących, że są lepsze od innych.

Wiem, że myślałbyś o różnych narzędziach do wykorzystania, aby stworzyć w pełni dowodowe rozwiązanie Big Data. Cóż, w moich nadchodzących postach na temat Big Data omówię kilka najlepszych narzędzi do realizacji różnych zadań w architekturze Big Data .

Zostaw komentarz

Komentarz *

Imię *

Strona internetowa

Funkcjonalności warstw architektury referencyjnej Big Data

Przeczytaj blog, aby w najprostszy sposób poznać różne warstwy w architekturze Big Data i ich funkcjonalności.

Rewolucyjne wynalazki Google, które ułatwią Twoje życie.

Chcesz zobaczyć rewolucyjne wynalazki Google i jak te wynalazki zmieniły życie każdego człowieka dzisiaj? Następnie czytaj na blogu, aby zobaczyć wynalazki Google.

13 komercyjnych narzędzi do ekstrakcji danych z Big Data

Pozostań w kontakcie dzięki aplikacji WhatsApp na komputer 24*7

Whatsapp w końcu uruchomił aplikację Desktop dla użytkowników komputerów Mac i Windows. Teraz możesz łatwo uzyskać dostęp do Whatsapp z systemu Windows lub Mac. Dostępne dla Windows 8+ i Mac OS 10.9+

5 przykładów, które dowodzą, że energetyka jądrowa nie zawsze jest zła

Energia jądrowa jest zawsze pogardzana, nigdy jej nie szanujemy z powodu przeszłych wydarzeń, ale nie zawsze jest zła. Przeczytaj post, aby dowiedzieć się więcej na ten temat.

Friday Essential: Co się stało z samochodami sterowanymi przez sztuczną inteligencję?

Koncepcja autonomicznych samochodów, które wyjadą na drogi za pomocą sztucznej inteligencji, to marzenie, które mamy już od jakiegoś czasu. Ale pomimo kilku obietnic nigdzie ich nie widać. Przeczytaj ten blog, aby dowiedzieć się więcej…

5 przydatnych narzędzi sztucznej inteligencji, które uproszczą Twoje życie

Sztuczna inteligencja nie jest dla ludzi nową nazwą. Ponieważ sztuczna inteligencja jest włączona do każdego strumienia, jednym z nich jest opracowywanie narzędzi zwiększających ludzką wydajność i dokładność. Skorzystaj z tych niesamowitych narzędzi uczenia maszynowego i uprość swoje codzienne zadania.

Czy AI może walczyć z rosnącą liczbą ataków ransomware?

Wzrasta liczba ataków ransomware, ale czy sztuczna inteligencja może pomóc w radzeniu sobie z najnowszym wirusem komputerowym? Czy AI jest odpowiedzią? Przeczytaj tutaj, wiedz, że sztuczna inteligencja jest zmorą lub zgubą

Wgląd w 26 technik analizy Big Data: część 2

Zawsze potrzebujemy Big Data Analytics do efektywnego zarządzania danymi. W tym artykule omówiliśmy kilka technik analizy Big Data. Sprawdź ten artykuł.

Ataki DDOS: krótki przegląd

Czy jesteś również ofiarą ataków DDOS i nie masz pewności co do metod zapobiegania? Przeczytaj ten artykuł, aby rozwiązać swoje pytania.