大數據參考架構層的功能

在我的上一篇文章中，我們討論了分析業務問題和設計大數據架構的基本步驟。今天，我將討論大數據架構中的不同層及其功能。

大數據參考架構的邏輯層

大數據架構背後的核心思想是記錄架構、基礎設施和應用程序的正確基礎。因此，這使企業可以每天更有效地使用大數據。

它是由大數據設計師/架構師在物理實施解決方案之前創建的。創建大數據架構通常需要了解業務/組織及其大數據需求。通常，大數據架構概述了實現大數據解決方案所需的硬件和軟件組件。大數據架構文檔還可以描述數據共享、應用程序集成和信息安全的協議。

更多信息：大數據分析初學者指南

它還需要互連和組織現有資源以滿足大數據需求。

參考架構的邏輯層如下：

數據源識別：了解這些數據的來源。

源分析是決定架構或大數據的最重要步驟之一。它涉及識別不同的源系統並根據它們的性質和類型對它們進行分類。

分析數據源時要考慮的要點：

確定內部和外部來源系統。
從每個來源攝取的數據量的高級假設
識別用於獲取數據的機制——推或拉
確定數據源的類型——數據庫、文件、Web 服務、流等。
確定數據類型——結構化、半結構化或非結構化

數據攝取策略和獲取：將數據輸入系統的過程。

數據攝取就是從上述來源中提取數據。這些數據存儲在存儲中，然後經過轉換以對其進行進一步處理。

需要考慮的要點：

確定從每個來源攝取數據的頻率
是否需要更改數據語義？
在攝取（預處理）之前是否需要任何數據驗證或轉換？
根據攝取模式分離數據源 - 批處理或實時

數據存儲：實際存儲大數據的設施。

應該能夠存儲大量任何類型的數據，並且應該能夠根據需要進行擴展。我們還應該考慮它可以提供的 IOPS（每秒輸入輸出操作數）的數量。Hadoop 分佈式文件系統是大數據世界中最常用的存儲框架，其他是 NoSQL 數據存儲——MongoDB、HBase、Cassandra 等。

規劃存儲方法時需要考慮的事項：

數據類型（歷史或增量）
數據格式（結構化、半結構化和非結構化）
壓縮要求
傳入數據的頻率
數據查詢模式
數據的消費者

數據處理：提供大數據分析的工具。

不僅存儲的數據量而且處理量也成倍增加。

早期經常訪問的數據存儲在動態 RAM 中。但是現在，由於數量龐大，它被存儲在通過網絡連接的許多機器上的多個磁盤上。因此，不是收集數據塊進行處理，而是將處理模塊帶到大數據中。因此，顯著減少了網絡 I/O。處理方法由業務需求驅動。它可以根據 SLA 分為批處理、實時或混合。

分批處理 -批次被收集輸入的時間指定的時間間隔，並在預定的方式運行在其上的轉換。歷史數據加載是典型的批量操作
實時處理——實時處理涉及在獲取數據時運行轉換。
混合處理——它結合了批處理和實時處理需求。

數據消費/利用：利用分析數據的用戶/服務。

該層消耗處理層提供的輸出。管理員、業務用戶、供應商、合作夥伴等不同用戶可以使用不同格式的數據。推薦引擎可以使用分析的輸出，也可以根據分析觸發業務流程。

不同形式的數據消費是：

導出數據集-可能有第三方數據集生成的要求。可以使用 hive export 或直接從 HDFS 生成數據集。
報告和可視化——不同的報告和可視化工具使用 JDBC/ODBC 連接到 hive 連接到 Hadoop。
數據探索——數據科學家可以在沙盒環境中構建模型並進行深度探索。沙箱可以是一個單獨的集群（推薦方法��，也可以是同一集群中包含實際數據子集的單獨模式。
臨時查詢——可以使用 Hive、Impala 或 spark SQL 支持臨時或交互式查詢。

另請閱讀：大數據：未來的噩夢？

大數據架構的功能層：

可能還有另一種定義架構的方法，即通過功能劃分。但是功能類別可以組合到參考架構的邏輯層中，因此，首選架構是使用邏輯層完成的。

基於功能的分層如下：

數據源：

分析組織接收數據的所有來源以及可以幫助組織做出未來決策的所有來源應列在此類別中。此處列出的數據源與數據是結構化、非結構化還是半結構化無關。

數據提取：

在您可以存儲、分析或可視化數據之前，您必須擁有一些數據。數據提取就是將非結構化的東西（例如網頁）轉換為結構化表格。一旦你把它結構化，你就可以用各種方式操縱它，使用下面描述的工具來尋找洞察力。

數據存儲：

處理大數據時的基本需要是考慮如何存儲這些數據。大數據之所以被稱為“BIG”，部分原因在於傳統系統無法處理它。一個好的數據存儲提供商應該為您提供一個基礎設施，在該基礎設施上運行所有其他分析工具以及一個存儲和查詢數據的地方。

數據清洗：

在我們真正開始挖掘數據以獲得洞察力之前，這是一個必要的步驟。創建乾淨、結構良好的數據集始終是一個好習慣。數據集可以有各種形狀和大小，尤其是來自網絡時。根據您的數據要求選擇一個工具。

數據挖掘：

數據挖掘是在數據庫中發現洞察力的過程。數據挖掘的目的是對您手頭的數據做出決策和預測。選擇一款軟件，它可以為您提供對所有類型數據的最佳預測，並讓您創建自己的算法來挖掘數據。

數據分析：

數據挖掘就是篩選數據以搜索以前無法識別的模式，而數據分析則是分解數據並評估這些模式的影響。分析是關於提出特定問題並在數據中找到答案。你甚至可以問關於未來會發生什麼的問題！

數據可視化：

可視化是傳達複雜數據洞察力的一種明亮而簡單的方式。最好的部分是它們中的大多數不需要編碼。數據可視化公司將使您的數據栩栩如生。任何數據科學家面臨的部分挑戰是將來自該數據的見解傳達給公司的其他部門。工具可以幫助您根據數據洞察創建圖表、地圖和其他此類圖形。

數據整合：

數據集成平台是每個程序之間的粘合劑。它們將工具的不同推論與其他軟件聯繫起來。您可以通過這些工具直接在 Facebook 上分享您的可視化工具的結果。

數據語言：

在您的數據職業生涯中，有時工具根本無法解決問題。雖然當今的工具變得越來越強大且更易於使用，但有時自己編寫代碼會更好。有不同的語言可以在統計計算和圖形等不同方面為您提供幫助。這些語言可以作為數據挖掘和統計軟件的補充。

大數據參考架構層的功能

在設計大數據架構時要記住的關鍵是：

使用動態：文章中說明的許多場景在設計架構時需要考慮 - 數據的形式和頻率、數據類型、所需的處理和分析類型。
無數的技術：市場上工具的激增導致了很多關於使用什麼以及何時使用的混亂，有多種技術提供類似的功能並聲稱比其他技術更好。

我知道您會考慮使用不同的工具來製作完整的大數據解決方案。好吧，在我即將發布的關於大數據的文章中，我將介紹一些在大數據架構中實現不同任務的最佳工具。

留下評論

評論 *

姓名 *

網站

在Arch Linux上使用Makepkg

在Arch Linux上使用Makepkg可以避免系统污染，确保仅安装必要的依赖关系。

如何在Ubuntu 16.04上安装OpenSIPS控制面板

快速学习如何在Ubuntu 16.04上安装OpenSIPS控制面板，为VoIP提供商提供支持的功能。

在Fedora 28上安装Akaunting

学习如何在Fedora 28上安装Akaunting，一款适合小型企业和自由职业者的开源会计软件。

如何在CentOS 7上安装Mailtrain新闻通讯应用程序

使用其他系统？Mailtrain是一个基于Node.js和MySQL / MariaDB构建的开源自托管新闻通讯应用程序。

诊断Minecraft服务器延迟和低TPS

了解導致Minecraft延遲的原因和解決方案，包括優化伺服器性能和減少滯後的步驟。

AI 能否應對越來越多的勒索軟件攻擊？

勒索軟件攻擊呈上升趨勢，但人工智能能否幫助應對最新的計算機病毒？AI 是答案嗎？在這裡閱讀知道是 AI 布恩還是禍根

ReactOS：這是 Windows 的未來嗎？

ReactOS，一個開源和免費的操作系統，這裡有最新版本。它能否滿足現代 Windows 用戶的需求並打倒微軟？讓我們更多地了解這種老式但更新的操作系統體驗。

通過 WhatsApp 桌面應用程序 24*7 保持聯繫

Whatsapp 終於為 Mac 和 Windows 用戶推出了桌面應用程序。現在您可以輕鬆地從 Windows 或 Mac 訪問 Whatsapp。適用於 Windows 8+ 和 Mac OS 10.9+

人工智能如何將流程自動化提升到新的水平？

閱讀本文以了解人工智能如何在小型公司中變得流行，以及它如何增加使它們成長並為競爭對手提供優勢的可能性。

macOS Catalina 10.15.4 補充更新引發的問題多於解決

最近，Apple 發布了 macOS Catalina 10.15.4 補充更新以修復問題，但似乎該更新引起了更多問題，導致 mac 機器變磚。閱讀這篇文章以了解更多信息