ビッグデータ参照アーキテクチャレイヤーの機能

前回の投稿では、ビジネス上の問題の分析と、ビッグデータアーキテクチャを設計するための基本的な手順について説明しました。今日は、ビッグデータアーキテクチャのさまざまなレイヤーとその機能について説明します。

ビッグデータ参照アーキテクチャの論理層

ビッグデータアーキテクチャの背後にある中心的なアイデアは、アーキテクチャ、インフラストラクチャ、およびアプリケーションの適切な基盤を文書化することです。その結果、企業は日常的にビッグデータをより効果的に使用できるようになります。

これは、ソリューションを物理的に実装する前に、ビッグデータの設計者/アーキテクトによって作成されます。ビッグデータアーキテクチャを作成するには、通常、ビジネス/組織とそのビッグデータのニーズを理解する必要があります。通常、ビッグデータアーキテクチャは、ビッグデータソリューションを実現するために必要なハードウェアおよびソフトウェアコンポーネントの概要を示します。ビッグデータアーキテクチャのドキュメントには、データ共有、アプリケーション統合、情報セキュリティのプロトコルも記載されている場合があります。

詳細：ビッグデータ分析の初心者向けガイド

また、ビッグデータのニーズに対応するために、既存のリソースを相互接続して整理する必要があります。

参照アーキテクチャの論理層は次のとおりです。

データソースの識別：このデータがどこから供給されているかを知る。

ソースプロファイリングは、アーキテクチャまたはビッグデータを決定する上で最も重要なステップの1つです。これには、さまざまなソースシステムを識別し、その性質とタイプに基づいて分類することが含まれます。

データソースのプロファイリング時に考慮すべき点：

内部および外部のソースシステムを特定します。
各ソースから取り込まれたデータ量の高レベルの仮定
データの取得に使用されるメカニズムを特定する–プッシュまたはプル
データソースのタイプ（データベース、ファイル、Webサービス、ストリームなど）を決定します。
データのタイプ（構造化、半構造化、または非構造化）を決定します

データ取り込み戦略と取得：システムにデータを入力するプロセス。

データの取り込みとは、上記のソースからデータを抽出することです。このデータはストレージに保存され、その後、さらに処理するために変換されます。

考慮すべきポイント：

各ソースからデータが取り込まれる頻度を決定します
データセマンティクスを変更する必要がありますか？
取り込み（前処理）の前に必要なデータ検証または変換はありますか？
取り込みモードに基づいてデータソースを分離する–バッチまたはリアルタイム

データストレージ：ビッグデータが実際に保存される施設。

あらゆるタイプの大量のデータを保存でき、必要に応じて拡張できる必要があります。また、提供できるIOPS（1秒あたりの入出力操作）の数も考慮する必要があります。Hadoop分散ファイルシステムはビッグデータの世界で最も一般的に使用されているストレージフレームワークであり、その他はNoSQLデータストア（MongoDB、HBase、Cassandraなど）です。

ストレージ方法を計画する際に考慮すべき事項：

データのタイプ（履歴または増分）
データの形式（構造化、半構造化、非構造化）
圧縮要件
受信データの頻度
データのクエリパターン
データの消費者

データ処理：ビッグデータの分析を提供するツール。

保存されるデータの量だけでなく、処理も倍増しました。

以前に頻繁にアクセスされたデータはダイナミックRAMに保存されていました。しかし現在は、ボリュームが非常に大きいため、ネットワーク経由で接続された多数のマシンの複数のディスクに保存されています。したがって、処理のためにデータチャンクを収集する代わりに、処理モジュールはビッグデータに取り込まれます。したがって、ネットワークI / Oが大幅に削減されます。処理方法は、ビジネス要件によって推進されます。SLAに基づいて、バッチ、リアルタイム、またはハイブリッドに分類できます。

バッチ処理 –バッチは、指定された時間間隔で入力を収集し、スケジュールされた方法で変換を実行します。履歴データのロードは、典型的なバッチ操作です
リアルタイム処理–リアルタイム処理には、データの取得時に変換を実行することが含まれます。
ハイブリッド処理–バッチ処理とリアルタイム処理の両方のニーズを組み合わせたものです。

データの消費/利用：分析されたデータを利用するユーザー/サービス。

この層は、処理層によって提供される出力を消費します。管理者、ビジネスユーザー、ベンダー、パートナーなどのさまざまなユーザーが、さまざまな形式のデータを利用できます。分析の出力は、レコメンデーションエンジンで使用することも、分析に基づいてビジネスプロセスをトリガーすることもできます。

データ消費のさまざまな形式は次のとおりです。

データセットのエクスポート–サードパーティのデータセットの生成には要件がある場合があります。データセットは、ハイブエクスポートを使用して生成することも、HDFSから直接生成することもできます。
レポートと視覚化–さまざまなレポートと視覚化ツールのスキャンがJDBC / ODBC接続を使用してHadoopに接続してハイブします。
データ探索–データサイエンティストは、サンドボックス環境でモデルを構築し、詳細な探索を実行できます。サンドボックスは、個別のクラスター（推奨アプローチ）または実際のデータのサブセットを含む同じクラスター内の個別のスキーマにすることができます。
アドホッククエリ–アドホッククエリまたはインタラクティブクエリは、Hive、Impala、またはsparkSQLを使用してサポートできます。

また読む：ビッグデータ：将来の悪夢？

ビッグデータアーキテクチャの機能層：

アーキテクチャを定義するもう1つの方法があります。つまり、機能部門を使用する方法です。ただし、機能カテゴリは参照アーキテクチャの論理レイヤーにグループ化できるため、推奨されるアーキテクチャは論理レイヤーを使用して行われるアーキテクチャです。

機能に基づく階層化は次のとおりです。

データソース：

組織がデータを受け取り、組織が将来の意思決定を行うのに役立つ可能性のあるすべてのソースを分析することは、このカテゴリーにリストされるべきです。ここにリストされているデータソースは、データが構造化されているか、非構造化されているか、半構造化されているかには関係ありません。

データ抽出：

データを保存、分析、または視覚化する前に、いくつかを用意する必要があります。データ抽出とは、Webページなどの構造化されていないものを取得し、それを構造化されたテーブルに変換することです。構造化したら、以下で説明するツールを使用して、さまざまな方法で操作し、洞察を見つけることができます。

データストレージ：

ビッグデータを扱う際の基本的な必要性は、そのデータをどのように保存するかを考えることです。ビッグデータが「BIG」として区別された理由の1つは、従来のシステムでは処理できなくなったことです。優れたデータストレージプロバイダーは、他のすべての分析ツールを実行するためのインフラストラクチャと、データを保存およびクエリする場所を提供する必要があります。

データクリーニング：

洞察を得るために実際にデータのマイニングを開始する前に必要な手順。クリーンで適切に構造化されたデータセットを作成することは常に良い習慣です。データセットは、特にWebから取得する場合、あらゆる形状とサイズで提供されます。データ要件に応じてツールを選択してください。

データマイニング：

データマイニングは、データベース内の洞察を発見するプロセスです。データマイニングの目的は、手元にあるデータについて意思決定と予測を行うことです。すべてのタイプのデータに対して最良の予測を提供し、データをマイニングするための独自のアルゴリズムを作成できるソフトウェアを選択してください。

データ分析：

データマイニングとは、以前は認識されていなかったパターンを検索するためにデータを選別することですが、データ分析とは、そのデータを分解し、それらのパターンの影響を経時的に評価することです。分析とは、特定の質問をし、データから答えを見つけることです。将来何が起こるかについて質問することもできます！

データの視覚化：

視覚化は、複雑なデータの洞察を伝えるための明るく簡単な方法です。そして最良の部分は、それらのほとんどがコーディングを必要としないことです。データ視覚化会社はあなたのデータを生き生きとさせます。データサイエンティストにとっての課題の一部は、そのデータからの洞察を会社の他の部分に伝えることです。ツールは、データの洞察からチャート、マップ、およびその他のそのようなグラフィックを作成するのに役立ちます。

データ統合：

データ統合プラットフォームは、各プログラム間の接着剤です。それらは、ツールのさまざまな推測を他のソフトウェアと結び付けます。これらのツールを使用して、視覚化ツールの結果をFacebookで直接共有できます。

データ言語：

あなたのデータキャリアの中で、ツールが単にそれをカットしない時があります。今日のツールはより強力で使いやすくなっていますが、自分でコーディングした方がよい場合もあります。統計計算やグラフィックスなど、さまざまな側面で役立つさまざまな言語があります。これらの言語は、データマイニングおよび統計ソフトウェアの補足として機能する可能性があります。

ビッグデータ参照アーキテクチャレイヤーの機能

ビッグデータアーキテクチャを設計する際に覚えておくべき重要なことは次のとおりです。

使用のダイナミクス：記事に示されているように、アーキテクチャを設計する際に考慮する必要のあるシナリオがいくつかあります。データの形式と頻度、データのタイプ、処理のタイプ、および必要な分析です。
無数のテクノロジー： 市場でのツールの急増により、何をいつ使用するかについて多くの混乱が生じています。同様の機能を提供し、他のテクノロジーよりも優れていると主張するテクノロジーが複数あります。

完全な証拠となるビッグデータソリューションを作成するために使用するさまざまなツールについて考えていると思います。さて、ビッグデータに関する今後の投稿では、ビッグデータアーキテクチャでさまざまなタスクを実行するためのいくつかの最良のツールについて説明します。