Fungsionalitas Lapisan Arsitektur Referensi Big Data

Dalam posting terakhir saya , kami membahas tentang menganalisis masalah bisnis dan langkah-langkah dasar untuk merancang Arsitektur Big Data. Hari ini, saya akan berbicara tentang lapisan yang berbeda dalam Arsitektur Big Data dan fungsinya.

Lapisan Logis Arsitektur Referensi Big Data

Di balik arsitektur big data, ide intinya adalah mendokumentasikan fondasi arsitektur, infrastruktur, dan aplikasi yang tepat. Akibatnya, ini memungkinkan bisnis untuk menggunakan data besar secara lebih efektif setiap hari.

Itu dibuat oleh perancang/arsitek data besar sebelum mengimplementasikan solusi secara fisik. Membuat arsitektur big data umumnya membutuhkan pemahaman bisnis/organisasi dan kebutuhan big datanya. Biasanya, arsitektur data besar menguraikan komponen perangkat keras dan perangkat lunak yang diperlukan untuk memenuhi solusi data besar. Dokumen arsitektur data besar juga dapat menjelaskan protokol untuk berbagi data, integrasi aplikasi, dan keamanan informasi.

Info Lebih Lanjut:  Panduan Pemula untuk Big Data Analytics

Ini juga memerlukan interkoneksi dan pengorganisasian sumber daya yang ada untuk melayani kebutuhan big data.

Lapisan logis dari arsitektur referensi adalah sebagai berikut:

  • Identifikasi Sumber Data: Mengetahui dari mana data ini berasal.

Pembuatan profil sumber adalah salah satu langkah terpenting dalam menentukan arsitektur atau data besar. Ini melibatkan mengidentifikasi sistem sumber yang berbeda dan mengkategorikannya, berdasarkan sifat dan jenisnya.

Poin yang harus dipertimbangkan saat membuat profil sumber data:

  1. Mengidentifikasi sistem sumber internal dan eksternal.
  2. Asumsi Tingkat Tinggi untuk jumlah data yang diserap dari setiap sumber
  3. Identifikasi mekanisme yang digunakan untuk mendapatkan data – push atau pull
  4. Tentukan jenis sumber data – Basis Data, File, layanan web, aliran, dll.
  5. Tentukan jenis data – terstruktur, semi terstruktur atau tidak terstruktur
  • Data Ingestion Strategy and Acquisition : Proses memasukkan data ke dalam sistem.

Pengambilan data adalah semua tentang ekstraksi data dari sumber yang disebutkan di atas. Data ini disimpan dalam penyimpanan dan kemudian setelah diubah untuk diproses lebih lanjut di atasnya.

Poin yang harus dipertimbangkan:

  1. Tentukan frekuensi di mana data akan diserap dari setiap sumber
  2. Apakah ada kebutuhan untuk mengubah semantik data?
  3. Apakah ada validasi atau transformasi data yang diperlukan sebelum penyerapan (Pra-pemrosesan)?
  4. Pisahkan sumber data berdasarkan mode penyerapan – Batch atau waktu nyata
  • Penyimpanan Data : Fasilitas dimana data besar sebenarnya akan disimpan.

Seseorang harus dapat menyimpan sejumlah besar data dari jenis apa pun dan harus dapat menskalakan berdasarkan kebutuhan. Kita juga harus mempertimbangkan jumlah IOPS (Operasi keluaran input per detik) yang dapat diberikannya. Sistem file terdistribusi Hadoop adalah kerangka penyimpanan yang paling umum digunakan di dunia Big Data, yang lainnya adalah penyimpanan data NoSQL – MongoDB, HBase, Cassandra, dll.

Hal-hal yang perlu dipertimbangkan saat merencanakan metodologi penyimpanan:

  1. Jenis data (Historis atau Inkremental)
  2. Format data (terstruktur, semi terstruktur dan tidak terstruktur)
  3. Persyaratan kompresi
  4. Frekuensi data yang masuk
  5. Pola kueri pada data
  6. Konsumen data
  • Pemrosesan Data : Alat yang menyediakan analisis atas data besar.

Tidak hanya jumlah data yang disimpan tetapi pemrosesannya juga meningkat berlipat ganda.

Data yang sering diakses sebelumnya disimpan dalam RAM Dinamis. Tapi sekarang, itu disimpan di beberapa disk di sejumlah mesin yang terhubung melalui jaringan karena volume yang tipis. Oleh karena itu, alih-alih mengumpulkan potongan data untuk diproses, modul pemrosesan dibawa ke data besar. Dengan demikian, secara signifikan mengurangi jaringan I/O. Metodologi Pemrosesan didorong oleh kebutuhan bisnis. Itu dapat dikategorikan ke dalam Batch, real-time atau Hybrid berdasarkan SLA.

  1. Pemrosesan Batch  – Batch mengumpulkan input untuk interval waktu tertentu dan menjalankan transformasi di dalamnya secara terjadwal. Pemuatan data historis adalah operasi batch yang khas
  2. Pemrosesan Waktu Nyata – Pemrosesan waktu nyata melibatkan transformasi yang berjalan saat dan ketika data diperoleh.
  3. Pemrosesan Hibrida – Ini adalah kombinasi dari kebutuhan pemrosesan batch dan real-time.
  • Konsumsi/pemanfaatan data : Pengguna/layanan yang menggunakan data yang dianalisis.

Lapisan ini mengkonsumsi output yang disediakan oleh lapisan pemrosesan. Pengguna yang berbeda seperti administrator, pengguna Bisnis, vendor, mitra, dll. Dapat menggunakan data dalam format yang berbeda. Output analisis dapat dikonsumsi oleh mesin rekomendasi atau proses bisnis dapat dipicu berdasarkan analisis.

Berbagai bentuk konsumsi data adalah:

  1. Ekspor kumpulan data Mungkin ada persyaratan untuk pembuatan kumpulan data pihak ketiga. Kumpulan data dapat dihasilkan menggunakan ekspor sarang atau langsung dari HDFS.
  2. Pelaporan dan visualisasi – Pemindaian alat pelaporan dan visualisasi yang berbeda terhubung ke Hadoop menggunakan konektivitas JDBC/ODBC ke sarang.
  3. Eksplorasi Data – Ilmuwan data dapat membangun model dan melakukan eksplorasi mendalam di lingkungan kotak pasir. Sandbox dapat berupa cluster terpisah (Pendekatan yang disarankan) atau skema terpisah dalam cluster yang sama yang berisi subset data aktual.
  4. Adhoc Querying – Adhoc atau Interactive query dapat didukung dengan menggunakan Hive, Impala atau spark SQL.

Baca Juga:  Big Data: Mimpi Buruk di Masa Depan?

Lapisan Fungsional Arsitektur Big Data:

Mungkin ada satu cara lagi untuk mendefinisikan arsitektur yaitu melalui pembagian fungsionalitas. Tetapi kategori fungsionalitas dapat dikelompokkan bersama ke dalam lapisan logis dari arsitektur referensi, jadi, Arsitektur yang disukai adalah yang dilakukan dengan menggunakan Lapisan Logis.

Layering berdasarkan Fungsionalitas adalah sebagai berikut:

  1. Sumber data:

Menganalisis semua sumber dari mana organisasi menerima data dan yang dapat membantu organisasi dalam membuat keputusan masa depan harus dicantumkan dalam kategori ini. Sumber data yang tercantum di sini terlepas dari fakta apakah data terstruktur, tidak terstruktur, atau semi terstruktur.

  1. Ekstraksi Data:

Sebelum Anda dapat menyimpan, menganalisis, atau memvisualisasikan data Anda, Anda harus memilikinya. Ekstraksi data adalah tentang mengambil sesuatu yang tidak terstruktur, seperti halaman web, dan mengubahnya menjadi tabel terstruktur. Setelah Anda membuatnya terstruktur, Anda dapat memanipulasinya dengan berbagai cara, menggunakan alat yang dijelaskan di bawah ini, untuk menemukan wawasan.

  1. Penyimpanan data:

Kebutuhan dasar saat bekerja dengan data besar adalah memikirkan bagaimana menyimpan data itu. Bagian dari bagaimana Big Data mendapat perbedaan sebagai "BIG" adalah bahwa itu menjadi terlalu banyak untuk ditangani oleh sistem tradisional. Penyedia penyimpanan data yang baik harus menawarkan infrastruktur untuk menjalankan semua alat analitik Anda yang lain serta tempat untuk menyimpan dan menanyakan data Anda.

  1. Pembersihan Data:

Langkah yang diperlukan sebelum kita benar-benar mulai menambang data untuk wawasan. Itu selalu merupakan praktik yang baik untuk membuat kumpulan data yang bersih dan terstruktur dengan baik. Kumpulan data bisa datang dalam berbagai bentuk dan ukuran, terutama jika berasal dari web. Pilih alat sesuai kebutuhan data Anda.

  1. Penambangan Data:

Data mining adalah proses menemukan wawasan dalam database. Tujuan dari data mining adalah untuk membuat keputusan dan prediksi pada data yang Anda miliki. Pilih perangkat lunak yang memberi Anda prediksi terbaik untuk semua jenis data dan memungkinkan Anda membuat algoritme sendiri untuk menambang data.

  1. Analisis Data:

Sementara penambangan data adalah tentang memilah-milah data Anda untuk mencari pola yang sebelumnya tidak dikenali, analisis data adalah tentang memecah data itu dan menilai dampak dari pola tersebut dari waktu ke waktu. Analytics adalah tentang mengajukan pertanyaan spesifik dan menemukan jawaban dalam data. Anda bahkan dapat mengajukan pertanyaan tentang apa yang akan terjadi di masa depan!

  1. Visualisasi data:

Visualisasi adalah cara yang cerdas dan mudah untuk menyampaikan wawasan data yang kompleks. Dan bagian terbaiknya adalah kebanyakan dari mereka tidak memerlukan pengkodean. Perusahaan visualisasi data akan membuat data Anda menjadi hidup. Bagian dari tantangan bagi ilmuwan data mana pun adalah menyampaikan wawasan dari data tersebut ke seluruh perusahaan Anda. Alat dapat membantu Anda membuat bagan, peta, dan grafik lainnya dari wawasan data Anda.

  1. Integrasi data:

Platform integrasi data adalah perekat antara setiap program. Mereka menghubungkan kesimpulan yang berbeda dari alat dengan Perangkat Lunak lain. Anda dapat membagikan hasil alat visualisasi Anda langsung di Facebook melalui alat ini.

  1. Bahasa Data:

Akan ada saat-saat dalam karir data Anda ketika alat tidak akan memotongnya. Sementara alat saat ini menjadi lebih kuat dan lebih mudah digunakan, terkadang lebih baik membuat kode sendiri. Ada berbagai bahasa yang membantu Anda dalam berbagai aspek seperti komputasi statistik dan grafik. Bahasa-bahasa ini dapat berfungsi sebagai suplemen untuk penambangan data dan Perangkat Lunak statistik.

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Hal utama yang perlu diingat dalam mendesain Arsitektur Big Data adalah:

  • Dinamika penggunaan : Ada sejumlah skenario seperti yang diilustrasikan dalam artikel yang perlu dipertimbangkan saat merancang arsitektur – bentuk dan frekuensi data, Jenis data, Jenis pemrosesan dan analisis yang diperlukan.
  • Segudang teknologi:  Proliferasi alat di pasar telah menyebabkan banyak kebingungan tentang apa yang harus digunakan dan kapan, ada beberapa teknologi yang menawarkan fitur serupa dan mengklaim lebih baik daripada yang lain.

Saya tahu Anda akan memikirkan alat yang berbeda untuk digunakan untuk membuat Solusi Data Besar bukti lengkap. Nah, dalam posting saya yang akan datang di Big Data, saya akan membahas beberapa alat terbaik untuk mencapai berbagai tugas dalam arsitektur data besar .



Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

Wawasan tentang 26 Teknik Analisis Data Besar: Bagian 1

6 Hal yang Sangat Menggila dari Nintendo Switch

6 Hal yang Sangat Menggila dari Nintendo Switch

Banyak dari Anda tahu Switch keluar pada Maret 2017 dan fitur-fitur barunya. Bagi yang belum tahu, kami sudah menyiapkan daftar fitur yang membuat 'Switch' menjadi 'gadget yang wajib dimiliki'.

Janji Teknologi Yang Masih Belum Ditepati

Janji Teknologi Yang Masih Belum Ditepati

Apakah Anda menunggu raksasa teknologi untuk memenuhi janji mereka? periksa apa yang belum terkirim.

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Fungsionalitas Lapisan Arsitektur Referensi Big Data

Baca blog untuk mengetahui berbagai lapisan dalam Arsitektur Big Data dan fungsinya dengan cara yang paling sederhana.

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Bagaimana AI Dapat Membawa Otomatisasi Proses ke Tingkat Selanjutnya?

Baca ini untuk mengetahui bagaimana Kecerdasan Buatan menjadi populer di antara perusahaan skala kecil dan bagaimana hal itu meningkatkan kemungkinan untuk membuat mereka tumbuh dan memberi keunggulan pada pesaing mereka.

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA: Berapa Lama Itu Bisa Tetap Menjadi Teknik yang Layak Untuk Perbedaan Human-AI?

CAPTCHA telah berkembang cukup sulit bagi pengguna untuk dipecahkan dalam beberapa tahun terakhir. Apakah itu akan tetap efektif dalam deteksi spam dan bot di masa mendatang?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Singularitas Teknologi: Masa Depan Peradaban Manusia yang Jauh?

Saat Sains Berkembang dengan kecepatan tinggi, mengambil alih banyak upaya kita, risiko menundukkan diri kita pada Singularitas yang tidak dapat dijelaskan juga meningkat. Baca, apa arti singularitas bagi kita.

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Telemedicine Dan Perawatan Kesehatan Jarak Jauh: Masa Depan Ada Di Sini

Apa itu telemedicine, perawatan kesehatan jarak jauh dan dampaknya terhadap generasi mendatang? Apakah itu tempat yang bagus atau tidak dalam situasi pandemi? Baca blog untuk menemukan tampilan!

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Pernahkah Anda Bertanya-tanya Bagaimana Hacker Menghasilkan Uang?

Anda mungkin pernah mendengar bahwa peretas menghasilkan banyak uang, tetapi pernahkah Anda bertanya-tanya bagaimana cara mereka mendapatkan uang sebanyak itu? mari berdiskusi.

Pembaruan Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Masalah Daripada Menyelesaikan

Pembaruan Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Masalah Daripada Menyelesaikan

Baru-baru ini Apple merilis macOS Catalina 10.15.4 pembaruan suplemen untuk memperbaiki masalah tetapi tampaknya pembaruan menyebabkan lebih banyak masalah yang mengarah ke bricking mesin mac. Baca artikel ini untuk mempelajari lebih lanjut