Büyük Veri Referans Mimarisi Katmanlarının İşlevleri

Son yazımda, iş problemini analiz etmeyi ve Büyük Veri Mimarisini tasarlamanın temel adımlarını tartıştık. Bugün sizlere Büyük Veri Mimarisindeki farklı katmanlardan ve işlevselliklerinden bahsedeceğim.

Büyük Veri Referans Mimarisinin Mantıksal Katmanları

Büyük veri mimarisinin arkasındaki temel fikir, mimari, altyapı ve uygulamaların doğru bir temelini belgelemektir. Sonuç olarak, bu, işletmelerin büyük verileri günlük olarak daha etkin bir şekilde kullanmasını sağlar.

Bir çözümü fiziksel olarak uygulamadan önce büyük veri tasarımcıları/mimarları tarafından oluşturulur. Büyük veri mimarisi oluşturmak genellikle iş/kuruluşun ve büyük veri ihtiyaçlarının anlaşılmasını gerektirir. Tipik olarak, büyük veri mimarileri, büyük veri çözümünü gerçekleştirmek için gerekli olan donanım ve yazılım bileşenlerini ana hatlarıyla belirtir. Büyük veri mimarisi belgeleri, veri paylaşımı, uygulama entegrasyonları ve bilgi güvenliği için protokolleri de tanımlayabilir.

Daha Fazla Bilgi:  Büyük Veri Analitiği için Başlangıç ​​Kılavuzu

Ayrıca, büyük veri ihtiyaçlarını karşılamak için mevcut kaynakları birbirine bağlamayı ve düzenlemeyi de gerektirir.

Referans mimarisinin mantıksal katmanları aşağıdaki gibidir:

  • Veri Kaynağı Tanımlaması: Bu verilerin nereden kaynaklandığını bilmek.

Kaynak profili oluşturma, mimariye veya büyük veriye karar vermede en önemli adımlardan biridir. Farklı kaynak sistemlerini tanımlamayı ve bunları doğasına ve türüne göre kategorilere ayırmayı içerir.

Veri kaynaklarının profilini çıkarırken dikkat edilecek noktalar:

  1. İç ve dış kaynak sistemlerini tanımlar.
  2. Her kaynaktan alınan veri miktarı için Üst Düzey varsayım
  3. Veri almak için kullanılan mekanizmayı tanımlayın - itin veya çekin
  4. Veri kaynağının türünü belirleyin – Veritabanı, Dosya, web hizmeti, akışlar vb.
  5. Veri türünü belirleyin – yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış
  • Veri Alma Stratejisi ve Toplama : Sisteme veri girişi süreci.

Veri alımı, yukarıda belirtilen kaynaklardan verilerin çıkarılması ile ilgilidir. Bu veriler depoda saklanır ve daha sonra üzerinde daha fazla işlenmek üzere dönüştürülür.

Dikkat edilecek noktalar:

  1. Verilerin her bir kaynaktan alınma sıklığını belirleyin
  2. Veri semantiğini değiştirmeye gerek var mı?
  3. Alımdan önce (Ön işleme) gereken herhangi bir veri doğrulama veya dönüştürme var mı?
  4. Veri kaynaklarını alım moduna göre ayırın – Toplu veya gerçek zamanlı
  • Veri Depolama : Büyük verilerin fiilen depolanacağı tesis.

Her türden büyük miktarda veriyi depolayabilmeli ve ihtiyaca göre ölçeklendirebilmelidir. Sağlayabileceği IOPS (saniyedeki girdi çıktı işlemleri) sayısını da dikkate almalıyız. Hadoop dağıtılmış dosya sistemi, Büyük Veri dünyasında en yaygın kullanılan depolama çerçevesidir, diğerleri NoSQL veri depolarıdır - MongoDB, HBase, Cassandra vb.

Depolama metodolojisini planlarken dikkate alınması gerekenler:

  1. Veri türü (Geçmiş veya Artımlı)
  2. Veri formatı (yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış)
  3. Sıkıştırma gereksinimleri
  4. Gelen verilerin sıklığı
  5. Veri üzerinde sorgu kalıbı
  6. Veri tüketicileri
  • Veri İşleme : Büyük veriler üzerinde analiz sağlayan araçlar.

Yalnızca depolanan veri miktarı değil, aynı zamanda işleme süreci de kat kat arttı.

Daha önce sık erişilen veriler Dinamik RAM'lerde depolanıyordu. Ancak şimdi, büyük hacim nedeniyle ağ üzerinden bağlı bir dizi makinede birden fazla diskte depolanıyor. Bu nedenle, işlenmek üzere veri yığınları toplamak yerine, işleme modülleri büyük veriye alınır. Böylece, ağ G/Ç'sini önemli ölçüde azaltır. İşleme metodolojisi, iş gereksinimleri tarafından yönlendirilir. SLA'ya göre Toplu, gerçek zamanlı veya Hibrit olarak kategorize edilebilir.

  1. Toplu İşleme  - Toplu işlem, belirli bir zaman aralığı için girdiyi topluyor ve bunun üzerinde zamanlanmış bir şekilde dönüşümler çalıştırıyor. Geçmiş veri yüklemesi, tipik bir toplu işlemdir
  2. Gerçek Zamanlı İşleme – Gerçek zamanlı işleme, dönüşümlerin, veriler alınırken ve alınırken çalıştırılmasını içerir.
  3. Hibrit İşleme – Hem toplu hem de gerçek zamanlı işleme ihtiyaçlarının bir birleşimidir.
  • Veri tüketimi/kullanımı : Analiz edilen verileri kullanan kullanıcılar/hizmetler.

Bu katman, işleme katmanı tarafından sağlanan çıktıyı tüketir. Yönetici, İşletme kullanıcıları, satıcı, ortaklar vb. gibi farklı kullanıcılar, verileri farklı biçimde tüketebilir. Analizin çıktısı, öneri motoru tarafından tüketilebilir veya analize dayalı olarak iş süreçleri tetiklenebilir.

Veri tüketiminin farklı biçimleri şunlardır:

  1. Veri setlerini dışa aktar Üçüncü taraf veri seti üretimi için gereksinimler olabilir. Veri kümeleri, kovan dışa aktarma kullanılarak veya doğrudan HDFS'den oluşturulabilir.
  2. Raporlama ve görselleştirme – Farklı raporlama ve görselleştirme aracı taraması, kovan için JDBC/ODBC bağlantısını kullanarak Hadoop'a bağlanır.
  3. Veri Keşfi – Veri bilimcisi, korumalı alan ortamında modeller oluşturabilir ve derin keşif gerçekleştirebilir. Korumalı alan ayrı bir küme (Önerilen yaklaşım) veya aynı küme içinde gerçek verilerin alt kümesini içeren ayrı bir şema olabilir.
  4. Anlık Sorgulama – Anlık veya Etkileşimli sorgulama Hive, Impala veya spark SQL kullanılarak desteklenebilir.

Ayrıca Okuyun:  Büyük Veri: Geleceğin Kabusu mu?

Büyük Veri Mimarisinin İşlevsel Katmanları:

Mimariyi tanımlamanın bir yolu daha olabilir, yani işlevsellik bölümüdür. Ancak işlevsellik kategorileri, referans mimarisinin mantıksal katmanında birlikte gruplandırılabilir, bu nedenle tercih edilen Mimari, Mantıksal Katmanlar kullanılarak yapılır.

İşlevlere dayalı katmanlama aşağıdaki gibidir:

  1. Veri kaynakları:

Bir kuruluşun veri aldığı ve gelecekteki kararlarını almasına yardımcı olabilecek tüm kaynakları analiz etmek bu kategoride listelenmelidir. Burada listelenen veri kaynakları, verilerin yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış olmasından bağımsızdır.

  1. Veri Çıkarma:

Verilerinizi depolamadan, analiz etmeden veya görselleştirmeden önce biraz sahip olmanız gerekir. Veri çıkarma, web sayfası gibi yapılandırılmamış bir şeyi alıp yapılandırılmış bir tabloya dönüştürmekle ilgilidir. Bir kez yapılandırdıktan sonra, aşağıda açıklanan araçları kullanarak içgörüleri bulmak için onu her türlü şekilde manipüle edebilirsiniz.

  1. Veri depolama:

Büyük verilerle çalışırken temel gereklilik, bu verilerin nasıl depolanacağını düşünmektir. Big Data'nın "BÜYÜK" olarak bu ayrımı nasıl elde ettiğinin bir kısmı, geleneksel sistemlerin üstesinden gelemeyecek kadar fazla hale gelmesidir. İyi bir veri depolama sağlayıcısı, diğer tüm analitik araçlarınızı çalıştırabileceğiniz bir altyapının yanı sıra verilerinizi depolamak ve sorgulamak için bir yer sunmalıdır.

  1. Veri temizleme:

Öngörüler için veri madenciliği yapmaya başlamadan önce gerekli bir adım. Temiz, iyi yapılandırılmış bir veri seti oluşturmak her zaman iyi bir uygulamadır. Veri kümeleri, özellikle web'den geldiğinde tüm şekil ve boyutlarda olabilir. Veri gereksiniminize göre bir araç seçin.

  1. Veri madenciliği:

Veri madenciliği, bir veritabanı içindeki içgörüleri keşfetme sürecidir. Veri madenciliğinin amacı, elinizdeki veriler üzerinde karar vermek ve tahminlerde bulunmaktır. Her tür veri için size en iyi tahminleri veren ve veri madenciliği için kendi algoritmalarınızı oluşturmanıza izin veren bir yazılım seçin.

  1. Veri analizi:

Veri madenciliği, önceden tanınmayan kalıpları aramak için verilerinizi gözden geçirmekle ilgiliyken, veri analizi, bu verileri parçalamak ve bu kalıpların fazla mesai etkisini değerlendirmekle ilgilidir. Analytics, belirli sorular sormak ve yanıtları verilerde bulmakla ilgilidir. Hatta gelecekte ne olacağı hakkında sorular sorabilirsiniz!

  1. Veri goruntuleme:

Görselleştirmeler, karmaşık veri içgörülerini aktarmanın parlak ve kolay bir yoludur. Ve en iyi yanı, çoğunun kodlama gerektirmemesidir. Veri görselleştirme şirketleri verilerinizi hayata geçirecek. Herhangi bir veri bilimcisi için zorluğun bir kısmı, bu verilerden elde edilen bilgileri şirketinizin geri kalanına iletmektir. Araçlar, veri içgörülerinizden çizelgeler, haritalar ve benzeri grafikler oluşturmanıza yardımcı olabilir.

  1. Veri Entegrasyonu:

Veri entegrasyon platformları, her program arasındaki yapıştırıcıdır. Araçların farklı çıkarımlarını diğer Yazılımlara bağlarlar. Bu araçlar aracılığıyla görselleştirme araçlarınızın sonuçlarını doğrudan Facebook'ta paylaşabilirsiniz.

  1. Veri Dilleri:

Veri kariyerinizde bir aracın onu kesmeyeceği zamanlar olacaktır. Günümüz araçları daha güçlü ve kullanımı daha kolay hale gelirken, bazen bunları kendiniz kodlamak daha iyidir. İstatistiksel hesaplama ve grafikler gibi farklı konularda size yardımcı olan farklı diller vardır. Bu diller, veri madenciliği ve istatistiksel Yazılımlar için bir ek olarak çalışabilir.

Büyük Veri Referans Mimarisi Katmanlarının İşlevleri

Büyük Veri Mimarisini tasarlarken hatırlanması gereken en önemli şey:

  • Kullanım dinamikleri : Mimariyi tasarlarken göz önünde bulundurulması gereken, makalede gösterildiği gibi bir dizi senaryo vardır - veri formu ve sıklığı, Veri türü, İşlem türü ve gerekli analitik.
  • Sayısız teknoloji:  Piyasadaki araçların çoğalması, neyin ne zaman kullanılacağı konusunda çok fazla kafa karışıklığına neden oldu, benzer özellikler sunan ve diğerlerinden daha iyi olduğunu iddia eden birden fazla teknoloji var.

Tam kanıtlı bir Büyük Veri Çözümü oluşturmak için kullanabileceğiniz farklı araçlar hakkında düşüneceğinizi biliyorum. Pekala, Büyük Veri ile ilgili gelecek yazılarımda, büyük veri mimarisinde farklı görevleri başarmak için en iyi araçlardan bazılarını ele alacağım .



26 Büyük Veri Analitik Tekniğine Bir Bakış: 1. Bölüm

26 Büyük Veri Analitik Tekniğine Bir Bakış: 1. Bölüm

26 Büyük Veri Analitik Tekniğine Bir Bakış: 1. Bölüm

Nintendo Switch Hakkında Son Derece Çılgın 6 Şey

Nintendo Switch Hakkında Son Derece Çılgın 6 Şey

Birçoğunuz Switch'in Mart 2017'de çıkacağını ve yeni özelliklerini biliyorsunuz. Bilmeyenler için, 'Switch'i 'olmazsa olmaz bir gadget' yapan özelliklerin bir listesini hazırladık.

Hala Teslim Edilmeyen Teknoloji Sözleri

Hala Teslim Edilmeyen Teknoloji Sözleri

Teknoloji devlerinin sözlerini yerine getirmesini mi bekliyorsunuz? teslim edilmeyenleri kontrol edin.

Büyük Veri Referans Mimarisi Katmanlarının İşlevleri

Büyük Veri Referans Mimarisi Katmanlarının İşlevleri

Büyük Veri Mimarisindeki farklı katmanları ve işlevlerini en basit şekilde öğrenmek için blogu okuyun.

Yapay Zeka Süreç Otomasyonunu Nasıl Bir Sonraki Seviyeye Taşıyabilir?

Yapay Zeka Süreç Otomasyonunu Nasıl Bir Sonraki Seviyeye Taşıyabilir?

Yapay Zekanın küçük ölçekli şirketler arasında nasıl popüler hale geldiğini ve onları büyütme ve rakiplerine üstünlük sağlama olasılıklarını nasıl artırdığını öğrenmek için bunu okuyun.

CAPTCHA: İnsan-AI Ayrımı İçin Ne Kadar Geçerli Bir Teknik Kalabilir?

CAPTCHA: İnsan-AI Ayrımı İçin Ne Kadar Geçerli Bir Teknik Kalabilir?

CAPTCHA, son birkaç yılda kullanıcıların çözmesi oldukça zorlaştı. Gelecekte spam ve bot tespitinde etkili kalabilecek mi?

Teknolojik Tekillik: İnsan Uygarlığının Uzak Bir Geleceği mi?

Teknolojik Tekillik: İnsan Uygarlığının Uzak Bir Geleceği mi?

Bilim hızla gelişip birçok çabamızı üstlendikçe, kendimizi açıklanamaz bir Tekilliğe maruz bırakmanın riskleri de artıyor. Okuyun, tekillik bizim için ne anlama gelebilir.

Teletıp ve Uzaktan Sağlık Hizmeti: Gelecek Burada

Teletıp ve Uzaktan Sağlık Hizmeti: Gelecek Burada

Teletıp, uzaktan sağlık hizmetleri ve gelecek nesiller üzerindeki etkisi nedir? Pandemi durumunda iyi bir yer mi değil mi? Bir görünüm bulmak için blogu okuyun!

Hackerların Nasıl Para Kazandığını Hiç Merak Ettiniz mi?

Hackerların Nasıl Para Kazandığını Hiç Merak Ettiniz mi?

Bilgisayar korsanlarının çok para kazandığını duymuş olabilirsiniz, ancak bu kadar parayı nasıl kazandıklarını hiç merak ettiniz mi? Hadi tartışalım.

macOS Catalina 10.15.4 Ek Güncellemesi Çözmekten Daha Fazla Soruna Neden Oluyor

macOS Catalina 10.15.4 Ek Güncellemesi Çözmekten Daha Fazla Soruna Neden Oluyor

Son zamanlarda Apple, sorunları gidermek için macOS Catalina 10.15.4'ü ek bir güncelleme yayınladı, ancak güncelleme, mac makinelerinde tuğla oluşmasına neden olan daha fazla soruna neden oluyor gibi görünüyor. Daha fazla bilgi edinmek için bu makaleyi okuyun