وظائف طبقات معمارية مرجعية للبيانات الضخمة

في رسالتي الأخيرة ، ناقشنا حول تحليل مشكلة العمل والخطوات الأساسية لتصميم بنية البيانات الضخمة. اليوم ، سأتحدث عن طبقات مختلفة في بنية البيانات الضخمة ووظائفها.

الطبقات المنطقية للبنية المرجعية للبيانات الضخمة

وراء بنية البيانات الضخمة ، تكمن الفكرة الأساسية في توثيق الأساس الصحيح للهندسة المعمارية والبنية التحتية والتطبيقات. وبالتالي ، فإن هذا يسمح للشركات باستخدام البيانات الضخمة بشكل أكثر فعالية على أساس يومي.

تم إنشاؤه من قبل مصممي البيانات الضخمة / المهندسين المعماريين قبل تنفيذ أي حل فعليًا. يتطلب إنشاء بنية البيانات الضخمة بشكل عام فهم العمل / المنظمة واحتياجاتها من البيانات الضخمة. عادةً ما تحدد هياكل البيانات الضخمة مكونات الأجهزة والبرامج الضرورية لتحقيق حل البيانات الضخمة. قد تصف مستندات هندسة البيانات الضخمة أيضًا بروتوكولات لمشاركة البيانات وتكامل التطبيقات وأمن المعلومات.

مزيد من المعلومات:  دليل المبتدئين لتحليلات البيانات الضخمة

كما يستلزم ربط وتنظيم الموارد الحالية لخدمة احتياجات البيانات الضخمة.

الطبقات المنطقية للهندسة المرجعية هي كما يلي:

  • تحديد مصدر البيانات: معرفة مصدر هذه البيانات.

يعد تصنيف المصدر أحد أهم الخطوات في تحديد البنية أو البيانات الضخمة. يتضمن تحديد أنظمة المصادر المختلفة وتصنيفها بناءً على طبيعتها ونوعها.

النقاط التي يجب مراعاتها أثناء تحديد مصادر البيانات:

  1. تحديد أنظمة المصادر الداخلية والخارجية.
  2. افتراض عالي المستوى لكمية البيانات التي يتم إدخالها من كل مصدر
  3. تحديد الآلية المستخدمة للحصول على البيانات - دفع أو سحب
  4. تحديد نوع مصدر البيانات - قاعدة بيانات ، ملف ، خدمة ويب ، تدفقات ، إلخ.
  5. تحديد نوع البيانات - منظمة أو شبه منظمة أو غير منظمة
  • إستراتيجية استيعاب البيانات والحصول عليها : عملية إدخال البيانات في النظام.

يتعلق استيعاب البيانات باستخراج البيانات من المصادر المذكورة أعلاه. يتم تخزين هذه البيانات في التخزين ثم يتم تحويلها بعد ذلك لمزيد من المعالجة عليها.

النقاط التي يجب مراعاتها:

  1. حدد التكرار الذي سيتم عنده استيعاب البيانات من كل مصدر
  2. هل هناك حاجة لتغيير دلالات البيانات؟
  3. هل يلزم التحقق من صحة البيانات أو تحويلها قبل الاستيعاب (المعالجة المسبقة)؟
  4. افصل بين مصادر البيانات بناءً على طريقة العرض - دفعة أو في الوقت الفعلي
  • تخزين البيانات : المرفق الذي سيتم تخزين البيانات الضخمة فيه بالفعل.

يجب أن يكون المرء قادرًا على تخزين كميات كبيرة من البيانات من أي نوع ويجب أن يكون قادرًا على التوسع حسب الحاجة. يجب أن نأخذ في الاعتبار أيضًا عدد IOPS (عمليات إخراج الإدخال في الثانية) التي يمكن أن توفرها. نظام الملفات الموزعة Hadoop هو إطار التخزين الأكثر استخدامًا في عالم البيانات الكبيرة ، والبعض الآخر هو مخازن بيانات NoSQL - MongoDB و HBase و Cassandra وما إلى ذلك.

أشياء يجب مراعاتها أثناء التخطيط لمنهجية التخزين:

  1. نوع البيانات (تاريخية أو تزايدي)
  2. تنسيق البيانات (منظم وشبه منظم وغير منظم)
  3. متطلبات الضغط
  4. تردد البيانات الواردة
  5. نمط الاستعلام على البيانات
  6. مستهلكي البيانات
  • معالجة البيانات : الأدوات التي توفر تحليل البيانات الضخمة.

ليس فقط كمية البيانات التي يتم تخزينها ولكن المعالجة أيضًا قد زادت مضاعفًا.

تم تخزين البيانات التي تم الوصول إليها بشكل متكرر في وقت سابق في ذاكرة الوصول العشوائي الديناميكية. ولكن الآن ، يتم تخزينه على عدة أقراص على عدد من الأجهزة المتصلة عبر الشبكة بسبب الحجم الهائل. لذلك ، بدلاً من جمع أجزاء البيانات للمعالجة ، يتم نقل وحدات المعالجة إلى البيانات الضخمة. وبالتالي ، الحد بشكل كبير من شبكة الإدخال / الإخراج. منهجية المعالجة مدفوعة بمتطلبات العمل. يمكن تصنيفها إلى دفعة أو وقت حقيقي أو هجين بناءً على اتفاقية مستوى الخدمة.

  1. معالجة الدُفعات  - تقوم الدُفعة بتجميع المدخلات لفترة زمنية محددة وتشغيل عمليات التحويل عليها بطريقة مجدولة. تحميل البيانات التاريخية هو عملية دفعية نموذجية
  2. المعالجة في الوقت الفعلي - تتضمن المعالجة في الوقت الفعلي تشغيل عمليات التحويل عند الحصول على البيانات.
  3. المعالجة المختلطة - إنها مزيج من احتياجات المعالجة على شكل دفعات وفي الوقت الفعلي.
  • استهلاك / استخدام البيانات : المستخدمون / الخدمات التي تستخدم البيانات التي تم تحليلها.

تستهلك هذه الطبقة المخرجات التي توفرها طبقة المعالجة. يمكن لمستخدمين مختلفين مثل المسؤول ومستخدمي الأعمال والبائعين والشركاء وما إلى ذلك أن يستهلكوا البيانات بتنسيق مختلف. يمكن استهلاك مخرجات التحليل بواسطة محرك التوصية أو يمكن تشغيل العمليات التجارية بناءً على التحليل.

الأشكال المختلفة لاستهلاك البيانات هي:

  1. تصدير مجموعات البيانات - يمكن أن تكون هناك متطلبات لإنشاء مجموعة بيانات تابعة لجهات خارجية. يمكن إنشاء مجموعات البيانات باستخدام تصدير الخلية أو مباشرة من HDFS.
  2. إعداد التقارير والتصور - تتصل أداة الفحص المختلفة لإعداد التقارير والتصور بـ Hadoop باستخدام اتصال JDBC / ODBC بالخلية.
  3. استكشاف البيانات - يمكن لعالم البيانات بناء نماذج وإجراء استكشاف عميق في بيئة وضع الحماية. يمكن أن يكون Sandbox مجموعة منفصلة (نهج موصى به) أو مخطط منفصل داخل نفس المجموعة يحتوي على مجموعة فرعية من البيانات الفعلية.
  4. استعلام مخصص - يمكن دعم الاستعلام المخصص أو التفاعلي باستخدام Hive أو Impala أو spark SQL.

اقرأ أيضًا:  البيانات الضخمة: كابوس مستقبلي؟

الطبقات الوظيفية لهندسة البيانات الضخمة:

يمكن أن تكون هناك طريقة أخرى لتعريف البنية ، أي من خلال قسم الوظائف. ولكن يمكن تجميع فئات الوظائف معًا في الطبقة المنطقية للبنية المرجعية ، لذلك ، فإن العمارة المفضلة هي تلك التي يتم إجراؤها باستخدام الطبقات المنطقية.

الطبقات القائمة على الوظائف هي كما يلي:

  1. مصادر البيانات:

يجب إدراج تحليل جميع المصادر التي تتلقى منها المنظمة البيانات والتي يمكن أن تساعد المنظمة في اتخاذ قراراتها المستقبلية في هذه الفئة. مصادر البيانات المدرجة هنا بغض النظر عن حقيقة ما إذا كانت البيانات منظمة أو غير منظمة أو شبه منظمة.

  1. استخراج البيانات:

قبل أن تتمكن من تخزين بياناتك أو تحليلها أو تصورها ، يجب أن يكون لديك بعض منها. يتعلق استخراج البيانات بأخذ شيء غير منظم ، مثل صفحة ويب ، وتحويله إلى جدول منظم. بمجرد أن يتم تنظيمها ، يمكنك معالجتها بكل أنواع الطرق ، باستخدام الأدوات الموضحة أدناه ، للعثور على رؤى.

  1. مخزن البيانات:

الضرورة الأساسية أثناء العمل مع البيانات الضخمة هي التفكير في كيفية تخزين تلك البيانات. جزء من كيفية تمييز البيانات الضخمة على أنها "كبيرة" هو أنها أصبحت أكثر من اللازم على الأنظمة التقليدية للتعامل معها. يجب أن يوفر لك موفر تخزين البيانات الجيد بنية تحتية لتشغيل جميع أدوات التحليلات الأخرى بالإضافة إلى مكان لتخزين بياناتك والاستعلام عنها.

  1. تنظيف البيانات:

خطوة ضرورية مسبقًا قبل أن نبدأ بالفعل في استخراج البيانات للحصول على رؤى. من الممارسات الجيدة دائمًا إنشاء مجموعة بيانات نظيفة وجيدة التنظيم. يمكن أن تأتي مجموعات البيانات بجميع الأشكال والأحجام ، خاصة عندما تأتي من الويب. اختر أداة حسب متطلبات البيانات الخاصة بك.

  1. بيانات التعدين:

التنقيب عن البيانات هو عملية اكتشاف الرؤى داخل قاعدة البيانات. الهدف من التنقيب في البيانات هو اتخاذ القرارات والتنبؤات بشأن البيانات التي لديك. اختر برنامجًا يمنحك أفضل التنبؤات لجميع أنواع البيانات ويتيح لك إنشاء الخوارزميات الخاصة بك لاستخراج البيانات.

  1. تحليلات البيانات:

في حين أن التنقيب عن البيانات يدور حول غربلة بياناتك بحثًا عن أنماط غير معترف بها سابقًا ، فإن تحليل البيانات يدور حول تحطيم تلك البيانات وتقييم تأثير تلك الأنماط بمرور الوقت. التحليلات تدور حول طرح أسئلة محددة وإيجاد الإجابات في البيانات. يمكنك حتى طرح أسئلة حول ما سيحدث في المستقبل!

  1. عرض مرئي للمعلومات:

تعد المرئيات طريقة سهلة ومشرقة لنقل رؤى البيانات المعقدة. وأفضل جزء هو أن معظمهم لا يحتاجون إلى أي تشفير. ستجعل شركات تصور البيانات بياناتك تنبض بالحياة. جزء من التحدي الذي يواجهه أي عالم بيانات هو نقل الرؤى من تلك البيانات إلى بقية شركتك. يمكن أن تساعدك الأدوات في إنشاء المخططات والخرائط والرسومات الأخرى من رؤى البيانات الخاصة بك.

  1. تكامل البيانات:

منصات تكامل البيانات هي الرابط بين كل برنامج. يربطون الاستدلالات المختلفة للأدوات مع البرامج الأخرى. يمكنك مشاركة نتائج أدوات التصور مباشرة على Facebook من خلال هذه الأدوات.

  1. لغات البيانات:

ستكون هناك أوقات في حياتك المهنية في مجال البيانات عندما لا تقوم الأداة بقطعها. بينما أصبحت أدوات اليوم أكثر قوة وأسهل في الاستخدام ، فمن الأفضل أحيانًا ترميزها بنفسك. هناك لغات مختلفة تساعدك في جوانب مختلفة مثل الحوسبة والرسومات الإحصائية. يمكن أن تعمل هذه اللغات كمكمل للتنقيب عن البيانات والبرامج الإحصائية.

وظائف طبقات معمارية مرجعية للبيانات الضخمة

الشيء الأساسي الذي يجب تذكره في تصميم بنية البيانات الضخمة هو:

  • ديناميات الاستخدام : هناك عدد من السيناريوهات كما هو موضح في المقالة والتي يجب أخذها في الاعتبار أثناء تصميم البنية - شكل وتكرار البيانات ونوع البيانات ونوع المعالجة والتحليلات المطلوبة.
  • عدد لا يحصى من التقنيات: أدى  انتشار الأدوات في السوق إلى الكثير من الالتباس حول ما يجب استخدامه ومتى ، هناك العديد من التقنيات التي تقدم ميزات متشابهة وتدعي أنها أفضل من غيرها.

أعلم أنك ستفكر في أدوات مختلفة لاستخدامها في تقديم حل كامل للبيانات الضخمة. حسنًا ، في مشاركاتي القادمة حول البيانات الضخمة ، سأغطي بعض أفضل الأدوات لتحقيق مهام مختلفة في هندسة البيانات الضخمة .



Leave a Comment

نظرة ثاقبة على 26 أسلوبًا لتحليل البيانات الضخمة: الجزء الأول

نظرة ثاقبة على 26 أسلوبًا لتحليل البيانات الضخمة: الجزء الأول

نظرة ثاقبة على 26 أسلوبًا لتحليل البيانات الضخمة: الجزء الأول

6 أشياء شديدة الجنون حول نينتندو سويتش

6 أشياء شديدة الجنون حول نينتندو سويتش

يعرف الكثير منكم أن Switch سيصدر في مارس 2017 وميزاته الجديدة. بالنسبة لأولئك الذين لا يعرفون ، قمنا بإعداد قائمة بالميزات التي تجعل "التبديل" "أداة لا غنى عنها".

وعود التكنولوجيا التي لم يتم الوفاء بها بعد

وعود التكنولوجيا التي لم يتم الوفاء بها بعد

هل تنتظر عمالقة التكنولوجيا للوفاء بوعودهم؟ تحقق من ما تبقى دون تسليم.

وظائف طبقات معمارية مرجعية للبيانات الضخمة

وظائف طبقات معمارية مرجعية للبيانات الضخمة

اقرأ المدونة لمعرفة الطبقات المختلفة في بنية البيانات الضخمة ووظائفها بأبسط طريقة.

كيف يمكن للذكاء الاصطناعي نقل أتمتة العمليات إلى المستوى التالي؟

كيف يمكن للذكاء الاصطناعي نقل أتمتة العمليات إلى المستوى التالي؟

اقرأ هذا لمعرفة مدى انتشار الذكاء الاصطناعي بين الشركات الصغيرة وكيف أنه يزيد من احتمالات نموها ومنح منافسيها القدرة على التفوق.

CAPTCHA: ما هي المدة التي يمكن أن تظل تقنية قابلة للتطبيق للتميز بين الإنسان والذكاء الاصطناعي؟

CAPTCHA: ما هي المدة التي يمكن أن تظل تقنية قابلة للتطبيق للتميز بين الإنسان والذكاء الاصطناعي؟

لقد أصبح حل CAPTCHA صعبًا جدًا على المستخدمين في السنوات القليلة الماضية. هل ستكون قادرة على أن تظل فعالة في اكتشاف البريد العشوائي والروبوتات في المستقبل القريب؟

التفرد التكنولوجي: مستقبل بعيد للحضارة الإنسانية؟

التفرد التكنولوجي: مستقبل بعيد للحضارة الإنسانية؟

مع تطور العلم بمعدل سريع ، واستلام الكثير من جهودنا ، تزداد أيضًا مخاطر تعريض أنفسنا إلى تفرد غير قابل للتفسير. اقرأ ، ماذا يمكن أن يعني التفرد بالنسبة لنا.

التطبيب عن بعد والرعاية الصحية عن بعد: المستقبل هنا

التطبيب عن بعد والرعاية الصحية عن بعد: المستقبل هنا

ما هو التطبيب عن بعد والرعاية الصحية عن بعد وأثره على الأجيال القادمة؟ هل هو مكان جيد أم لا في حالة الوباء؟ اقرأ المدونة لتجد طريقة عرض!

هل تساءلت يومًا كيف يربح المتسللون الأموال؟

هل تساءلت يومًا كيف يربح المتسللون الأموال؟

ربما سمعت أن المتسللين يكسبون الكثير من المال ، لكن هل تساءلت يومًا كيف يجنون هذا النوع من المال؟ دعنا نناقش.

يتسبب التحديث الإضافي لنظام macOS Catalina 10.15.4 في حدوث مشكلات أكثر من حلها

يتسبب التحديث الإضافي لنظام macOS Catalina 10.15.4 في حدوث مشكلات أكثر من حلها

أصدرت Apple مؤخرًا macOS Catalina 10.15.4 تحديثًا تكميليًا لإصلاح المشكلات ولكن يبدو أن التحديث يتسبب في المزيد من المشكلات التي تؤدي إلى إنشاء أجهزة macOS. قراءة هذه المادة لمعرفة المزيد