ฟังก์ชันของเลเยอร์สถาปัตยกรรมอ้างอิงข้อมูลขนาดใหญ่

ในโพสต์ที่แล้ว เราได้พูดคุยกันเกี่ยวกับการวิเคราะห์ปัญหาทางธุรกิจและขั้นตอนพื้นฐานในการออกแบบสถาปัตยกรรม Big Data วันนี้ ฉันจะพูดถึงเลเยอร์ต่างๆ ใน ​​Big Data Architecture และฟังก์ชันของเลเยอร์เหล่านั้น

เลเยอร์ตรรกะของสถาปัตยกรรมอ้างอิงข้อมูลขนาดใหญ่

เบื้องหลังสถาปัตยกรรมบิ๊กดาต้า แนวคิดหลักคือการจัดทำเอกสารพื้นฐานที่ถูกต้องของสถาปัตยกรรม โครงสร้างพื้นฐาน และแอปพลิเคชัน ส่งผลให้ธุรกิจต่างๆ ใช้ข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพมากขึ้นทุกวัน

มันถูกสร้างขึ้นโดยนักออกแบบ/สถาปนิกบิ๊กดาต้าก่อนที่จะนำโซลูชันไปใช้จริง การสร้างสถาปัตยกรรมบิ๊กดาต้าโดยทั่วไปต้องมีความเข้าใจในธุรกิจ/องค์กรและความต้องการบิ๊กดาต้า โดยทั่วไป สถาปัตยกรรมบิ๊กดาต้าจะร่างส่วนประกอบฮาร์ดแวร์และซอฟต์แวร์ที่จำเป็นต่อการแก้ปัญหาบิ๊กดาต้า เอกสารสถาปัตยกรรมข้อมูลขนาดใหญ่อาจอธิบายโปรโตคอลสำหรับการแบ่งปันข้อมูล การรวมแอปพลิเคชัน และความปลอดภัยของข้อมูล

ข้อมูลเพิ่มเติม:  คู่มือเริ่มต้นสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

นอกจากนี้ยังเกี่ยวข้องกับการเชื่อมต่อและจัดระเบียบทรัพยากรที่มีอยู่เพื่อตอบสนองความต้องการข้อมูลขนาดใหญ่

เลเยอร์ตรรกะของสถาปัตยกรรมอ้างอิงมีดังนี้:

  • การระบุแหล่งข้อมูล: การรู้ว่าข้อมูลนี้มีที่มาที่ใด

การทำโปรไฟล์ต้นทางเป็นหนึ่งในขั้นตอนที่สำคัญที่สุดในการตัดสินใจเลือกสถาปัตยกรรมหรือข้อมูลขนาดใหญ่ มันเกี่ยวข้องกับการระบุระบบต้นทางที่แตกต่างกันและจัดหมวดหมู่ตามลักษณะและประเภทของระบบ

ประเด็นที่ต้องพิจารณาขณะทำโปรไฟล์แหล่งข้อมูล:

  1. ระบุระบบแหล่งที่มาภายในและภายนอก
  2. สมมติฐานระดับสูงสำหรับปริมาณข้อมูลที่นำเข้าจากแต่ละแหล่ง
  3. ระบุกลไกที่ใช้ในการรับข้อมูล – ผลักหรือดึง
  4. กำหนดประเภทของแหล่งข้อมูล – ฐานข้อมูล ไฟล์ บริการเว็บ สตรีม ฯลฯ
  5. กำหนดประเภทของข้อมูล – มีโครงสร้าง กึ่งมีโครงสร้าง หรือไม่มีโครงสร้าง
  • Data Ingestion Strategy and Acquisition :กระบวนการป้อนข้อมูลเข้าสู่ระบบ

การนำเข้าข้อมูลเป็นข้อมูลเกี่ยวกับการดึงข้อมูลจากแหล่งที่กล่าวถึงข้างต้น ข้อมูลนี้ถูกเก็บไว้ในที่จัดเก็บและหลังจากนั้นจะถูกแปลงสำหรับการประมวลผลต่อไป

ประเด็นที่ต้องพิจารณา:

  1. กำหนดความถี่ที่จะนำเข้าข้อมูลจากแต่ละแหล่ง
  2. จำเป็นต้องเปลี่ยนความหมายของข้อมูลหรือไม่?
  3. จำเป็นต้องมีการตรวจสอบความถูกต้องหรือการแปลงข้อมูลก่อนการนำเข้า (การประมวลผลล่วงหน้า) หรือไม่
  4. แยกแหล่งข้อมูลตามโหมดการนำเข้า – แบทช์หรือเรียลไทม์
  • การจัดเก็บข้อมูล :สิ่งอำนวยความสะดวกที่จะจัดเก็บข้อมูลขนาดใหญ่

หนึ่งควรสามารถจัดเก็บข้อมูลจำนวนมากได้ทุกประเภทและควรสามารถปรับขนาดได้ตามความต้องการ เราควรพิจารณาจำนวน IOPS (การดำเนินการอินพุตเอาต์พุตต่อวินาที) ที่สามารถให้ได้ ระบบไฟล์แบบกระจายของ Hadoop เป็นเฟรมเวิร์กพื้นที่เก็บข้อมูลที่ใช้กันมากที่สุดในโลกของ Big Data ส่วนอื่นๆ ได้แก่ พื้นที่เก็บข้อมูล NoSQL – MongoDB, HBase, Cassandra เป็นต้น

สิ่งที่ต้องพิจารณาขณะวางแผนวิธีการจัดเก็บ:

  1. ประเภทของข้อมูล (ประวัติหรือส่วนเพิ่ม)
  2. รูปแบบของข้อมูล (มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง)
  3. ข้อกำหนดการบีบอัด
  4. ความถี่ของข้อมูลขาเข้า
  5. รูปแบบแบบสอบถามบน data
  6. ผู้บริโภคข้อมูล
  • การประมวลผลข้อมูล : เครื่องมือที่ให้การวิเคราะห์ข้อมูลขนาดใหญ่

ไม่เพียงแค่ปริมาณข้อมูลที่จัดเก็บเท่านั้น แต่การประมวลผลยังเพิ่มขึ้นหลายเท่า

ข้อมูลที่เข้าถึงบ่อยก่อนหน้านี้ถูกเก็บไว้ใน Dynamic RAM แต่ตอนนี้ มันถูกเก็บไว้ในดิสก์หลายตัวในเครื่องจำนวนหนึ่งที่เชื่อมต่อผ่านเครือข่ายเนื่องจากมีปริมาณมาก ดังนั้น แทนที่จะรวบรวมข้อมูลสำหรับการประมวลผล โมดูลการประมวลผลจะถูกนำไปที่ข้อมูลขนาดใหญ่ ดังนั้น ลด I/O ของเครือข่ายลงอย่างมาก วิธีการประมวลผลเป็นไปตามข้อกำหนดทางธุรกิจ สามารถจัดประเภทเป็นแบทช์ เรียลไทม์ หรือไฮบริดตาม SLA

  1. การประมวลผลแบบแบตช์  – แบทช์กำลังรวบรวมอินพุตสำหรับช่วงเวลาที่กำหนดและเรียกใช้การแปลงตามวิธีที่กำหนดไว้ การโหลดข้อมูลในอดีตเป็นการดำเนินการแบบแบตช์ทั่วไป
  2. การประมวลผลตามเวลาจริง – การประมวลผลตามเวลาจริงเกี่ยวข้องกับการเรียกใช้การแปลงข้อมูลเมื่อได้รับข้อมูล
  3. การประมวลผลแบบไฮบริด – เป็นการผสมผสานระหว่างความต้องการการประมวลผลแบบแบตช์และแบบเรียลไทม์
  • ปริมาณการใช้/การใช้ข้อมูล : ผู้ใช้/บริการที่ใช้ข้อมูลที่วิเคราะห์

เลเยอร์นี้ใช้เอาต์พุตที่มาจากเลเยอร์การประมวลผล ผู้ใช้ที่แตกต่างกัน เช่น ผู้ดูแลระบบ ผู้ใช้ทางธุรกิจ ผู้ขาย คู่ค้า ฯลฯ สามารถใช้ข้อมูลในรูปแบบที่แตกต่างกันได้ ผลลัพธ์ของการวิเคราะห์สามารถใช้ได้โดยกลไกการแนะนำ หรือกระบวนการทางธุรกิจสามารถทริกเกอร์ได้ตามการวิเคราะห์

การใช้ข้อมูลในรูปแบบต่างๆ ได้แก่

  1. ส่งออกชุดข้อมูลอาจมีข้อกำหนดสำหรับการสร้างชุดข้อมูลบุคคลที่สาม สามารถสร้างชุดข้อมูลได้โดยใช้การเอ็กซ์พอร์ตไฮฟ์หรือโดยตรงจาก HDFS
  2. การรายงานและการแสดงภาพ – การสแกนเครื่องมือการรายงานและการแสดงภาพแบบต่างๆ เชื่อมต่อกับ Hadoop โดยใช้การเชื่อมต่อ JDBC/ODBC กับกลุ่ม
  3. การสำรวจข้อมูล – นักวิทยาศาสตร์ข้อมูลสามารถสร้างแบบจำลองและทำการสำรวจเชิงลึกในสภาพแวดล้อมแบบแซนด์บ็อกซ์ แซนด์บ็อกซ์อาจเป็นคลัสเตอร์แยกต่างหาก (แนวทางที่แนะนำ) หรือสคีมาแยกต่างหากภายในคลัสเตอร์เดียวกันที่มีชุดย่อยของข้อมูลจริง
  4. การสืบค้นข้อมูลแบบเฉพาะเจาะจง - รองรับการสืบค้นข้อมูลแบบเฉพาะกิจหรือเชิงโต้ตอบโดยใช้ Hive, Impala หรือ spark SQL

อ่านเพิ่มเติม:  Big Data: ฝันร้ายในอนาคต?

เลเยอร์การทำงานของสถาปัตยกรรมบิ๊กดาต้า:

อาจมีอีกวิธีหนึ่งในการกำหนดสถาปัตยกรรม กล่าวคือ ผ่านแผนกฟังก์ชันการทำงาน แต่หมวดหมู่การทำงานสามารถจัดกลุ่มเข้าด้วยกันเป็นเลเยอร์ตรรกะของสถาปัตยกรรมอ้างอิง ดังนั้นสถาปัตยกรรมที่ต้องการจึงทำได้โดยใช้ Logical Layers

การแบ่งชั้นตามฟังก์ชันมีดังนี้:

  1. แหล่งข้อมูล:

การวิเคราะห์แหล่งที่มาทั้งหมดที่องค์กรได้รับข้อมูลและที่อาจช่วยองค์กรในการตัดสินใจในอนาคตควรแสดงอยู่ในหมวดหมู่นี้ แหล่งข้อมูลที่แสดงในที่นี้โดยไม่คำนึงถึงข้อเท็จจริงว่าข้อมูลมีโครงสร้าง ไม่มีโครงสร้าง หรือกึ่งมีโครงสร้าง

  1. การดึงข้อมูล:

ก่อนที่คุณจะสามารถจัดเก็บ วิเคราะห์ หรือแสดงภาพข้อมูลของคุณ คุณต้องมีบางอย่างเสียก่อน การดึงข้อมูลเป็นเรื่องเกี่ยวกับการนำสิ่งที่ไม่มีโครงสร้างมาใช้ เช่น หน้าเว็บ และเปลี่ยนให้เป็นตารางที่มีโครงสร้าง เมื่อคุณจัดโครงสร้างแล้ว คุณสามารถจัดการได้หลายวิธี โดยใช้เครื่องมือที่อธิบายไว้ด้านล่างเพื่อค้นหาข้อมูลเชิงลึก

  1. การจัดเก็บข้อมูล:

ความจำเป็นพื้นฐานในการทำงานกับข้อมูลขนาดใหญ่คือการคิดว่าจะจัดเก็บข้อมูลนั้นอย่างไร ส่วนหนึ่งของการที่ Big Data ถูกมองว่าเป็น “BIG” ก็คือการที่ระบบดั้งเดิมจัดการได้มากเกินไป ผู้ให้บริการจัดเก็บข้อมูลที่ดีควรเสนอโครงสร้างพื้นฐานสำหรับใช้งานเครื่องมือวิเคราะห์อื่นๆ ทั้งหมดของคุณ รวมถึงสถานที่สำหรับจัดเก็บและสืบค้นข้อมูลของคุณ

  1. การล้างข้อมูล:

ขั้นตอนที่จำเป็นก่อนที่เราจะเริ่มต้นขุดข้อมูลเพื่อข้อมูลเชิงลึก แนวทางปฏิบัติที่ดีในการสร้างชุดข้อมูลที่สะอาดและมีโครงสร้างที่ดีถือเป็นแนวทางปฏิบัติที่ดี ชุดข้อมูลสามารถมาในรูปทรงและขนาดต่างๆ ได้ โดยเฉพาะเมื่อมาจากเว็บ เลือกเครื่องมือตามความต้องการข้อมูลของคุณ

  1. การทำเหมืองข้อมูล:

การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหาข้อมูลเชิงลึกภายในฐานข้อมูล เป้าหมายของการขุดข้อมูลคือการตัดสินใจและคาดการณ์ข้อมูลที่คุณมีอยู่ เลือกซอฟต์แวร์ที่ให้การคาดการณ์ที่ดีที่สุดสำหรับข้อมูลทุกประเภท และให้คุณสร้างอัลกอริทึมของคุณเองสำหรับการขุดข้อมูล

  1. การวิเคราะห์ข้อมูล:

แม้ว่าการทำเหมืองข้อมูลจะเกี่ยวกับการกลั่นกรองข้อมูลของคุณในการค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ การวิเคราะห์ข้อมูลเป็นการทำลายข้อมูลนั้นลงและประเมินผลกระทบของรูปแบบการทำงานล่วงเวลาเหล่านั้น Analytics เป็นการถามคำถามเฉพาะและค้นหาคำตอบในข้อมูล คุณยังสามารถถามคำถามเกี่ยวกับสิ่งที่จะเกิดขึ้นในอนาคตได้อีกด้วย!

  1. การแสดงข้อมูล:

การแสดงภาพเป็นวิธีที่สดใสและง่ายดายในการถ่ายทอดข้อมูลเชิงลึกที่ซับซ้อน และส่วนที่ดีที่สุดคือส่วนใหญ่ไม่ต้องการการเข้ารหัส บริษัทสร้างภาพข้อมูลจะทำให้ข้อมูลของคุณมีชีวิตชีวา ความท้าทายส่วนหนึ่งของนักวิทยาศาสตร์ด้านข้อมูลคือการถ่ายทอดข้อมูลเชิงลึกจากข้อมูลนั้นไปยังส่วนอื่นๆ ในบริษัทของคุณ เครื่องมือสามารถช่วยคุณสร้างแผนภูมิ แผนที่ และกราฟิกอื่นๆ จากข้อมูลเชิงลึกของคุณ

  1. การรวมข้อมูล:

แพลตฟอร์มการรวมข้อมูลเป็นตัวเชื่อมระหว่างแต่ละโปรแกรม พวกเขาเชื่อมต่อการอนุมานต่างๆ ของเครื่องมือกับซอฟต์แวร์อื่นๆ คุณสามารถแชร์ผลลัพธ์ของเครื่องมือสร้างภาพของคุณโดยตรงบน Facebook ผ่านเครื่องมือเหล่านี้

  1. ภาษาข้อมูล:

จะมีบางครั้งในอาชีพข้อมูลของคุณที่เครื่องมือไม่สามารถตัดมันได้ แม้ว่าเครื่องมือในปัจจุบันจะมีประสิทธิภาพมากขึ้นและใช้งานง่ายขึ้น แต่บางครั้งก็เป็นการดีกว่าที่จะเขียนโค้ดด้วยตัวเอง มีภาษาต่างๆ ที่ช่วยคุณในด้านต่างๆ เช่น การคำนวณทางสถิติและกราฟิก ภาษาเหล่านี้สามารถใช้เป็นส่วนเสริมสำหรับการทำเหมืองข้อมูลและซอฟต์แวร์ทางสถิติ

ฟังก์ชันของเลเยอร์สถาปัตยกรรมอ้างอิงข้อมูลขนาดใหญ่

สิ่งสำคัญที่ต้องจำในการออกแบบ Big Data Architecture คือ:

  • พลวัตของการใช้งาน : มีหลายสถานการณ์ตามที่แสดงในบทความซึ่งจำเป็นต้องพิจารณาในขณะที่ออกแบบสถาปัตยกรรม – รูปแบบและความถี่ของข้อมูล ประเภทของข้อมูล ประเภทของการประมวลผลและการวิเคราะห์ที่ต้องการ
  • เทคโนโลยีมากมาย: การเพิ่ม จำนวนเครื่องมือในตลาดทำให้เกิดความสับสนอย่างมากเกี่ยวกับสิ่งที่ควรใช้ และเมื่อใดจะมีเทคโนโลยีหลายอย่างที่นำเสนอคุณลักษณะที่คล้ายคลึงกันและอ้างว่าดีกว่าเทคโนโลยีอื่นๆ

ฉันรู้ว่าคุณกำลังคิดเกี่ยวกับเครื่องมือต่างๆ ที่จะใช้เพื่อสร้างโซลูชัน Big Data แบบสมบูรณ์ ทั้งในการโพสต์ที่จะเกิดขึ้นของฉันเกี่ยวกับข้อมูลขนาดใหญ่ฉันจะครอบคลุมเครื่องมือที่ดีที่สุดเพื่อให้บรรลุงานที่แตกต่างกันในสถาปัตยกรรมข้อมูลขนาดใหญ่



Leave a Comment

วิธีการติดตั้ง Directus 6.4 CMS บน CentOS 7 LAMP VPS

วิธีการติดตั้ง Directus 6.4 CMS บน CentOS 7 LAMP VPS

เรียนรู้วิธีการติดตั้ง Directus 6.4 CMS บน CentOS 7; ระบบการจัดการเนื้อหา Headless ที่มีความยืดหยุ่นสูงและปลอดภัย

ตั้งค่า Nginx บน Ubuntu เพื่อสตรีมวิดีโอสด HLS

ตั้งค่า Nginx บน Ubuntu เพื่อสตรีมวิดีโอสด HLS

เรียนรู้วิธีการตั้งค่า Nginx บน Ubuntu สำหรับการสตรีมวิดีโอสด HLS ด้วยคำแนะนำที่ชัดเจนและเป็นประโยชน์

การสำรองข้อมูลยอดนิยมด้วย Percona XtraBackup บนแอพ WordPress แบบคลิกเดียว

การสำรองข้อมูลยอดนิยมด้วย Percona XtraBackup บนแอพ WordPress แบบคลิกเดียว

เรียนรู้การใช้ Percona XtraBackup สำหรับการสำรองข้อมูลด้วยวิธีที่เป็นระบบและง่ายดายบน WordPress ออนไลน์ของคุณ

ReactOS: นี่คืออนาคตของ Windows หรือไม่?

ReactOS: นี่คืออนาคตของ Windows หรือไม่?

ReactOS ซึ่งเป็นโอเพ่นซอร์สและระบบปฏิบัติการฟรีพร้อมเวอร์ชันล่าสุดแล้ว สามารถตอบสนองความต้องการของผู้ใช้ Windows ยุคใหม่และล้ม Microsoft ได้หรือไม่? มาหาข้อมูลเพิ่มเติมเกี่ยวกับรูปแบบเก่านี้ แต่เป็นประสบการณ์ OS ที่ใหม่กว่ากัน

AI สามารถต่อสู้กับการโจมตีของแรนซัมแวร์ที่เพิ่มขึ้นได้หรือไม่

AI สามารถต่อสู้กับการโจมตีของแรนซัมแวร์ที่เพิ่มขึ้นได้หรือไม่

การโจมตีของ Ransomware กำลังเพิ่มขึ้น แต่ AI สามารถช่วยจัดการกับไวรัสคอมพิวเตอร์ตัวล่าสุดได้หรือไม่? AI คือคำตอบ? อ่านที่นี่รู้ว่า AI boone หรือ bane

เชื่อมต่อผ่าน WhatsApp Desktop App 24*7

เชื่อมต่อผ่าน WhatsApp Desktop App 24*7

ในที่สุด Whatsapp ก็เปิดตัวแอพเดสก์ท็อปสำหรับผู้ใช้ Mac และ Windows ตอนนี้คุณสามารถเข้าถึง Whatsapp จาก Windows หรือ Mac ได้อย่างง่ายดาย ใช้ได้กับ Windows 8+ และ Mac OS 10.9+

AI จะนำกระบวนการอัตโนมัติไปสู่อีกระดับได้อย่างไร

AI จะนำกระบวนการอัตโนมัติไปสู่อีกระดับได้อย่างไร

อ่านข้อมูลนี้เพื่อทราบว่าปัญญาประดิษฐ์กำลังได้รับความนิยมในหมู่บริษัทขนาดเล็กอย่างไร และเพิ่มโอกาสในการทำให้พวกเขาเติบโตและทำให้คู่แข่งได้เปรียบ

การอัปเดตเสริม macOS Catalina 10.15.4 ทำให้เกิดปัญหามากกว่าการแก้ปัญหา

การอัปเดตเสริม macOS Catalina 10.15.4 ทำให้เกิดปัญหามากกว่าการแก้ปัญหา

เมื่อเร็ว ๆ นี้ Apple เปิดตัว macOS Catalina 10.15.4 การอัปเดตเสริมเพื่อแก้ไขปัญหา แต่ดูเหมือนว่าการอัปเดตทำให้เกิดปัญหามากขึ้นที่นำไปสู่การสร้างเครื่อง Mac อ่านบทความนี้เพื่อเรียนรู้เพิ่มเติม

13 เครื่องมือดึงข้อมูลเชิงพาณิชย์ของ Big Data

13 เครื่องมือดึงข้อมูลเชิงพาณิชย์ของ Big Data

13 เครื่องมือดึงข้อมูลเชิงพาณิชย์ของ Big Data

ระบบไฟล์บันทึกคืออะไรและทำงานอย่างไร

ระบบไฟล์บันทึกคืออะไรและทำงานอย่างไร

คอมพิวเตอร์ของเราจัดเก็บข้อมูลทั้งหมดในลักษณะที่เรียกว่าระบบไฟล์บันทึก เป็นวิธีการที่มีประสิทธิภาพที่ช่วยให้คอมพิวเตอร์สามารถค้นหาและแสดงไฟล์ได้ทันทีที่คุณกดค้นหาhttps://wethegeek.com/?p=94116&preview=true