Chức năng của các lớp kiến ​​trúc tham chiếu dữ liệu lớn

Trong bài đăng trước của tôi , chúng ta đã thảo luận về việc phân tích vấn đề kinh doanh và các bước cơ bản để thiết kế Kiến trúc Dữ liệu lớn. Hôm nay, tôi sẽ nói về các lớp khác nhau trong Kiến trúc Dữ liệu lớn và chức năng của chúng.

Các lớp logic của kiến ​​trúc tham chiếu dữ liệu lớn

Đằng sau kiến ​​trúc dữ liệu lớn, ý tưởng cốt lõi là ghi lại một nền tảng đúng đắn về kiến ​​trúc, cơ sở hạ tầng và ứng dụng. Do đó, điều này cho phép các doanh nghiệp sử dụng dữ liệu lớn hiệu quả hơn hàng ngày.

Nó được tạo ra bởi các nhà thiết kế / kiến ​​trúc sư dữ liệu lớn trước khi thực hiện một giải pháp. Việc tạo ra kiến ​​trúc dữ liệu lớn thường đòi hỏi sự hiểu biết về doanh nghiệp / tổ chức và các nhu cầu về dữ liệu lớn của nó. Thông thường, kiến ​​trúc dữ liệu lớn phác thảo các thành phần phần cứng và phần mềm cần thiết để thực hiện giải pháp dữ liệu lớn. Các tài liệu về kiến ​​trúc dữ liệu lớn cũng có thể mô tả các giao thức để chia sẻ dữ liệu, tích hợp ứng dụng và bảo mật thông tin.

Thông tin thêm:  Hướng dẫn cho người mới bắt đầu về phân tích dữ liệu lớn

Nó cũng đòi hỏi sự kết nối và tổ chức các tài nguyên hiện có để phục vụ nhu cầu dữ liệu lớn.

Các lớp logic của kiến ​​trúc tham chiếu như sau:

  • Nhận dạng nguồn dữ liệu: Biết dữ liệu này được lấy từ đâu.

Lập hồ sơ nguồn là một trong những bước quan trọng nhất trong việc quyết định kiến ​​trúc hoặc dữ liệu lớn. Nó liên quan đến việc xác định các hệ thống nguồn khác nhau và phân loại chúng, dựa trên bản chất và loại của chúng.

Các điểm cần được xem xét khi lập hồ sơ các nguồn dữ liệu:

  1. Xác định hệ thống nguồn bên trong và bên ngoài.
  2. Giả định mức cao cho lượng dữ liệu được nhập từ mỗi nguồn
  3. Xác định cơ chế được sử dụng để lấy dữ liệu - đẩy hoặc kéo
  4. Xác định loại nguồn dữ liệu - Cơ sở dữ liệu, Tệp, dịch vụ web, luồng, v.v.
  5. Xác định loại dữ liệu - có cấu trúc, bán cấu trúc hoặc không có cấu trúc
  • Chiến lược nhập và thu thập dữ liệu : Quy trình nhập dữ liệu vào hệ thống.

Quá trình nhập dữ liệu là tất cả về việc trích xuất dữ liệu từ các nguồn được đề cập ở trên. Dữ liệu này được lưu trữ trong bộ lưu trữ và sau đó được chuyển đổi để xử lý thêm trên đó.

Các điểm được xem xét:

  1. Xác định tần suất mà dữ liệu sẽ được nhập từ mỗi nguồn
  2. Có cần phải thay đổi ngữ nghĩa dữ liệu không?
  3. Có yêu cầu xác thực hoặc chuyển đổi dữ liệu nào trước khi nhập (Xử lý trước) không?
  4. Tách các nguồn dữ liệu dựa trên phương thức nhập - Hàng loạt hoặc thời gian thực
  • Lưu trữ dữ liệu : Cơ sở nơi dữ liệu lớn sẽ thực sự được lưu trữ.

Một người sẽ có thể lưu trữ một lượng lớn dữ liệu thuộc bất kỳ loại nào và có thể mở rộng quy mô khi cần thiết. Chúng ta cũng nên xem xét số lượng IOPS (Hoạt động đầu ra đầu vào mỗi giây) mà nó có thể cung cấp. Hệ thống tệp phân tán Hadoop là khung lưu trữ được sử dụng phổ biến nhất trong thế giới Dữ liệu lớn, các khung khác là kho dữ liệu NoSQL - MongoDB, HBase, Cassandra, v.v.

Những điều cần xem xét khi lập kế hoạch phương pháp lưu trữ:

  1. Loại dữ liệu (Lịch sử hoặc Gia tăng)
  2. Định dạng dữ liệu (có cấu trúc, bán cấu trúc và phi cấu trúc)
  3. Yêu cầu nén
  4. Tần suất của dữ liệu đến
  5. Mẫu truy vấn trên dữ liệu
  6. Người tiêu dùng dữ liệu
  • Xử lý dữ liệu : Các công cụ cung cấp phân tích dữ liệu lớn.

Không chỉ lượng dữ liệu được lưu trữ mà việc xử lý cũng tăng lên gấp nhiều lần.

Dữ liệu được truy cập thường xuyên trước đó được lưu trữ trong RAM động. Nhưng hiện tại, nó đang được lưu trữ trên nhiều đĩa trên một số máy được kết nối qua mạng do khối lượng quá lớn. Do đó, thay vì tập hợp các khối dữ liệu để xử lý, các mô-đun xử lý được đưa đến dữ liệu lớn. Do đó, giảm thiểu đáng kể I / O mạng. Phương pháp xử lý được thúc đẩy bởi các yêu cầu kinh doanh. Nó có thể được phân loại thành Hàng loạt, thời gian thực hoặc Kết hợp dựa trên SLA.

  1. Xử lý hàng loạt  - Hàng loạt đang thu thập dữ liệu đầu vào trong một khoảng thời gian cụ thể và chạy các phép biến đổi trên đó theo cách đã lên lịch. Tải dữ liệu lịch sử là một hoạt động hàng loạt điển hình
  2. Xử lý thời gian thực - Xử lý thời gian thực liên quan đến việc chạy các phép biến đổi khi và khi dữ liệu được thu thập.
  3. Xử lý hỗn hợp - Đó là sự kết hợp của cả nhu cầu xử lý hàng loạt và thời gian thực.
  • Tiêu thụ / sử dụng dữ liệu : Người dùng / dịch vụ sử dụng dữ liệu được phân tích.

Lớp này tiêu thụ sản lượng do lớp xử lý cung cấp. Những người dùng khác nhau như quản trị viên, người dùng Doanh nghiệp, nhà cung cấp, đối tác, v.v. có thể sử dụng dữ liệu ở định dạng khác nhau. Đầu ra của phân tích có thể được sử dụng bởi công cụ khuyến nghị hoặc các quy trình kinh doanh có thể được kích hoạt dựa trên phân tích.

Các hình thức tiêu thụ dữ liệu khác nhau là:

  1. Xuất tập dữ liệu - Có thể có các yêu cầu đối với việc tạo tập dữ liệu của bên thứ ba. Tập dữ liệu có thể được tạo bằng cách sử dụng tính năng xuất hive hoặc trực tiếp từ HDFS.
  2. Báo cáo và trực quan - Quét công cụ trực quan và báo cáo khác nhau kết nối với Hadoop bằng cách sử dụng kết nối JDBC / ODBC để tổ chức.
  3. Khám phá dữ liệu - Nhà khoa học dữ liệu có thể xây dựng mô hình và thực hiện khám phá sâu trong môi trường hộp cát. Hộp cát có thể là một cụm riêng biệt (Cách tiếp cận được đề xuất) hoặc một lược đồ riêng biệt trong cùng một cụm chứa tập hợp con dữ liệu thực tế.
  4. Truy vấn Adhoc - Truy vấn Adhoc hoặc Tương tác có thể được hỗ trợ bằng cách sử dụng Hive, Impala hoặc spark SQL.

Cũng nên đọc:  Dữ liệu lớn: Cơn ác mộng trong tương lai?

Các lớp chức năng của kiến ​​trúc dữ liệu lớn:

Có thể có một cách khác để xác định kiến ​​trúc, tức là thông qua phân chia chức năng. Nhưng các danh mục chức năng có thể được nhóm lại với nhau thành lớp logic của kiến ​​trúc tham chiếu, do đó, Kiến trúc được ưu tiên được thực hiện bằng cách sử dụng Lớp logic.

Việc phân lớp dựa trên các Chức năng như sau:

  1. Nguồn dữ liệu:

Phân tích tất cả các nguồn mà từ đó tổ chức nhận được dữ liệu và từ đó có thể giúp tổ chức đưa ra các quyết định trong tương lai nên được liệt kê trong danh mục này. Các nguồn dữ liệu được liệt kê ở đây không phân biệt dữ liệu là dữ liệu có cấu trúc, không có cấu trúc hay bán cấu trúc.

  1. Trích xuất dữ liệu:

Trước khi có thể lưu trữ, phân tích hoặc trực quan hóa dữ liệu của mình, bạn phải có một số. Khai thác dữ liệu là việc lấy một thứ gì đó không có cấu trúc, chẳng hạn như một trang web và biến nó thành một bảng có cấu trúc. Khi bạn đã có cấu trúc, bạn có thể sử dụng nó theo nhiều cách, bằng cách sử dụng các công cụ được mô tả bên dưới, để tìm thông tin chi tiết.

  1. Lưu trữ dữ liệu:

Điều cần thiết cơ bản khi làm việc với dữ liệu lớn là nghĩ cách lưu trữ dữ liệu đó. Một phần lý do tại sao Dữ liệu lớn được phân biệt là “LỚN” là nó trở nên quá nhiều để các hệ thống truyền thống có thể xử lý. Một nhà cung cấp dịch vụ lưu trữ dữ liệu tốt nên cung cấp cho bạn một cơ sở hạ tầng để chạy tất cả các công cụ phân tích khác cũng như một nơi để lưu trữ và truy vấn dữ liệu của bạn.

  1. Làm sạch dữ liệu:

Một bước cần thiết trước khi chúng tôi thực sự bắt đầu khai thác dữ liệu để có thông tin chi tiết. Luôn luôn là một phương pháp hay để tạo một tập dữ liệu sạch, có cấu trúc tốt. Tập dữ liệu có thể có mọi hình dạng và kích thước, đặc biệt là khi đến từ web. Chọn một công cụ theo yêu cầu dữ liệu của bạn.

  1. Khai thác dữ liệu:

Khai phá dữ liệu là quá trình khám phá những hiểu biết sâu sắc trong cơ sở dữ liệu. Mục đích của khai thác dữ liệu là đưa ra quyết định và dự đoán về dữ liệu bạn có trong tay. Chọn một phần mềm cung cấp cho bạn những dự đoán tốt nhất cho tất cả các loại dữ liệu và cho phép bạn tạo các thuật toán của riêng mình để khai thác dữ liệu.

  1. Phân tích dữ liệu:

Trong khi khai thác dữ liệu là việc sàng lọc dữ liệu của bạn để tìm kiếm các mẫu chưa được công nhận trước đây, thì phân tích dữ liệu là chia nhỏ dữ liệu đó ra và đánh giá tác động của các mẫu đó ngoài giờ. Analytics là đặt câu hỏi cụ thể và tìm câu trả lời trong dữ liệu. Bạn thậm chí có thể đặt câu hỏi về những gì sẽ xảy ra trong tương lai!

  1. Trực quan hóa dữ liệu:

Hình ảnh hóa là một cách sáng sủa và dễ dàng để truyền đạt những thông tin chi tiết về dữ liệu phức tạp. Và phần tốt nhất là hầu hết chúng không yêu cầu mã hóa. Các công ty trực quan hóa dữ liệu sẽ làm cho dữ liệu của bạn trở nên sống động. Một phần của thách thức đối với bất kỳ nhà khoa học dữ liệu nào là truyền đạt những hiểu biết sâu sắc từ dữ liệu đó cho phần còn lại của công ty bạn. Các công cụ có thể giúp bạn tạo biểu đồ, bản đồ và các đồ họa khác từ thông tin chi tiết về dữ liệu của bạn.

  1. Tích hợp dữ liệu:

Nền tảng tích hợp dữ liệu là chất kết dính giữa mỗi chương trình. Chúng kết nối các suy luận khác nhau của các công cụ với các Phần mềm khác. Bạn có thể chia sẻ kết quả của các công cụ trực quan hóa của mình trực tiếp trên Facebook thông qua các công cụ này.

  1. Ngôn ngữ Dữ liệu:

Sẽ có lúc trong sự nghiệp dữ liệu của bạn khi một công cụ đơn giản là không thể cắt nó. Mặc dù các công cụ ngày nay đang trở nên mạnh mẽ hơn và dễ sử dụng hơn, nhưng đôi khi tốt hơn là bạn nên tự viết mã nó. Có nhiều ngôn ngữ khác nhau giúp bạn trong các khía cạnh khác nhau như máy tính thống kê và đồ họa. Những ngôn ngữ này có thể hoạt động như một bổ sung cho Phần mềm thống kê và khai thác dữ liệu.

Chức năng của các lớp kiến ​​trúc tham chiếu dữ liệu lớn

Điều quan trọng cần nhớ khi thiết kế Kiến trúc dữ liệu lớn là:

  • Động lực sử dụng : Có một số tình huống như minh họa trong bài viết cần được xem xét khi thiết kế kiến ​​trúc - hình thức và tần suất của dữ liệu, Loại dữ liệu, Loại xử lý và phân tích được yêu cầu.
  • Vô số công nghệ: Sự  phổ biến của các công cụ trên thị trường đã dẫn đến nhiều sự nhầm lẫn về việc sử dụng cái gì và khi nào, có nhiều công nghệ cung cấp các tính năng tương tự và tuyên bố là tốt hơn các công cụ khác.

Tôi biết bạn sẽ suy nghĩ về các công cụ khác nhau để sử dụng để tạo ra Giải pháp Dữ liệu lớn có bằng chứng đầy đủ. Chà, trong các bài đăng sắp tới của tôi về Dữ liệu lớn, tôi sẽ đề cập đến một số công cụ tốt nhất để đạt được các nhiệm vụ khác nhau trong kiến trúc dữ liệu lớn .



Leave a Comment

ReactOS: Đây có phải là tương lai của Windows?

ReactOS: Đây có phải là tương lai của Windows?

ReactOS, một hệ điều hành mã nguồn mở và miễn phí đã có phiên bản mới nhất. Liệu nó có thể đáp ứng đủ nhu cầu của người dùng Windows hiện đại và hạ gục Microsoft? Hãy cùng tìm hiểu thêm về trải nghiệm hệ điều hành kiểu cũ nhưng mới hơn này.

Liệu AI có thể chiến đấu với số lượng các cuộc tấn công bằng Ransomware ngày càng tăng

Liệu AI có thể chiến đấu với số lượng các cuộc tấn công bằng Ransomware ngày càng tăng

Các cuộc tấn công ransomware đang gia tăng, nhưng liệu AI có thể giúp đối phó với loại virus máy tính mới nhất? AI có phải là câu trả lời? Đọc ở đây biết là AI boone hay cấm

Luôn kết nối thông qua Ứng dụng WhatsApp Desktop 24 * 7

Luôn kết nối thông qua Ứng dụng WhatsApp Desktop 24 * 7

Whatsapp cuối cùng đã ra mắt ứng dụng Máy tính để bàn cho người dùng Mac và Windows. Giờ đây, bạn có thể truy cập Whatsapp từ Windows hoặc Mac một cách dễ dàng. Có sẵn cho Windows 8+ và Mac OS 10.9+

Làm thế nào AI có thể đưa quá trình tự động hóa lên cấp độ tiếp theo?

Làm thế nào AI có thể đưa quá trình tự động hóa lên cấp độ tiếp theo?

Hãy đọc phần này để biết Trí tuệ nhân tạo đang trở nên phổ biến như thế nào đối với các công ty quy mô nhỏ và làm thế nào nó đang tăng khả năng khiến họ phát triển và giúp đối thủ cạnh tranh của họ có thể cạnh tranh.

Bản cập nhật bổ sung macOS Catalina 10.15.4 đang gây ra nhiều vấn đề hơn là giải quyết

Bản cập nhật bổ sung macOS Catalina 10.15.4 đang gây ra nhiều vấn đề hơn là giải quyết

Gần đây Apple đã phát hành macOS Catalina 10.15.4 một bản cập nhật bổ sung để khắc phục các sự cố nhưng có vẻ như bản cập nhật đang gây ra nhiều vấn đề hơn dẫn đến việc máy mac bị chai. Đọc bài viết này để tìm hiểu thêm

13 Công cụ trích xuất dữ liệu thương mại của Dữ liệu lớn

13 Công cụ trích xuất dữ liệu thương mại của Dữ liệu lớn

13 Công cụ trích xuất dữ liệu thương mại của Dữ liệu lớn

Hệ thống tệp nhật ký là gì và nó hoạt động như thế nào?

Hệ thống tệp nhật ký là gì và nó hoạt động như thế nào?

Máy tính của chúng tôi lưu trữ tất cả dữ liệu một cách có tổ chức được gọi là hệ thống tệp Ghi nhật ký. Đây là một phương pháp hiệu quả cho phép máy tính tìm kiếm và hiển thị các tệp ngay khi bạn nhấn tìm kiếm. Https://wethegeek.com/? P = 94116 & preview = true

Điểm kỳ dị về công nghệ: Tương lai xa của nền văn minh nhân loại?

Điểm kỳ dị về công nghệ: Tương lai xa của nền văn minh nhân loại?

Khi Khoa học phát triển với tốc độ nhanh chóng, chiếm rất nhiều nỗ lực của chúng ta, những rủi ro của việc phục tùng bản thân trước một Điểm kỳ dị không thể giải thích cũng tăng lên. Hãy đọc, điểm kỳ dị có thể có ý nghĩa gì đối với chúng ta.

Hiểu rõ hơn về 26 kỹ thuật phân tích dữ liệu lớn: Phần 1

Hiểu rõ hơn về 26 kỹ thuật phân tích dữ liệu lớn: Phần 1

Hiểu rõ hơn về 26 kỹ thuật phân tích dữ liệu lớn: Phần 1

Tác động của trí tuệ nhân tạo trong chăm sóc sức khỏe 2021

Tác động của trí tuệ nhân tạo trong chăm sóc sức khỏe 2021

AI trong lĩnh vực chăm sóc sức khỏe đã có những bước tiến nhảy vọt so với những thập kỷ trước. Vì vậy, tương lai của AI trong Chăm sóc sức khỏe vẫn đang phát triển từng ngày.