빅 데이터 참조 아키텍처 계층의 기능

지난 포스트 에서 우리는 비즈니스 문제를 분석하고 빅 데이터 아키텍처를 설계하기 위한 기본 단계에 대해 논의했습니다. 오늘은 빅 데이터 아키텍처의 여러 계층과 그 기능에 대해 이야기하겠습니다.

빅 데이터 참조 아키텍처의 논리적 계층

빅 데이터 아키텍처 뒤에 있는 핵심 아이디어는 아키텍처, 인프라 및 애플리케이션의 올바른 기반을 문서화하는 것입니다. 결과적으로 이를 통해 기업은 일상적으로 빅 데이터를 보다 효과적으로 사용할 수 있습니다.

솔루션을 물리적으로 구현하기 전에 빅 데이터 디자이너/아키텍트가 생성합니다. 빅 데이터 아키텍처를 생성하려면 일반적으로 비즈니스/조직과 빅 데이터 요구 사항을 이해해야 합니다. 일반적으로 빅 데이터 아키텍처는 빅 데이터 솔루션을 수행하는 데 필요한 하드웨어 및 소프트웨어 구성 요소를 설명합니다. 빅 데이터 아키텍처 문서는 데이터 공유, 애플리케이션 통합 및 정보 보안을 위한 프로토콜도 설명할 수 있습니다.

추가 정보: 빅 데이터 분석에 대한 초보자 가이드

또한 빅 데이터 요구 사항을 충족하기 위해 기존 리소스를 상호 연결하고 구성해야 합니다.

참조 아키텍처의 논리적 계층은 다음과 같습니다.

데이터 소스 식별: 이 데이터의 출처를 알고 있습니다.

소스 프로파일링은 아키텍처 또는 빅 데이터를 결정하는 가장 중요한 단계 중 하나입니다. 여기에는 다양한 소스 시스템을 식별하고 특성과 유형에 따라 분류하는 작업이 포함됩니다.

데이터 소스를 프로파일링할 때 고려해야 할 사항:

내부 및 외부 소스 시스템을 식별합니다.
각 소스에서 수집된 데이터 양에 대한 상위 수준 가정
데이터를 가져오는 데 사용되는 메커니즘 식별 – 푸시 또는 풀
데이터 소스 유형(데이터베이스, 파일, 웹 서비스, 스트림 등)을 결정합니다.
정형, 반정형 또는 비정형 데이터 유형 결정

Data Ingestion Strategy and Acquisition : 데이터를 시스템에 입력하는 과정.

데이터 수집은 위에서 언급한 소스에서 데이터를 추출하는 것입니다. 이 데이터는 저장소에 저장된 다음 추가 처리를 위해 변환됩니다.

고려해야 할 사항:

각 소스에서 데이터가 수집되는 빈도 결정
데이터 의미 체계를 변경할 필요가 있습니까?
수집(사전 처리) 전에 데이터 유효성 검사 또는 변환이 필요합니까?
수집 모드(일괄 또는 실시간)에 따라 데이터 소스 분리

Data Storage : 빅데이터가 실제로 저장되는 시설.

모든 유형의 많은 양의 데이터를 저장할 수 있어야 하며 필요에 따라 확장할 수 있어야 합니다. 또한 제공할 수 있는 IOPS(초당 입력 출력 작업) 수를 고려해야 합니다. Hadoop 분산 파일 시스템은 빅 데이터 세계에서 가장 일반적으로 사용되는 스토리지 프레임워크이며, 나머지는 NoSQL 데이터 저장소(MongoDB, HBase, Cassandra 등)입니다.

스토리지 방법론을 계획할 때 고려해야 할 사항:

데이터 유형(기록 또는 증분)
데이터 형식(정형, 반정형 및 비정형)
압축 요구 사항
들어오는 데이터의 빈도
데이터에 대한 쿼리 패턴
데이터 소비자

데이터 처리 : 빅 데이터에 대한 분석을 제공하는 도구입니다.

저장되는 데이터의 양뿐만 아니라 처리도 여러 배로 증가했습니다.

이전에 자주 액세스한 데이터는 동적 RAM에 저장되었습니다. 그러나 지금은 엄청난 양으로 인해 네트워크를 통해 연결된 여러 컴퓨터의 여러 디스크에 저장되고 있습니다. 따라서 처리를 위해 데이터 청크를 수집하는 대신 처리 모듈을 빅 데이터로 가져갑니다. 따라서 네트워크 I/O를 크게 줄입니다. 처리 방법론은 비즈니스 요구 사항에 따라 결정됩니다. SLA에 따라 Batch, Real-time 또는 Hybrid로 분류할 수 있습니다.

일괄 처리 – 일괄 처리 는 지정된 시간 간격 동안 입력을 수집하고 예약된 방식으로 변환을 실행합니다. 기록 데이터 로드는 일반적인 일괄 작업입니다.
실시간 처리 – 실시간 처리에는 데이터가 수집될 때 변환 실행이 포함됩니다.
하이브리드 처리 – 일괄 처리 및 실시간 처리 요구 사항이 모두 결합된 것입니다.

데이터 소비/활용 : 분석된 데이터를 활용하는 사용자/서비스.

이 계층은 처리 계층에서 제공하는 출력을 사용합니다. 관리자, 비즈니스 사용자, 공급업체, 파트너 등과 같은 다양한 사용자는 다른 형식으로 데이터를 사용할 수 있습니다. 분석 결과는 추천 엔진에 의해 소비되거나 분석을 기반으로 비즈니스 프로세스가 트리거될 수 있습니다.

다양한 형태의 데이터 소비는 다음과 같습니다.

데이터 세트 내보내기 – 타사 데이터 세트 생성에 대한 요구 사항이 있을 수 있습니다. 데이터 세트는 하이브 내보내기를 사용하거나 HDFS에서 직접 생성할 수 있습니다.
보고 및 시각화 – 다양한 보고 및 시각화 도구 스캔이 하둡에 대한 JDBC/ODBC 연결을 사용하여 Hadoop에 연결됩니다.
데이터 탐색 – 데이터 과학자는 샌드박스 환경에서 모델을 구축하고 심층 탐색을 수행할 수 있습니다. 샌드박스는 별도의 클러스터(권장 접근 방식)이거나 실제 데이터의 하위 집합을 포함하는 동일한 클러스터 내의 별도의 스키마일 수 있습니다.
Adhoc 쿼리 – Hive, Impala 또는 spark SQL을 사용하여 Adhoc 또는 Interactive 쿼리를 지원할 수 있습니다.

더 읽어보기: 빅 데이터: 미래의 악몽?

빅 데이터 아키텍처의 기능 계층:

아키텍처를 정의하는 또 다른 방법이 있을 수 있습니다. 즉, 기능 분할을 통하는 것입니다. 그러나 기능 범주는 참조 아키텍처의 논리적 계층으로 함께 그룹화될 수 있으므로 기본 아키텍처는 논리적 계층을 사용하여 수행되는 아키텍처입니다.

기능에 따른 계층화는 다음과 같습니다.

데이터 소스:

조직이 데이터를 수신하고 조직이 향후 결정을 내리는 데 도움이 될 수 있는 모든 출처를 분석하는 것은 이 범주에 나열되어야 합니다. 여기에 나열된 데이터 소스는 데이터가 구조화, 비구조화 또는 반구조화 여부에 관계없이 표시됩니다.

데이터 추출:

데이터를 저장, 분석 또는 시각화하려면 먼저 데이터가 있어야 합니다. 데이터 추출은 웹 페이지와 같이 구조화되지 않은 것을 가져와 구조화된 테이블로 바꾸는 것입니다. 일단 구조화되면 아래에 설명된 도구를 사용하여 모든 종류의 방법으로 조작하여 통찰력을 찾을 수 있습니다.

정보 저장소:

빅 데이터로 작업할 때 기본적으로 필요한 것은 해당 데이터를 저장하는 방법을 생각하는 것입니다. 빅 데이터가 "BIG"로 구별되는 방법 중 일부는 기존 시스템이 처리하기에는 너무 많아졌다는 것입니다. 우수한 데이터 스토리지 제공업체는 다른 모든 분석 도구를 실행할 수 있는 인프라와 데이터를 저장하고 쿼리할 수 있는 장소를 제공해야 합니다.

데이터 정리:

통찰력을 얻기 위해 데이터를 실제로 마이닝하기 전에 필요한 사전 단계입니다. 깨끗하고 잘 구조화된 데이터 세트를 만드는 것은 항상 좋은 습관입니다. 데이터 세트는 특히 웹에서 가져올 때 모든 모양과 크기로 제공될 수 있습니다. 데이터 요구 사항에 따라 도구를 선택하십시오.

데이터 수집:

데이터 마이닝은 데이터베이스 내에서 통찰력을 발견하는 프로세스입니다. 데이터 마이닝의 목적은 현재 가지고 있는 데이터에 대한 결정과 예측을 하는 것입니다. 모든 유형의 데이터에 대한 최상의 예측을 제공하고 데이터 마이닝을 위한 고유한 알고리즘을 생성할 수 있는 소프트웨어를 선택하십시오.

데이터 분석:

데이터 마이닝은 이전에 인식하지 못한 패턴을 찾기 위해 데이터를 샅샅이 조사하는 것이지만 데이터 분석은 해당 데이터를 분해하고 시간이 지남에 따라 이러한 패턴의 영향을 평가하는 것입니다. 분석은 특정 질문을 하고 데이터에서 답을 찾는 것입니다. 앞으로 일어날 일에 대해 질문할 수도 있습니다!

데이터 시각화:

시각화는 복잡한 데이터 통찰력을 전달하는 밝고 쉬운 방법입니다. 그리고 가장 좋은 점은 대부분이 코딩이 필요 없다는 것입니다. 데이터 시각화 회사는 데이터에 생명을 불어넣을 것입니다. 모든 데이터 과학자의 과제 중 하나는 해당 데이터의 통찰력을 회사의 나머지 부분에 전달하는 것입니다. 도구는 데이터 통찰력에서 차트, 지도 및 기타 그래픽을 만드는 데 도움이 될 수 있습니다.

데이터 통합:

데이터 통합 플랫폼은 각 프로그램 사이의 접착제입니다. 도구의 다양한 추론을 다른 소프트웨어와 연결합니다. 이러한 도구를 통해 시각화 도구의 결과를 Facebook에서 직접 공유할 수 있습니다.

데이터 언어:

데이터 경력에서 도구가 단순히 잘라낼 수 없는 때가 있을 것입니다. 오늘날 도구는 더욱 강력하고 사용하기 쉬워지고 있지만 때로는 직접 코딩하는 것이 더 나을 때도 있습니다. 통계 컴퓨팅 및 그래픽과 같은 다양한 측면에서 도움이 되는 다양한 언어가 있습니다. 이러한 언어는 데이터 마이닝 및 통계 소프트웨어를 보완하는 역할을 할 수 있습니다.

빅 데이터 참조 아키텍처 계층의 기능

빅 데이터 아키텍처를 설계할 때 기억해야 할 핵심 사항은 다음과 같습니다.

사용 역학 : 문서에 설명된 것처럼 아키텍처를 설계하는 동안 고려해야 할 여러 시나리오(데이터의 형식 및 빈도, 데이터 유형, 필요한 처리 및 분석 유형)가 있습니다.
무수한 기술: 시장에 있는 도구의 확산으로 무엇을 언제 사용해야 하는지에 대해 많은 혼란이 생겼습니다. 유사한 기능을 제공하고 다른 기술보다 더 낫다고 주장하는 여러 기술이 있습니다.

완전한 증거 빅 데이터 솔루션을 만들기 위해 사용할 다른 도구에 대해 생각할 것입니다. 글쎄요, 빅 데이터에 대한 다음 게시물에서는 빅 데이터 아키텍처 에서 다양한 작업을 수행하기 위한 몇 가지 최고의 도구를 다룰 것 입니다.

NTLite를 사용하여 업데이트로 Windows 사용자 지정 ISO를 만드는 방법

NTLite를 사용하여 Vultr 시스템과 호환되는 Windows 사용자 지정 ISO를 만드는 방법을 단계별로 설명합니다. 최신 드라이버와 업데이트 통합을 포함한 완벽 가이드.

Vultr에서 BGP 구성

Vultr BGP 설정을 위한 단계별 튜토리얼. ASN 할당부터 IP 라우팅 구성, BIRD 데몬 설정, FreeBSD 특이사항 및 실전 문제 해결 팁 7가지 포함한 최종 가이드

WsgiDAV를 사용하여 Debian 10에 WebDAV 배포

WebDAV (Web Distributed Authoring and Versioning)를 이용한 원격 파일 작성을 위한 프레임워크로, WsgiDAV 설치 및 구성 방법을 안내합니다.

데비안 7에 Mailcow 설치

Mailcow는 DoveCot, Postfix 및 기타 여러 오픈 소스 패키지를 기반으로 하는 경량 메일 서버입니다. 데비안에서 Mailcow 설치 방법을 안내합니다.

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

랜섬웨어 공격이 증가하고 있지만 AI가 최신 컴퓨터 바이러스를 처리하는 데 도움이 될 수 있습니까? AI가 답인가? AI boone 또는 bane인지 여기에서 읽으십시오.

ReactOS: 이것이 Windows의 미래입니까?

오픈 소스이자 무료 운영 체제인 ReactOS가 최신 버전과 함께 제공됩니다. 현대 Windows 사용자의 요구 사항을 충족하고 Microsoft를 무너뜨릴 수 있습니까? 이 구식이지만 더 새로운 OS 환경에 대해 자세히 알아보겠습니다.

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

Whatsapp은 마침내 Mac 및 Windows 사용자용 데스크톱 앱을 출시했습니다. 이제 Windows 또는 Mac에서 Whatsapp에 쉽게 액세스할 수 있습니다. Windows 8 이상 및 Mac OS 10.9 이상에서 사용 가능

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

인공 지능이 소규모 회사에서 어떻게 인기를 얻고 있으며 어떻게 인공 지능이 성장할 가능성을 높이고 경쟁자가 우위를 점할 수 있는지 알아보려면 이 기사를 읽으십시오.

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

최근 Apple은 문제를 해결하기 위해 macOS Catalina 10.15.4 추가 업데이트를 출시했지만 이 업데이트로 인해 Mac 컴퓨터의 브릭킹으로 이어지는 더 많은 문제가 발생하는 것 같습니다. 자세히 알아보려면 이 기사를 읽어보세요.

빅데이터의 13가지 상용 데이터 추출 도구

빅 데이터 참조 아키텍처 계층의 기능

댓글 남기기

NTLite를 사용하여 업데이트로 Windows 사용자 지정 ISO를 만드는 방법

Vultr에서 BGP 구성

WsgiDAV를 사용하여 Debian 10에 WebDAV 배포

데비안 7에 Mailcow 설치

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

ReactOS: 이것이 Windows의 미래입니까?

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

빅데이터의 13가지 상용 데이터 추출 도구