Funcionalidades das camadas da arquitetura de referência de Big Data

Em minha última postagem , discutimos sobre a análise do problema de negócios e as etapas básicas para projetar a arquitetura de Big Data. Hoje vou falar sobre as diferentes camadas da Arquitetura de Big Data e suas funcionalidades.

Camadas lógicas da arquitetura de referência de Big Data

Por trás da arquitetura de big data, a ideia central é documentar uma base certa de arquitetura, infraestrutura e aplicativos. Consequentemente, isso permite que as empresas usem big data com mais eficiência no dia a dia.

Ele é criado por designers / arquitetos de big data antes de implementar fisicamente uma solução. A criação de uma arquitetura de big data geralmente requer a compreensão do negócio / organização e de suas necessidades de big data. Normalmente, as arquiteturas de big data descrevem os componentes de hardware e software que são necessários para atender à solução de big data. Os documentos de arquitetura de big data também podem descrever protocolos para compartilhamento de dados, integrações de aplicativos e segurança da informação.

Mais informações:  um guia para iniciantes em análise de big data

Também envolve interconectar e organizar os recursos existentes para atender às necessidades de big data.

As camadas lógicas da arquitetura de referência são as seguintes:

  • Identificação da fonte de dados: saber de onde esses dados são provenientes.

O perfil de origem é uma das etapas mais importantes para decidir a arquitetura ou big data. Envolve identificar diferentes sistemas de origem e categorizá-los, com base em sua natureza e tipo.

Pontos a serem considerados ao traçar o perfil das fontes de dados:

  1. Identifique os sistemas de fontes internas e externas.
  2. Suposição de alto nível para a quantidade de dados ingeridos de cada fonte
  3. Identifique o mecanismo usado para obter dados - push ou pull
  4. Determine o tipo de fonte de dados - banco de dados, arquivo, serviço da web, fluxos, etc.
  5. Determine o tipo de dados - estruturados, semiestruturados ou não estruturados
  • Estratégia e aquisição de dados : processo para inserir dados no sistema.

A ingestão de dados tem tudo a ver com a extração dos dados das fontes mencionadas acima. Esses dados são armazenados no armazenamento e depois são transformados para processamento posterior.

Pontos a serem considerados:

  1. Determine a frequência com que os dados seriam ingeridos de cada fonte
  2. É necessário alterar a semântica dos dados?
  3. Existe alguma validação de dados ou transformação necessária antes da ingestão (pré-processamento)?
  4. Separe as fontes de dados com base no modo de ingestão - em lote ou em tempo real
  • Armazenamento de dados : a instalação onde o big data será realmente armazenado.

Deve-se ser capaz de armazenar grandes quantidades de dados de qualquer tipo e escalonar conforme a necessidade. Devemos também considerar o número de IOPS (operações de entrada e saída por segundo) que ele pode fornecer. O sistema de arquivos distribuídos Hadoop é a estrutura de armazenamento mais comumente usada no mundo do Big Data, outros são os armazenamentos de dados NoSQL - MongoDB, HBase, Cassandra etc.

Coisas a considerar ao planejar a metodologia de armazenamento:

  1. Tipo de dados (históricos ou incrementais)
  2. Formato dos dados (estruturados, semiestruturados e não estruturados)
  3. Requisitos de compressão
  4. Frequência de entrada de dados
  5. Padrão de consulta nos dados
  6. Consumidores de dados
  • Processamento de dados : ferramentas que fornecem análise de big data.

Não apenas a quantidade de dados sendo armazenados, mas o processamento também aumentou de múltiplas formas.

Os dados acessados ​​anteriormente com frequência eram armazenados em RAMs dinâmicos. Mas agora, ele está sendo armazenado em vários discos em várias máquinas conectadas via rede devido ao grande volume. Portanto, em vez de reunir blocos de dados para processamento, os módulos de processamento são levados para o big data. Assim, reduzindo significativamente a E / S da rede. A metodologia de processamento é orientada por requisitos de negócios. Ele pode ser categorizado em lote, tempo real ou híbrido com base no SLA.

  1. Processamento em lote  - o lote está coletando a entrada para um intervalo de tempo especificado e executando as transformações de maneira programada. O carregamento de dados históricos é uma operação em lote típica
  2. Processamento em tempo real - o processamento em tempo real envolve a execução de transformações à medida que os dados são adquiridos.
  3. Processamento híbrido - é uma combinação das necessidades de processamento em lote e em tempo real.
  • Consumo / utilização de dados : usuários / serviços que utilizam os dados analisados.

Essa camada consome a saída fornecida pela camada de processamento. Diferentes usuários como administrador, usuários de negócios, fornecedor, parceiros etc. podem consumir dados em formatos diferentes. A saída da análise pode ser consumida pelo mecanismo de recomendação ou os processos de negócios podem ser acionados com base na análise.

As diferentes formas de consumo de dados são:

  1. Exportar conjuntos de dados - pode haver requisitos para a geração de conjuntos de dados de terceiros. Os conjuntos de dados podem ser gerados usando a exportação de colmeia ou diretamente do HDFS.
  2. Relatórios e visualização - Diferentes relatórios e varreduras de ferramentas de visualização se conectam ao Hadoop usando conectividade JDBC / ODBC para o hive.
  3. Exploração de dados - o cientista de dados pode construir modelos e realizar exploração profunda em um ambiente sandbox. O sandbox pode ser um cluster separado (abordagem recomendada) ou um esquema separado dentro do mesmo cluster que contém um subconjunto de dados reais.
  4. Consulta Adhoc - Consultas Adhoc ou Interativas podem ser suportadas usando Hive, Impala ou Spark SQL.

Leia também:  Big Data: A Future Nightmare?

Camadas funcionais da arquitetura de Big Data:

Poderia haver mais uma maneira de definir a arquitetura, ou seja, através da divisão de funcionalidade. Mas as categorias de funcionalidade podem ser agrupadas na camada lógica da arquitetura de referência, portanto, a arquitetura preferida é aquela feita usando camadas lógicas.

A estratificação com base nas Funcionalidades é a seguinte:

  1. Fontes de dados:

A análise de todas as fontes de onde uma organização recebe dados e que poderiam ajudá-la na tomada de decisões futuras deve ser listada nesta categoria. As fontes de dados listadas aqui independem do fato de os dados serem estruturados, não estruturados ou semiestruturados.

  1. Extração de dados:

Antes de armazenar, analisar ou visualizar seus dados, você precisa ter alguns. A extração de dados consiste em pegar algo não estruturado, como uma página da Web, e transformá-lo em uma tabela estruturada. Depois de estruturado, você pode manipulá-lo de todas as maneiras, usando as ferramentas descritas a seguir, para encontrar insights.

  1. Armazenamento de dados:

A necessidade básica ao trabalhar com big data é pensar como armazenar esses dados. Parte de como o Big Data foi distinguido como “GRANDE” é que se tornou muito para os sistemas tradicionais lidar. Um bom provedor de armazenamento de dados deve oferecer a você uma infraestrutura para executar todas as suas outras ferramentas analíticas, bem como um local para armazenar e consultar seus dados.

  1. Limpeza de dados:

Uma etapa pré-necessária antes de realmente começarmos a minerar os dados para insights. É sempre uma boa prática criar um conjunto de dados limpo e bem estruturado. Os conjuntos de dados podem vir em todas as formas e tamanhos, especialmente quando vindos da web. Escolha uma ferramenta de acordo com seus requisitos de dados.

  1. Mineração de dados:

A mineração de dados é o processo de descoberta de insights em um banco de dados. O objetivo da mineração de dados é tomar decisões e fazer previsões sobre os dados que você tem em mãos. Escolha um software que forneça as melhores previsões para todos os tipos de dados e permita que você crie seus próprios algoritmos para minerar os dados.

  1. Análise de dados:

Enquanto a mineração de dados tem tudo a ver com vasculhar seus dados em busca de padrões anteriormente não reconhecidos, a análise de dados é sobre quebrar esses dados e avaliar o impacto desses padrões ao longo do tempo. Analytics trata de fazer perguntas específicas e encontrar as respostas nos dados. Você pode até fazer perguntas sobre o que acontecerá no futuro!

  1. Visualização de dados:

As visualizações são uma maneira brilhante e fácil de transmitir percepções de dados complexos. E a melhor parte é que a maioria deles não requer codificação. As empresas de visualização de dados darão vida aos seus dados. Parte do desafio para qualquer cientista de dados é transmitir os insights desses dados para o restante da sua empresa. As ferramentas podem ajudá-lo a criar gráficos, mapas e outros gráficos a partir de suas percepções de dados.

  1. Integração de dados:

As plataformas de integração de dados são a cola entre cada programa. Eles conectam as diferentes inferências das ferramentas com outros Softwares. Você pode compartilhar os resultados de suas ferramentas de visualização diretamente no Facebook por meio dessas ferramentas.

  1. Linguagens de dados:

Haverá momentos em sua carreira de dados em que uma ferramenta simplesmente não funcionará. Embora as ferramentas de hoje estejam se tornando mais poderosas e fáceis de usar, às vezes é melhor codificar você mesmo. Existem diferentes idiomas ajudando você em diferentes aspectos, como computação estatística e gráficos. Essas linguagens poderiam funcionar como um complemento para os softwares de mineração de dados e estatísticos.

Funcionalidades das camadas da arquitetura de referência de Big Data

O principal ponto a ser lembrado ao projetar a arquitetura de Big Data são:

  • Dinâmica de uso : há uma série de cenários, conforme ilustrado no artigo, que precisam ser considerados ao projetar a arquitetura - forma e frequência dos dados, tipo de dados, tipo de processamento e análises necessárias.
  • Inúmeras tecnologias: A  proliferação de ferramentas no mercado tem gerado muita confusão sobre o que usar e quando, existem várias tecnologias que oferecem recursos semelhantes e se dizem melhores que as outras.

Eu sei que você estaria pensando em diferentes ferramentas para usar para fazer uma solução de Big Data à prova completa. Bem, em meus próximos posts sobre Big Data, eu estaria cobrindo algumas das melhores ferramentas para realizar diferentes tarefas na arquitetura de Big Data .



A IA pode lutar contra o aumento do número de ataques de ransomware

A IA pode lutar contra o aumento do número de ataques de ransomware

Os ataques de ransomware estão aumentando, mas a IA pode ajudar a lidar com os vírus de computador mais recentes? AI é a resposta? Leia aqui para saber se é AI boone ou bane

ReactOS: Este é o futuro do Windows?

ReactOS: Este é o futuro do Windows?

ReactOS, um sistema operacional de código aberto e gratuito está aqui com a versão mais recente. Será que ela pode atender às necessidades dos usuários modernos do Windows e derrubar a Microsoft? Vamos descobrir mais sobre esse estilo antigo, mas uma experiência de sistema operacional mais recente.

Fique conectado por meio do aplicativo WhatsApp Desktop 24 * 7

Fique conectado por meio do aplicativo WhatsApp Desktop 24 * 7

O Whatsapp finalmente lançou o aplicativo Desktop para usuários de Mac e Windows. Agora você pode acessar o Whatsapp do Windows ou Mac facilmente. Disponível para Windows 8+ e Mac OS 10.9+

Como a IA pode levar a automação de processos ao próximo nível?

Como a IA pode levar a automação de processos ao próximo nível?

Leia isto para saber como a Inteligência Artificial está se tornando popular entre as empresas de pequena escala e como está aumentando as probabilidades de fazê-las crescer e dar vantagem a seus concorrentes.

A atualização do suplemento do macOS Catalina 10.15.4 está causando mais problemas do que resolvendo

A atualização do suplemento do macOS Catalina 10.15.4 está causando mais problemas do que resolvendo

Recentemente, a Apple lançou o macOS Catalina 10.15.4, uma atualização suplementar para corrigir problemas, mas parece que a atualização está causando mais problemas, levando ao bloqueio de máquinas mac. Leia este artigo para saber mais

13 Ferramentas de Extração de Dados Comerciais de Big Data

13 Ferramentas de Extração de Dados Comerciais de Big Data

13 Ferramentas de Extração de Dados Comerciais de Big Data

O que é um sistema de arquivos de registro no diário e como ele funciona?

O que é um sistema de arquivos de registro no diário e como ele funciona?

Nosso computador armazena todos os dados de uma maneira organizada conhecida como sistema de arquivos Journaling. É um método eficiente que permite ao computador pesquisar e exibir arquivos assim que você clicar em search.https: //wethegeek.com/? P = 94116 & preview = true

Singularidade tecnológica: um futuro distante da civilização humana?

Singularidade tecnológica: um futuro distante da civilização humana?

À medida que a ciência evolui em um ritmo rápido, assumindo muitos de nossos esforços, os riscos de nos sujeitarmos a uma singularidade inexplicável também aumentam. Leia, o que a singularidade pode significar para nós.

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

O impacto da inteligência artificial na saúde 2021

O impacto da inteligência artificial na saúde 2021

A IA na área da saúde deu grandes saltos nas últimas décadas. Portanto, o futuro da IA ​​na área da saúde ainda está crescendo dia a dia.