TI NO SÉCULO 21: HDFS E MAPREDUCE

quinta-feira, 4 de julho de 2019

HDFS E MAPREDUCE

Fonte: E-bookBigDataV2.pdf (Este arquivo é liberado depois de concluído o curso de ) Aproveito a oportunidade para agradecer ao excelente trabalho no desenvolvimento do conteúdo deste E-book, recomendo fazerem o curso de Big Data para atualizarem-se.

Site: https://www.datascienceacademy.com.br

O está se tornando o padrão nos projetos de Big Data porque possui:

• Livre.

• Baixo custo.

• Tolerância a falhas a recuperação automática.

• Portabilidade entre hardware e sistemas operacionais heterogêneos.

• para armazenar e processar grandes quantidades de dados.

• Confiabilidade, através da manutenção de várias cópias de dados, e, permite que os jobs sejam executados em paralelo e em caso de falhas de um job, outros não são afetados.

• Flexibilidade – processa todos os dados independente do tipo e formato, seja estruturado ou não-estruturado.

• Acessibilidade – suporte a diversas linguagens de programação como , C++, , .

Componentes Base do Hadoop: +

Onde:

: Armazenamento distribuído. Foi desenvolvido utilizando o projeto do sistema de arquivos distribuídos (DFS). Ele é executado em hardware commodity (baixo custo). Ao contrário de outros sistemas distribuídos, HDFS é altamente tolerante a falha.

CARACTERÍSTICAS DO HDFS

• DFS (Distributed File System) - foi criado para gestão de armazenamento em uma rede de computadores.

• HDFS é otimizado para armazenar grandes arquivos.

• HDFS foi pensado para executar em clusters de computadores de baixo custo.

• HDFS foi pensado para ser ótimo em performance do tipo WORM (), que é um eficiente padrão de processamento de dados.

• HDFS foi pensando considerando o tempo de leitura de um conjunto de dados inteiro e não apenas o primeiro registro.

COMO É CONFIGURADO O HADOOP

: Computação distribuída

• MapReduce é um modelo de programação para processamento e geração de grandes conjuntos de dados.

• MapReduce transforma o problema de análise em um processo computacional que usa conjuntos de chaves e valores.

• MapReduce foi desenvolvido para tarefas que consomem minutos ou horas em computadores conectados em rede de alta velocidade gerenciados por um único master.

• MapReduce usa um tipo de análise de dados por força bruta. Todo o conjunto de dados é processado em cada query.

• MapReduce permite a execução de queries ad-hoc em todo o conjunto de dados em um tempo escalável.

• Muitos sistemas distribuídos combinam dados de múltiplas fontes (o que é bem complicado), mas MapReduce faz isso de forma eficiente e efetiva.

• O segredo da performance do MapReduce, está no balanceamento entre seeking e transfer: reduzir operações de seeking e usar de forma efetiva as operações de transfer.

Seek time – é o delay para encontrar um arquivo.

Transfer rate – é a velocidade para encontrar o arquivo. Transfer rates tem melhorado significativamente (é bem mais veloz que Seek times).

• O MapReduce é bom para atualizar todo (ou a maior parte) de um grande conjunto de dados.

• RDBMS (Relational Database Management System) são ótimos para atualizar pequenas porções de grandes bancos de dados.

• RDBMS utiliza o tradicional , que é altamente dependente de operações de Seek.

• MapReduce utiliza operações de SORT e Merge para recriar o banco de dados, o que é mais dependente de operações de transfer.

O MapReduce se baseia em operações de transfer, o que deixa o acesso aos dados muito mais veloz.

COMO TRABALHA O MAPREDUCE

TIPOS DE DADOS

MapReduce é muito efetivo com dados semi ou não estruturados, porque MapReduce interpreta dados durante as sessões de processamento de dados. Ele não utiliza propriedades intrínsecas. Os parâmetros usados para selecionar os dados, são definidos pela pessoa que está fazendo a análise.

Informação Importante: Hadoop não é um banco de dados. Hadoop é um framework para armazenamento e processamento de grandes conjuntos de dados.

Depois de ler o artigo, responda a seguinte enquete.

Veja Também:
A teoria da relatividade e a Informática

Grato,
Jefferson Daminelli Garcia

Nenhum comentário:

Postar um comentário

Painéis

Com o aumento do volume e processamento dos dados, e o limite de velocidade atuais dos processadores, o caminho mais rápido para resolver o desempenho dos processadores multinúcleos é fazer com que os softwares reconheçam este potencial de paralelismo, aplicando a lei de Amdhal, vejam o estudo feito comparando o percentual de paralelização dos programas com o número de núcleos: veja em:

Lei de Amdhal - Paralelismo

NÍVEL DE CONSCIÊNCIA - QUAL O SEU?

ACOMPANHE O RESULTADO DAS ELEIÇÕES

Postagens do Blog

quinta-feira, 4 de julho de 2019

HDFS E MAPREDUCE

Nenhum comentário:

Postar um comentário

Links Favoritos

Postagem em Destaque

Definições para a administração

Postagens Mais Visitadas

Últimas Postagens

Blogs e Sites

Páginas