Postagens do Blog

Mostrando postagens com marcador SISTEMAS DE ARQUIVOS. Mostrar todas as postagens
Mostrando postagens com marcador SISTEMAS DE ARQUIVOS. Mostrar todas as postagens

quinta-feira, 4 de julho de 2019

HDFS E MAPREDUCE

HDFS E MAPREDUCE

Fonte: E-bookBigDataV2.pdf (Este arquivo é liberado depois de concluído o curso de Big Data) Aproveito a oportunidade para agradecer ao excelente trabalho no desenvolvimento do conteúdo deste E-book, recomendo fazerem o curso de Big Data para atualizarem-se.

O hadoop está se tornando o padrão nos projetos de Big Data porque possui:
Livre.
Baixo custo.
Tolerância a falhas a recuperação automática.
Portabilidade entre hardware e sistemas operacionais heterogêneos.
Escalabilidade para armazenar e processar grandes quantidades de dados.
Confiabilidade, através da manutenção de várias cópias de dados, e, permite que os jobs sejam executados em paralelo e em caso de falhas de um job, outros não são afetados.
Flexibilidade – processa todos os dados independente do tipo e formato, seja estruturado ou não-estruturado.
Acessibilidade – suporte a diversas linguagens de programação como Java, C++, Python, Apache Pig.

Componentes Base do Hadoop: Hadoop HDFS + Hadoop MapReduce
Onde:
HDFS: Armazenamento distribuído. Foi desenvolvido utilizando o projeto do sistema de arquivos distribuídos (DFS). Ele é executado em hardware commodity (baixo custo). Ao contrário de outros sistemas distribuídos, HDFS é altamente tolerante a falha.

CARACTERÍSTICAS DO HDFS

DFS (Distributed File System) - foi criado para gestão de armazenamento em uma rede de computadores.
HDFS é otimizado para armazenar grandes arquivos.
HDFS foi pensado para executar em clusters de computadores de baixo custo.
HDFS foi pensado para ser ótimo em performance do tipo WORM (Write Once, Read Many Times), que é um eficiente padrão de processamento de dados.
HDFS foi pensando considerando o tempo de leitura de um conjunto de dados inteiro e não apenas o primeiro registro.

COMO É CONFIGURADO O HADOOP

HDFS E MAPREDUCE
MapReduce: Computação distribuída

• MapReduce é um modelo de programação para processamento e geração de grandes conjuntos de dados.
• MapReduce transforma o problema de análise em um processo computacional que usa conjuntos de chaves e valores.
• MapReduce foi desenvolvido para tarefas que consomem minutos ou horas em computadores conectados em rede de alta velocidade gerenciados por um único master.
• MapReduce usa um tipo de análise de dados por força bruta. Todo o conjunto de dados é processado em cada query.
• MapReduce permite a execução de queries ad-hoc em todo o conjunto de dados em um tempo escalável.
• Muitos sistemas distribuídos combinam dados de múltiplas fontes (o que é bem complicado), mas MapReduce faz isso de forma eficiente e efetiva.
• O segredo da performance do MapReduce, está no balanceamento entre seeking e transfer: reduzir operações de seeking e usar de forma efetiva as operações de transfer.
Seek time – é o delay para encontrar um arquivo.
Transfer rate – é a velocidade para encontrar o arquivo. Transfer rates tem melhorado significativamente (é bem mais veloz que Seek times).
• O MapReduce é bom para atualizar todo (ou a maior parte) de um grande conjunto de dados.
• RDBMS (Relational Database Management System) são ótimos para atualizar pequenas porções de grandes bancos de dados.
• RDBMS utiliza o tradicional B-Tree, que é altamente dependente de operações de Seek.
• MapReduce utiliza operações de SORT e Merge para recriar o banco de dados, o que é mais dependente de operações de transfer.
O MapReduce se baseia em operações de transfer, o que deixa o acesso aos dados muito mais veloz.



COMO TRABALHA O MAPREDUCE

HDFS E MAPREDUCE


TIPOS DE DADOS

HDFS E MAPREDUCE

MapReduce é muito efetivo com dados semi ou não estruturados, porque MapReduce interpreta dados durante as sessões de processamento de dados. Ele não utiliza propriedades intrínsecas. Os parâmetros usados para selecionar os dados, são definidos pela pessoa que está fazendo a análise.

Informação Importante: Hadoop não é um banco de dados. Hadoop é um framework para armazenamento e processamento de grandes conjuntos de dados.

Depois de ler o artigo, responda a seguinte enquete.

Veja Também:
A teoria da relatividade e a Informática

Grato,
Jefferson Daminelli Garcia

quinta-feira, 14 de dezembro de 2017

SISTEMA DE ARQUIVOS CEPH

SISTEMA DE ARQUIVOS CEPH
Depois de ler o artigo, responda a seguinte enquete.

Os sistemas de arquivos permitem ao sistema operacional controlar o acesso ao disco rígido. Dependendo da informação que será acessada e o formato destes dados (doc, txt, dbf e outros), se está em rede ou local, a escolha do sistema de arquivos  é de vital importância, pois envolverá rapidez ao acesso das informações, escalabilidade e outros. Nem sempre sistemas de arquivos NTFS, RAISER FS e outros possibilitam estas características de forma eficiente, tendo como uma das alternativas de uso, o CEPH.
Grato,
Jefferson Daminelli Garcia

Veja também:
https://jeffersondgarcia.blogspot.com.br/p/atualidades.html

Postagem em Destaque

Maquina Virtual

  O QUE É UMA MÁQUINA VIRTUAL Uma máquina virtual , conhecida como guest, é criada dentro de um ambiente de processamento, chamado host. ...

Postagens Mais Visitadas

Últimas Postagens