(4Linux) Big Data Analytics com Hadoop

Ecossistema Hadoop

O ecossistema Hadoop não é nem uma linguagem de programação nem um serviço, mas sim uma plataforma de serviços que resolve grandes problemas relacionados a processamento distribuído de dados. Você pode considerá-lo como uma suíte de serviços que engloba ferramentas para ingestão, armazenamento, análise e manutenção de dados.

Lembre-se de que o Hadoop é uma estrutura. Se Hadoop fosse uma casa, ele não seria um lugar muito confortável para viver. Forneceria paredes, janelas, portas, tubos e fios. O ecossistema Hadoop fornece o mobiliário que transforma a estrutura em uma casa confortável para uma grande atividade de dados que reflete suas necessidades e gostos específicos.

O ecossistema Hadoop inclui projetos oficiais de código aberto da Apache e uma ampla gama de ferramentas e soluções comerciais. Alguns dos exemplos de fontes abertas mais conhecidos incluem Spark, Hive, Pig, Oozie e Sqoop.

As ofertas comerciais Hadoop são ainda mais diversas e incluem plataformas e distribuições preparadas por fornecedores como Cloudera, Hortonworks e MapR, além de uma variedade de ferramentas para tarefas específicas de desenvolvimento, produção e manutenção do Hadoop.

Componentes CORE

Componente	Descrição
`HDFS`	O sistema de arquivos distribuído do Hadoop é o componente principal do ecossistema Hadoop. O HDFS permite armazenar diferentes tipos de dados (dados estruturados, não estruturados e semiestruturados) em larga escala.
`YARN`	Considere o YARN como o cérebro do seu ecossistema Hadoop. Ele realiza todas as suas atividades de processamento alocando recursos e tarefas de agendamento.
`MapReduce`	É o componente central do processamento em um ecossistema Hadoop, pois fornece a lógica do processamento. Em outras palavras, o MapReduce é um paradigma de programação que determina como escrever aplicações que processam grandes conjuntos de dados usando algoritmos distribuídos e paralelos.

Links

Difference Between Apache Pig and Apache Hive
Difference between Pig and Hive-The Two Key Components of Hadoop Ecosystem
Fast Spark Access To Your Data - Avro, JSON, ORC, and Parquet
HDPCD Certification – Post 1
The Hadoop Ecosystem Table
rashidaligee/HDPCD-Certification

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

(4Linux) Big Data Analytics com Hadoop

Ecossistema Hadoop

Componentes CORE

Links

Files

README.md

Latest commit

History

README.md

File metadata and controls

(4Linux) Big Data Analytics com Hadoop

Ecossistema Hadoop

Componentes CORE

Links