Skip to content

Latest commit

 

History

History
59 lines (58 loc) · 10.4 KB

Dicionário de Termos.md

File metadata and controls

59 lines (58 loc) · 10.4 KB

Dicionário de Termos

Termo Descrição
Airflow  Plataforma de gerenciamento de fluxo de trabalho de dados desenvolvida pelo Airbnb. Permite a criação, programação e monitoramento de fluxos de trabalho de dados complexos.
Analytic Layer  A camada de processamento de dados que executa a análise de dados, geralmente usando um data warehouse, para gerar insights e relatórios.
Apache  Uma fundação de software sem fins lucrativos que fornece e desenvolve software de código aberto para várias áreas, incluindo big data, nuvem, IoT e web.
Athena   Serviço de consultas interativas da AWS que permite a análise de dados em arquivos armazenados no S3 usando SQL padrão. Permite a execução de consultas ad hoc e a criação de painéis e relatórios.
Batch Um processo de processamento de dados que é executado em um conjunto fixo de dados em uma programação pré-determinada.
Big Data  Big Data refere-se a um grande volume de dados, que podem ser estruturados, semiestruturados ou não estruturados. A análise desses dados pode levar a insights e informações valiosas.
Bucket    Um contêiner lógico no serviço de armazenamento de objetos da Amazon Web Services (AWS), o Amazon S3, usado para armazenar e organizar objetos de dados.
CEP   Complex Event Processing, uma tecnologia de processamento de eventos em tempo real que identifica padrões e tendências em fluxos de dados em tempo real.
CI / CD CI/CD é a abreviação de Continuous Integration/Continuous Delivery, traduzindo para o português: integração e entrega contínuas. Trata-se de uma prática de desenvolvimento de software que visa tornar a integração de código mais eficiente por meio de builds e testes automatizados.
CLI Tipo de interface de usuário que permite a interação com um computador ou outro dispositivo eletrônico usando comandos de texto digitados em um prompt de linha de comando.
Cluster   Um grupo de computadores conectados em rede, geralmente usados em conjunto para processamento distribuído de dados.
Commodity Em informática, um hardware ou software de baixo custo e amplamente disponível, geralmente usado para tarefas comuns ou básicas.
Data at Rest  Dados armazenados em um dispositivo de armazenamento, como um disco rígido ou um pen drive, que não estão sendo transmitidos pela rede.
Data at Wire  Dados que estão sendo transmitidos pela rede, como em uma comunicação de rede ou em uma transmissão de dados.
Data Crawler Software que é projetado para extrair dados de várias fontes na web e em outras fontes de dados e carregá-los em um repositório de dados para análise posterior. Os data crawlers são amplamente utilizados em aplicações de mineração de dados, inteligência de negócios e análise de big data para coletar e processar grandes volumes de dados de várias fontes, incluindo a web, bancos de dados, feeds RSS, entre outros. Eles geralmente usam técnicas de web scraping para coletar dados de sites da web e podem ser programados para atualizar automaticamente os dados em intervalos regulares.
Data Governance   O conjunto de políticas, procedimentos e processos que garantem a qualidade, a segurança, a privacidade e a conformidade dos dados em uma organização.
Data Lake Um Data Lake é um repositório de dados que permite armazenar dados brutos em seu formato original e sem transformação prévia, possibilitando a análise de diversos tipos de dados.
Data Lakehouse Uma plataforma de dados moderna construída a partir de uma combinação de um data lake e um data warehouse.
Data Modeling O processo de criar um modelo conceitual, lógico e físico de dados, que descreve as entidades, relacionamentos, atributos e restrições dos dados.
Data Pipeline Um Data Pipeline é uma sequência de processos que movem dados de uma fonte para um destino, geralmente usando ferramentas de ETL.
Data Warehouse   Um Data Warehouse (DW) é um repositório de dados que armazena informações de várias fontes em um formato padronizado, geralmente usado para análise e tomada de decisões.
DBT     Plataforma de transformação de dados desenvolvida em Python que permite a criação de pipelines de dados orientados a testes. DBT é usado para transformar e limpar dados em um armazém de dados.
Downtime  O período de tempo em que um sistema ou serviço não está disponível para uso devido a manutenção programada, falhas de hardware ou outros problemas técnicos.
EC2   Elastic Compute Cloud, um serviço de computação em nuvem da AWS que fornece capacidade computacional escalável em nuvem, permitindo a execução de aplicativos em instâncias de máquinas virtuais.
ElasticSearch Motor de busca e análise de dados distribuído de código aberto. O ElasticSearch é capaz de armazenar, pesquisar e analisar grandes volumes de dados em tempo real e fornece recursos avançados de pesquisa de texto completo, agregação de dados e análise de tendências. É amplamente utilizado em aplicações de busca e análise de logs, monitoramento de desempenho, análise de segurança e muito mais.
ELT   Extract, Load, Transform, um processo de integração de dados em que os dados são primeiro extraídos do sistema de origem, depois carregados em um local de destino e, em seguida, transformados.
ERP   Enterprise Resource Planning, um sistema integrado de software usado para gerenciar as operações de negócios, incluindo finanças, contabilidade, gerenciamento de projetos, recursos humanos e cadeia de suprimentos.
ETL  ETL significa Extract, Transform and Load, e é um processo para extrair dados de várias fontes, transformá-los em um formato padronizado e carregá-los em um destino de dados.
Glue   Serviço de ETL gerenciado pela AWS que permite a criação de fluxos de trabalho de dados para extrair, transformar e carregar dados. É capaz de executar código em PySpark, Python e Scala.
Hack  Uma linguagem de programação de código aberto, projetada para a criação de aplicativos web dinâmicos.
Hadoop    Hadoop é um framework de software que permite processar grandes conjuntos de dados distribuídos em clusters de computadores. É amplamente utilizado para processar Big Data.
HDFS  Hadoop Distributed File System, um sistema de arquivos distribuído usado pelo Hadoop para armazenar grandes volumes de dados em clusters de servidores.
Inteligência Artificial   A Inteligência Artificial é um ramo da ciência da computação que se concentra em criar sistemas que possam realizar tarefas que normalmente exigem inteligência humana, como reconhecimento de fala e visão computacional.
Junker    Um termo genérico para dados de baixa qualidade, imprecisos ou desnecessários, que podem interferir na precisão e na eficácia da análise de dados.
Lambda    Um serviço de computação sem servidor da AWS, que permite a execução de código sem a necessidade de gerenciar servidores.
Landing Layer A camada inicial em um pipeline de processamento de dados, onde os dados são coletados, limpos e armazenados para uso posterior.
Machine Learning  Machine Learning é um conjunto de técnicas que permitem que os sistemas aprendam e melhorem com base em dados. É usado para análise preditiva e classificação de dados.
NoSQL NoSQL é uma abordagem de banco de dados que não utiliza o modelo relacional tradicional. Esses bancos de dados são usados principalmente para armazenar dados não estruturados e semiestruturados.
OLAP  Online Analytical Processing, um tipo de sistema de gerenciamento de banco de dados usado para análise de dados em grandes conjuntos de dados e complexidade.
OLTP  Online Transaction Processing, um tipo de sistema de gerenciamento de banco de dados usado para processamento de transações em tempo real, com alta frequência e baixa complexidade.
PaaS  Platform as a Service, um modelo de computação em nuvem em que um provedor de serviços oferece uma plataforma de desenvolvimento e implantação de aplicativos na nuvem, incluindo infraestrutura, sistema operacional, middleware e ferramentas de desenvolvimento.
Parquet  Formato de arquivo de armazenamento de dados colunares de código aberto desenvolvido pela Apache Software Foundation. Projetado para ser eficiente em termos de espaço e processamento para consultas em grandes conjuntos de dados.
PIM   Product Information Management, uma solução de software para gerenciamento centralizado de informações de produtos e catálogos.
PuTTY Um software de código aberto para emular terminais de rede, que permite a conexão segura a servidores remotos usando o protocolo SSH.
Redshift  Um serviço de armazenamento de dados e análise de dados da AWS, que permite a criação de um data warehouse em escala petabyte para análise de dados de negócios.
S3    Simple Storage Service, um serviço de armazenamento de objetos em nuvem da AWS, que permite o armazenamento e recuperação de dados em qualquer lugar da Internet.
Scala   Linguagem de programação de código aberto que é executada na máquina virtual Java (JVM). Scala é frequentemente usada em aplicações de Big Data e processamento distribuído, incluindo plataformas como o Apache Spark.
Schema    Uma estrutura que define a organização e o formato dos dados em um banco de dados, que especifica as tabelas, os campos, os relacionamentos e as restrições.
Spark Um mecanismo de computação em cluster usado para processamento distribuído de dados, muitas vezes usado em conjunto com o Hadoop.
SSH   Secure Shell, um protocolo de rede criptografado usado para acessar remotamente computadores e servidores.
SSL   Secure Sockets Layer, um protocolo de segurança usado para garantir a segurança das comunicações na Internet.
Streaming Streaming é um modelo de processamento de dados em que os dados são processados em tempo real à medida que são gerados. É utilizado para coletar e processar dados em tempo real.
Trigger   Uma instrução em um banco de dados que é executada automaticamente quando ocorre uma determinada ação, como uma atualização ou exclusão de dados.
TSL   Transport Layer Security, um protocolo de segurança usado para garantir a privacidade e a integridade dos dados em comunicações de rede.
URI   Uniform Resource Identifier, um identificador único para recursos na Internet, que inclui URLs (Uniform Resource Locators) e URNs (Uniform Resource Names).