Airflow |
Plataforma de gerenciamento de fluxo de trabalho de dados desenvolvida pelo Airbnb. Permite a criação, programação e monitoramento de fluxos de trabalho de dados complexos. |
Analytic Layer |
A camada de processamento de dados que executa a análise de dados, geralmente usando um data warehouse, para gerar insights e relatórios. |
Apache |
Uma fundação de software sem fins lucrativos que fornece e desenvolve software de código aberto para várias áreas, incluindo big data, nuvem, IoT e web. |
Athena |
Serviço de consultas interativas da AWS que permite a análise de dados em arquivos armazenados no S3 usando SQL padrão. Permite a execução de consultas ad hoc e a criação de painéis e relatórios. |
Batch |
Um processo de processamento de dados que é executado em um conjunto fixo de dados em uma programação pré-determinada. |
Big Data |
Big Data refere-se a um grande volume de dados, que podem ser estruturados, semiestruturados ou não estruturados. A análise desses dados pode levar a insights e informações valiosas. |
Bucket |
Um contêiner lógico no serviço de armazenamento de objetos da Amazon Web Services (AWS), o Amazon S3, usado para armazenar e organizar objetos de dados. |
CEP |
Complex Event Processing, uma tecnologia de processamento de eventos em tempo real que identifica padrões e tendências em fluxos de dados em tempo real. |
CI / CD |
CI/CD é a abreviação de Continuous Integration/Continuous Delivery, traduzindo para o português: integração e entrega contínuas. Trata-se de uma prática de desenvolvimento de software que visa tornar a integração de código mais eficiente por meio de builds e testes automatizados. |
CLI |
Tipo de interface de usuário que permite a interação com um computador ou outro dispositivo eletrônico usando comandos de texto digitados em um prompt de linha de comando. |
Cluster |
Um grupo de computadores conectados em rede, geralmente usados em conjunto para processamento distribuído de dados. |
Commodity |
Em informática, um hardware ou software de baixo custo e amplamente disponível, geralmente usado para tarefas comuns ou básicas. |
Data at Rest |
Dados armazenados em um dispositivo de armazenamento, como um disco rígido ou um pen drive, que não estão sendo transmitidos pela rede. |
Data at Wire |
Dados que estão sendo transmitidos pela rede, como em uma comunicação de rede ou em uma transmissão de dados. |
Data Crawler |
Software que é projetado para extrair dados de várias fontes na web e em outras fontes de dados e carregá-los em um repositório de dados para análise posterior. Os data crawlers são amplamente utilizados em aplicações de mineração de dados, inteligência de negócios e análise de big data para coletar e processar grandes volumes de dados de várias fontes, incluindo a web, bancos de dados, feeds RSS, entre outros. Eles geralmente usam técnicas de web scraping para coletar dados de sites da web e podem ser programados para atualizar automaticamente os dados em intervalos regulares. |
Data Governance |
O conjunto de políticas, procedimentos e processos que garantem a qualidade, a segurança, a privacidade e a conformidade dos dados em uma organização. |
Data Lake |
Um Data Lake é um repositório de dados que permite armazenar dados brutos em seu formato original e sem transformação prévia, possibilitando a análise de diversos tipos de dados. |
Data Lakehouse |
Uma plataforma de dados moderna construída a partir de uma combinação de um data lake e um data warehouse. |
Data Modeling |
O processo de criar um modelo conceitual, lógico e físico de dados, que descreve as entidades, relacionamentos, atributos e restrições dos dados. |
Data Pipeline |
Um Data Pipeline é uma sequência de processos que movem dados de uma fonte para um destino, geralmente usando ferramentas de ETL. |
Data Warehouse |
Um Data Warehouse (DW) é um repositório de dados que armazena informações de várias fontes em um formato padronizado, geralmente usado para análise e tomada de decisões. |
DBT |
Plataforma de transformação de dados desenvolvida em Python que permite a criação de pipelines de dados orientados a testes. DBT é usado para transformar e limpar dados em um armazém de dados. |
Downtime |
O período de tempo em que um sistema ou serviço não está disponível para uso devido a manutenção programada, falhas de hardware ou outros problemas técnicos. |
EC2 |
Elastic Compute Cloud, um serviço de computação em nuvem da AWS que fornece capacidade computacional escalável em nuvem, permitindo a execução de aplicativos em instâncias de máquinas virtuais. |
ElasticSearch |
Motor de busca e análise de dados distribuído de código aberto. O ElasticSearch é capaz de armazenar, pesquisar e analisar grandes volumes de dados em tempo real e fornece recursos avançados de pesquisa de texto completo, agregação de dados e análise de tendências. É amplamente utilizado em aplicações de busca e análise de logs, monitoramento de desempenho, análise de segurança e muito mais. |
ELT |
Extract, Load, Transform, um processo de integração de dados em que os dados são primeiro extraídos do sistema de origem, depois carregados em um local de destino e, em seguida, transformados. |
ERP |
Enterprise Resource Planning, um sistema integrado de software usado para gerenciar as operações de negócios, incluindo finanças, contabilidade, gerenciamento de projetos, recursos humanos e cadeia de suprimentos. |
ETL |
ETL significa Extract, Transform and Load, e é um processo para extrair dados de várias fontes, transformá-los em um formato padronizado e carregá-los em um destino de dados. |
Glue |
Serviço de ETL gerenciado pela AWS que permite a criação de fluxos de trabalho de dados para extrair, transformar e carregar dados. É capaz de executar código em PySpark, Python e Scala. |
Hack |
Uma linguagem de programação de código aberto, projetada para a criação de aplicativos web dinâmicos. |
Hadoop |
Hadoop é um framework de software que permite processar grandes conjuntos de dados distribuídos em clusters de computadores. É amplamente utilizado para processar Big Data. |
HDFS |
Hadoop Distributed File System, um sistema de arquivos distribuído usado pelo Hadoop para armazenar grandes volumes de dados em clusters de servidores. |
Inteligência Artificial |
A Inteligência Artificial é um ramo da ciência da computação que se concentra em criar sistemas que possam realizar tarefas que normalmente exigem inteligência humana, como reconhecimento de fala e visão computacional. |
Junker |
Um termo genérico para dados de baixa qualidade, imprecisos ou desnecessários, que podem interferir na precisão e na eficácia da análise de dados. |
Lambda |
Um serviço de computação sem servidor da AWS, que permite a execução de código sem a necessidade de gerenciar servidores. |
Landing Layer |
A camada inicial em um pipeline de processamento de dados, onde os dados são coletados, limpos e armazenados para uso posterior. |
Machine Learning |
Machine Learning é um conjunto de técnicas que permitem que os sistemas aprendam e melhorem com base em dados. É usado para análise preditiva e classificação de dados. |
NoSQL |
NoSQL é uma abordagem de banco de dados que não utiliza o modelo relacional tradicional. Esses bancos de dados são usados principalmente para armazenar dados não estruturados e semiestruturados. |
OLAP |
Online Analytical Processing, um tipo de sistema de gerenciamento de banco de dados usado para análise de dados em grandes conjuntos de dados e complexidade. |
OLTP |
Online Transaction Processing, um tipo de sistema de gerenciamento de banco de dados usado para processamento de transações em tempo real, com alta frequência e baixa complexidade. |
PaaS |
Platform as a Service, um modelo de computação em nuvem em que um provedor de serviços oferece uma plataforma de desenvolvimento e implantação de aplicativos na nuvem, incluindo infraestrutura, sistema operacional, middleware e ferramentas de desenvolvimento. |
Parquet |
Formato de arquivo de armazenamento de dados colunares de código aberto desenvolvido pela Apache Software Foundation. Projetado para ser eficiente em termos de espaço e processamento para consultas em grandes conjuntos de dados. |
PIM |
Product Information Management, uma solução de software para gerenciamento centralizado de informações de produtos e catálogos. |
PuTTY |
Um software de código aberto para emular terminais de rede, que permite a conexão segura a servidores remotos usando o protocolo SSH. |
Redshift |
Um serviço de armazenamento de dados e análise de dados da AWS, que permite a criação de um data warehouse em escala petabyte para análise de dados de negócios. |
S3 |
Simple Storage Service, um serviço de armazenamento de objetos em nuvem da AWS, que permite o armazenamento e recuperação de dados em qualquer lugar da Internet. |
Scala |
Linguagem de programação de código aberto que é executada na máquina virtual Java (JVM). Scala é frequentemente usada em aplicações de Big Data e processamento distribuído, incluindo plataformas como o Apache Spark. |
Schema |
Uma estrutura que define a organização e o formato dos dados em um banco de dados, que especifica as tabelas, os campos, os relacionamentos e as restrições. |
Spark |
Um mecanismo de computação em cluster usado para processamento distribuído de dados, muitas vezes usado em conjunto com o Hadoop. |
SSH |
Secure Shell, um protocolo de rede criptografado usado para acessar remotamente computadores e servidores. |
SSL |
Secure Sockets Layer, um protocolo de segurança usado para garantir a segurança das comunicações na Internet. |
Streaming |
Streaming é um modelo de processamento de dados em que os dados são processados em tempo real à medida que são gerados. É utilizado para coletar e processar dados em tempo real. |
Trigger |
Uma instrução em um banco de dados que é executada automaticamente quando ocorre uma determinada ação, como uma atualização ou exclusão de dados. |
TSL |
Transport Layer Security, um protocolo de segurança usado para garantir a privacidade e a integridade dos dados em comunicações de rede. |
URI |
Uniform Resource Identifier, um identificador único para recursos na Internet, que inclui URLs (Uniform Resource Locators) e URNs (Uniform Resource Names). |