Lakehouse, Spark e Databricks

Fundamentação, estratégia de clusters, Databricks CLI e organização do Workspace.

Por Fábio Linhares • Instituto Infnet

O que este TP mede: decisões reais de engenharia de dados em lakehouse (Spark/Databricks), com foco em arquitetura, custo e operação. A introdução logo abaixo detalha o cenário e as competências avaliadas.

As questões a seguir não são um “quiz de ferramenta”. Elas simulam o tipo de decisão que um(a) engenheiro(a) de dados precisa tomar quando o volume explode, o dado é sujo, a cobrança por SLA aparece e a empresa descobre (tarde) que “arquivos soltos” não são arquitetura.

O desafio aqui é duplo. Primeiro, você vai encarar a mudança de paradigma: sair do modelo clássico de processamento em lote orientado a disco (Hadoop/MapReduce) e entender por que o Spark e o lakehouse mudam o jogo quando há terabytes de telemetria industrial e necessidade de reprocessar, auditar e evoluir schemas sem quebrar tudo. Segundo, você vai descer do “conceito bonito” para o chão de fábrica: escolher e configurar computação no Databricks com intenção (cluster interativo para exploração vs job compute para produção), e montar um ambiente de desenvolvimento que permita repetir, automatizar e organizar o trabalho — sem virar um cemitério de notebooks perdidos.

Se você conseguir responder bem a tudo, terá desenvolvido um conjunto bem específico de competências (e qualidades) que, na prática, definem maturidade em lakehouse:

Você será capaz de justificar arquitetura com base em mecanismo, não em slogan: explicar como o Spark executa um DAG, por que isso reduz I/O redundante em comparação ao MapReduce, e como esse detalhe vira eficiência e previsibilidade em pipelines reais. Você também dominará a lógica do lakehouse como solução para o “cisma” histórico entre data lake e data warehouse: entenderá como tabelas transacionais e metadados colocam ordem no caos dos arquivos, permitindo SQL confiável, versionamento e evolução de schema sem duplicar o ecossistema.

Você passará a pensar em computação como estratégia econômica e operacional: saberá quando usar cluster interativo (iterar, investigar, prototipar) e quando usar job compute (produzir com custo menor e isolamento), além de conseguir expressar essa decisão em configuração concreta (JSON) e defendê-la com argumentos de custo, governança e previsibilidade.

Você desenvolverá habilidade de operar o ambiente como produto, não como “setup de aula”: conseguirá configurar e validar a Databricks CLI, automatizar tarefas simples (como estrutura de workspace), impor organização mínima e preparar terreno para integração com versionamento e rotinas repetíveis. Em outras palavras, você ganhará “músculo” de engenharia: reprodutibilidade, padronização e capacidade de escalar seu próprio trabalho.

E há uma qualidade transversal que amarra tudo: pensamento operacional baseado em evidências. Quem resolve essas questões direito não só sabe “o que fazer”, mas sabe “como provar que funcionou” — seja medindo desempenho, analisando gargalos (I/O, shuffle, skew), controlando risco (governança e acesso) ou estabelecendo critérios objetivos para decidir.

O que vem adiante, portanto, é um teste de maturidade: arquitetura (por quê), computação (com que custo e confiabilidade) e ambiente (como manter isso sustentável). Se você atravessar esse percurso, sai com uma visão integrada do lakehouse no Databricks — do argumento para a diretoria até o JSON do job e a disciplina de organização do workspace.

Vou assumir o cenário da SensorFlow como “engenharia de dados em produção”: muito volume (TB/dia), dados sujos, necessidade de processar com latência previsível, garantir integridade (ACID) e governar acesso. O ponto central é a virada de mentalidade: sair de “arquivos soltos + scripts” para “tabelas transacionais + contratos + operação observável”.

📍 Mapa do Caminho: de Fundamentos a Operação
ETAPA 01
Introdução e Maturidade Operacional
Entender o que está sendo avaliado: decisões baseadas em mecanismo e evidência, não em slogan.
  • Mudança de paradigma (MapReduce → Spark/DAG)
  • Governança e integridade como requisito
  • Hipótese → evidência → decisão → validação
  • Cenário SensorFlow (volume alto + previsibilidade)
Você sabe explicar por que e como provar, não só “o que fazer”.
ETAPA 02
Spark vs MapReduce
Trocar jobs em disco por execução distribuída orientada a DAG e memória quando faz sentido.
  • Latência e I/O
  • DAG, cache e recomputação
  • Iteratividade e reprocessamento
  • Impacto prático em telemetria industrial
Argumento técnico claro para diretoria e para o “chão de fábrica”.
ETAPA 03
Lakehouse
Unificar “Data Lake (arquivos)” e “Data Warehouse (SQL)” com governança e confiabilidade.
  • ACID e log transacional
  • Schema evolution e versionamento
  • SQL confiável no lake
  • Governança central
Menos duplicação de stack, mais rastreabilidade e previsibilidade.
ETAPA 04
Compute e Custos
Tratar computação como estratégia econômica: interativo para exploração, job compute para produção.
  • All-Purpose (desenvolvimento)
  • Job Compute (pipelines noturnos)
  • Políticas, limites e governança
  • Definir e defender um Job JSON
Custo previsível e operação repetível.
ETAPA 05
Ambiente e Organização
Operar o workspace como produto: CLI autenticada e estrutura padronizada de pastas.
  • Databricks CLI (profiles)
  • Checkpoints de validação
  • Workspace: bronze/silver/gold
  • Disciplina contra “cemitério de notebooks”
Reprodutibilidade e escalabilidade do seu próprio trabalho.
ETAPA 06
Debrief
Consolidar a competência com decisões curtas e testáveis.
  • Pipeline atrasou 3×: hipótese limitada
  • Métricas + ação + comparação antes/depois
  • “Por que Lakehouse?” em 5 frases
Você sai com um método de diagnóstico que não depende de sorte.

Sugestão:

Leia as respostas como decisões justificadas, não como “gabarito”. Em cada questão, procure a lógica causal (hipótese → evidência → decisão → validação) e tente reconstruir a decisão no seu próprio contexto.

Critério de acerto aqui é operacional: a resposta precisa ser defensável com mecanismos (Spark, lakehouse, governança) e com custo/risco/observabilidade em mente. Se a decisão não puder ser medida ou auditada, ela não está completa.

O cenário SensorFlow é o fio condutor. Use-o para avaliar prioridades (latência previsível, integridade e acesso) e entender por que cada escolha técnica tem impacto real.