Lakehouse, Spark e Databricks

Fundamentação, estratégia de clusters, Databricks CLI e organização do Workspace.

Por Fábio Linhares • Instituto Infnet

O que este TP mede: decisões reais de engenharia de dados em lakehouse (Spark/Databricks), com foco em arquitetura, custo e operação. A introdução logo abaixo detalha o cenário e as competências avaliadas.

As questões a seguir não são um “quiz de ferramenta”. Elas simulam o tipo de decisão que um(a) engenheiro(a) de dados precisa tomar quando o volume explode, o dado é sujo, a cobrança por SLA aparece e a empresa descobre (tarde) que “arquivos soltos” não são arquitetura.

O desafio aqui é duplo. Primeiro, você vai encarar a mudança de paradigma: sair do modelo clássico de processamento em lote orientado a disco (Hadoop/MapReduce) e entender por que o Spark e o lakehouse mudam o jogo quando há terabytes de telemetria industrial e necessidade de reprocessar, auditar e evoluir schemas sem quebrar tudo. Segundo, você vai descer do “conceito bonito” para o chão de fábrica: escolher e configurar computação no Databricks com intenção (cluster interativo para exploração vs job compute para produção), e montar um ambiente de desenvolvimento que permita repetir, automatizar e organizar o trabalho — sem virar um cemitério de notebooks perdidos.

Se você conseguir responder bem a tudo, terá desenvolvido um conjunto bem específico de competências (e qualidades) que, na prática, definem maturidade em lakehouse:

Você será capaz de justificar arquitetura com base em mecanismo, não em slogan: explicar como o Spark executa um DAG, por que isso reduz I/O redundante em comparação ao MapReduce, e como esse detalhe vira eficiência e previsibilidade em pipelines reais. Você também dominará a lógica do lakehouse como solução para o “cisma” histórico entre data lake e data warehouse: entenderá como tabelas transacionais e metadados colocam ordem no caos dos arquivos, permitindo SQL confiável, versionamento e evolução de schema sem duplicar o ecossistema.

Você passará a pensar em computação como estratégia econômica e operacional: saberá quando usar cluster interativo (iterar, investigar, prototipar) e quando usar job compute (produzir com custo menor e isolamento), além de conseguir expressar essa decisão em configuração concreta (JSON) e defendê-la com argumentos de custo, governança e previsibilidade.

Você desenvolverá habilidade de operar o ambiente como produto, não como “setup de aula”: conseguirá configurar e validar a Databricks CLI, automatizar tarefas simples (como estrutura de workspace), impor organização mínima e preparar terreno para integração com versionamento e rotinas repetíveis. Em outras palavras, você ganhará “músculo” de engenharia: reprodutibilidade, padronização e capacidade de escalar seu próprio trabalho.

E há uma qualidade transversal que amarra tudo: pensamento operacional baseado em evidências. Quem resolve essas questões direito não só sabe “o que fazer”, mas sabe “como provar que funcionou” — seja medindo desempenho, analisando gargalos (I/O, shuffle, skew), controlando risco (governança e acesso) ou estabelecendo critérios objetivos para decidir.

O que vem adiante, portanto, é um teste de maturidade: arquitetura (por quê), computação (com que custo e confiabilidade) e ambiente (como manter isso sustentável). Se você atravessar esse percurso, sai com uma visão integrada do lakehouse no Databricks — do argumento para a diretoria até o JSON do job e a disciplina de organização do workspace.

Vou assumir o cenário da SensorFlow como “engenharia de dados em produção”: muito volume (TB/dia), dados sujos, necessidade de processar com latência previsível, garantir integridade (ACID) e governar acesso. O ponto central é a virada de mentalidade: sair de “arquivos soltos + scripts” para “tabelas transacionais + contratos + operação observável”.

📍 Mapa do Caminho: de Fundamentos a Operação

ETAPA 01

Introdução e Maturidade Operacional

Entender o que está sendo avaliado: decisões baseadas em mecanismo e evidência, não em slogan.

Mudança de paradigma (MapReduce → Spark/DAG)
Governança e integridade como requisito
Hipótese → evidência → decisão → validação
Cenário SensorFlow (volume alto + previsibilidade)

Você sabe explicar por que e como provar, não só “o que fazer”.

ETAPA 02

Spark vs MapReduce

Trocar jobs em disco por execução distribuída orientada a DAG e memória quando faz sentido.

Latência e I/O
DAG, cache e recomputação
Iteratividade e reprocessamento
Impacto prático em telemetria industrial

Argumento técnico claro para diretoria e para o “chão de fábrica”.

ETAPA 03

Lakehouse

Unificar “Data Lake (arquivos)” e “Data Warehouse (SQL)” com governança e confiabilidade.

ACID e log transacional
Schema evolution e versionamento
SQL confiável no lake
Governança central

Menos duplicação de stack, mais rastreabilidade e previsibilidade.

ETAPA 04

Compute e Custos

Tratar computação como estratégia econômica: interativo para exploração, job compute para produção.

All-Purpose (desenvolvimento)
Job Compute (pipelines noturnos)
Políticas, limites e governança
Definir e defender um Job JSON

Custo previsível e operação repetível.

ETAPA 05

Ambiente e Organização

Operar o workspace como produto: CLI autenticada e estrutura padronizada de pastas.

Databricks CLI (profiles)
Checkpoints de validação
Workspace: bronze/silver/gold
Disciplina contra “cemitério de notebooks”

Reprodutibilidade e escalabilidade do seu próprio trabalho.

ETAPA 06

Debrief

Consolidar a competência com decisões curtas e testáveis.

Pipeline atrasou 3×: hipótese limitada
Métricas + ação + comparação antes/depois
“Por que Lakehouse?” em 5 frases

Você sai com um método de diagnóstico que não depende de sorte.

Sugestão:

Leia as respostas como decisões justificadas, não como “gabarito”. Em cada questão, procure a lógica causal (hipótese → evidência → decisão → validação) e tente reconstruir a decisão no seu próprio contexto.

Critério de acerto aqui é operacional: a resposta precisa ser defensável com mecanismos (Spark, lakehouse, governança) e com custo/risco/observabilidade em mente. Se a decisão não puder ser medida ou auditada, ela não está completa.

O cenário SensorFlow é o fio condutor. Use-o para avaliar prioridades (latência previsível, integridade e acesso) e entender por que cada escolha técnica tem impacto real.

Fundamentação teórica: Lakehouse & Spark

Spark vs MapReduce; Lakehouse vs DW/DL.

▼

1.1 Relatório técnico para a diretoria: Spark (memória/DAG) vs MapReduce/Hadoop (disco/jobs)

Assunto: Substituição do paradigma “processamento por jobs em disco (MapReduce)” por “execução distribuída orientada a DAG com reuso em memória (Spark)” para os dados industriais da SensorFlow.

Resumo executivo (a decisão): Recomendamos Apache Spark como motor de computação distribuída principal no Lakehouse da SensorFlow. O motivo não é “moda”; é arquitetura: Spark reduz I/O redundante, acelera workloads iterativos e interativos, e sustenta bem ETL/ELT moderno (batch e incremental) com melhor tempo de ciclo para engenharia e analytics.

O que muda no modelo de execução:

MapReduce/Hadoop é um modelo em etapas rígidas (map → shuffle/sort → reduce), onde grande parte do pipeline “respira pelo disco”: o shuffle e as mesclas frequentemente materializam dados em disco para viabilizar tolerância a falhas e gestão de memória. Isso aumenta a robustez em certos cenários, mas cobra em latência e repetição de I/O. (hadoop.apache.org)
Spark organiza o processamento como um grafo de execução (DAG) e permite reuso explícito de dados intermediários via cache/persistência (em memória quando possível, com fallback para disco conforme o nível de persistência). Isso diminui recomputação e acelera consultas repetidas, loops de ETL e algoritmos iterativos. (Apache Spark)

Por que isso importa para a SensorFlow (telemetria industrial em TB):

Pipelines com múltiplas transformações (normalização, parsing, dedupe, enriquecimento, regras de qualidade, joins) sofrem quando cada etapa vira materialização pesada. O Spark permite encadear transformações e só materializar quando necessário (ações), e ainda otimizar o plano.
Iteratividade e “tempo de resposta”: engenharia de dados precisa testar hipóteses (“por que duplicou?”, “por que o null-rate subiu?”) e rodar comparações. Spark + notebooks + jobs aceleram o ciclo de diagnóstico/decisão.
Cargas iterativas (ex.: detecção de anomalias, feature engineering, reprocessamentos incrementais) se beneficiam do reuso de intermediários. Cache/persistência é um “botão arquitetural” do Spark que o MapReduce não tem como primitivo central. (Apache Spark)

Honestidade técnica (sem propaganda): “Spark é em memória” é uma simplificação. Ele usa memória agressivamente quando você pede (cache/persist), mas também escreve em disco em shuffles/spills quando precisa. A vantagem é controle e otimização do plano, não “nunca usar disco”.

Recomendação de decisão: Adotar Spark como motor padrão no Databricks Lakehouse para ingestão/transformação e analytics; manter o foco em medições (tempo, shuffle, skew, custo) e não em “tunings de fé”.

Mini-check de entendimento (diretoria): se a pergunta for “por que fica mais rápido?”, a resposta correta é “porque reduz I/O redundante e permite reuso e otimização do plano”, não “porque é mais moderno”.

1.2 Como o Lakehouse resolve a separação “Data Lake (arquivos)” vs “Data Warehouse (SQL)”

A SensorFlow “antiga” tinha um padrão clássico: arquivos no lake para guardar tudo (flexível, barato, mas frágil) e estruturas no warehouse para garantir SQL, governança e consistência (mais rígido, caro, difícil de manter em escala). Lakehouse é a tentativa bem-sucedida de juntar o melhor dos dois, com base em três pilares:

Formato aberto no storage + tabelas transacionais Você continua armazenando em storage barato (objetos/arquivos), mas passa a tratar os dados como tabelas com log transacional (ACID), versionamento e evolução de schema. Esse “log manda” e elimina a anarquia de “arquivo solto”. Isso é a essência do Lakehouse e do uso de formatos abertos com garantias de warehouse. (cidrdb.org)
SQL e BI diretamente sobre os mesmos dados governados Em vez de “copiar para o warehouse”, o Lakehouse viabiliza SQL confiável sobre dados no lake com transações e metadados. O resultado é menos duplicação, menos pipelines paralelos e menos divergência de números. (cidrdb.org)
Governança central (catálogo, permissões, auditoria) A separação histórica também era “organizacional”: quem pode ver o quê, quem altera o quê, e como auditar. Um catálogo/governança unificada (ex.: Unity Catalog) coloca controle de acesso, lineage e auditoria no mesmo plano das tabelas.

Analogia rápida (com limite explícito): antes era uma biblioteca com “pilhas de papéis” (arquivos) e uma sala trancada com “livros catalogados” (warehouse). Lakehouse transforma o depósito em biblioteca de verdade: continua no mesmo prédio (storage), mas com catálogo, regras e histórico.

Estratégia de computação: clusters

All-purpose vs job compute; Job JSON e custo.

▼

2.1 Configurar All-Purpose Compute (cluster interativo) para desenvolvimento exploratório

Diagnóstico rápido: você quer um ambiente para explorar, depurar e iterar — e quer fazer isso sem incendiar custo nem conflitar com produção. All-purpose é para isso. A própria plataforma distingue all-purpose (interativo) de job clusters (tarefas). (Databricks Documentation)

Camada 1 (intuição): cluster interativo = “bancada de laboratório”. Camada 2 (mecânica): fica disponível para múltiplas execuções, notebooks, testes. Camada 3 (armadilhas): custo por ociosidade e “cluster compartilhado vira gargalo”.

Passo a passo (UI do Databricks, geral):

Compute → Create compute (ou “Create cluster/compute”, conforme sua UI).
Selecione All-purpose compute (interativo). (Databricks Documentation)
Configurações recomendadas (pragmáticas):
- Auto-termination: 20–60 min (para matar ocioso).
- Autoscaling: mínimo baixo (ex.: 1 worker) e máximo moderado (ex.: 4–8) para exploração.
- Runtime: prefira uma versão LTS compatível com seus jobs e libs (consistência > novidade).
- Access mode / Data security mode: alinhar com governança (Unity Catalog geralmente pede modos mais restritos/claros).
- Tags / policy: se sua org usa políticas, respeite; elas existem para evitar “cluster monstro acidental”. (Databricks Documentation)
Checkpoints (provar que está pronto):
- Rodar um sanity check no notebook (ex.: spark.range(10).count()).
- Verificar no Spark UI/SQL UI se o cluster está saudável (executors, tempo, eventuais spills).

Regra de ouro: use all-purpose para engenharia e diagnóstico; não para “rodar a fábrica toda à noite”.

2.2 JSON de Job Compute (cluster de tarefa) e por que é mais econômico para pipelines noturnos

Fato operacional importante: quando você roda job em Job compute novo, ele termina ao fim do job (não fica disponível para restart manual). Isso já corta o desperdício de “cluster ligado sem ninguém olhando”. (Databricks Documentation) E, em termos de cobrança, o Databricks documenta que workloads não-interativos custam significativamente menos em job compute do que em all-purpose. (Databricks Documentation)

Abaixo vai um exemplo de Job com jobcluster (padrão moderno: define o cluster dentro do job). Eu vou usar placeholders para spark_version e node_type_id porque variam por cloud/conta/política — o formato e a intenção são o que importa. O conceito de “jobclusters / new_cluster” aparece na referência de Jobs API. (Databricks Documentation)

CODEJSON

{
  "name": "sensorflow-nightly-bronze-ingest",
  "tasks": [
    {
      "task_key": "ingest_bronze",
      "job_cluster_key": "jobc_nightly_small",
      "notebook_task": {
        "notebook_path": "/Shared/sensorflow-lakehouse/01_bronze/ingestao_bronze",
        "base_parameters": {
          "run_date": "{{ds}}"
        }
      },
      "timeout_seconds": 10800,
      "max_retries": 2,
      "min_retry_interval_millis": 300000
    }
  ],
  "job_clusters": [
    {
      "job_cluster_key": "jobc_nightly_small",
      "new_cluster": {
        "spark_version": "YOUR_DBR_LTS",
        "node_type_id": "YOUR_NODE_TYPE",
        "autoscale": {
          "min_workers": 2,
          "max_workers": 8
        },
        "autotermination_minutes": 30
      }
    }
  ]
}

Por que isso é mais econômico e operacionalmente melhor (para “pipelines noturnos”):

Economia por design: cluster nasce para o job e morre no fim; você paga pelo que executou, não pelo que esqueceu ligado. (Databricks Documentation)
Preço/DBU: o próprio Databricks indica menor custo para workloads não-interativos em jobs compute. (Databricks Documentation)
Isolamento de carga: jobs não disputam recursos com usuários “brincando no notebook”, reduzindo latência e variabilidade. (Isso é uma dor clássica em all-purpose compartilhado.) (Azure Documentation)

Checkpoint de “deu certo”: histórico do job mostra cluster criado e encerrado; custo/tempo ficam rastreáveis por run; e você consegue repetir o run com os mesmos parâmetros.

Ambiente de desenvolvimento

Databricks CLI e estrutura de pastas no workspace.

▼

3.1 Configurar Databricks CLI

Diagnóstico rápido: você quer CLI para automatizar (deploy, organização do workspace, integração CI/CD) e reduzir “clicação”.

Instalação (CLI novo, >= 0.205):

Databricks documenta install via Homebrew/WinGet/curl e validação por databricks -v. (Databricks Documentation)

Autenticação (dois caminhos úteis):

OAuth (preferível em muitos cenários, tokens curtos, menos risco) O fluxo é databricks auth login --host <workspace-url> e a CLI salva um profile. (Databricks Documentation)
Token (PAT) via databricks configure Exemplo (interativo ou automatizado) e onde salva (~/.databrickscfg / %USERPROFILE%\.databrickscfg) estão na referência do comando. (Databricks Documentation)

Exemplo prático (token/PAT, profile separado):

CODEBASH

databricks configure --host https://<seu-workspace>.cloud.databricks.com --profile DEV
# vai pedir: Databricks Token

Evidência/validação mínima:

CODEBASH

databricks clusters list -p DEV

A lista (ou um erro de permissão claro) prova que a auth está funcionando. A ordem de resolução (env vars → profiles) também é documentada. (Databricks Documentation)

3.2 Criar estrutura de pastas no Workspace (CLI ou UI)

Pelo CLI, você tem o comando databricks workspace mkdirs (cria diretórios recursivamente). (Databricks Documentation)

Sugestão de estrutura (pensada para projeto Lakehouse e para reduzir caos):

/Shared/sensorflow-lakehouse/00_admin (docs operacionais, runbooks)
/Shared/sensorflow-lakehouse/01_bronze (ingestão, contratos mínimos, rastreabilidade)
/Shared/sensorflow-lakehouse/02_silver (limpeza/normalização)
/Shared/sensorflow-lakehouse/03_gold (modelos para consumo/BI)
/Shared/sensorflow-lakehouse/90_utils (funções comuns, helpers)
/Shared/sensorflow-lakehouse/99_sandbox (experimentos com prazo de validade)

Criando via CLI:

CODEBASH

databricks workspace mkdirs /Shared/sensorflow-lakehouse/01_bronze -p DEV
databricks workspace mkdirs /Shared/sensorflow-lakehouse/02_silver -p DEV
databricks workspace mkdirs /Shared/sensorflow-lakehouse/03_gold -p DEV
databricks workspace mkdirs /Shared/sensorflow-lakehouse/00_admin -p DEV
databricks workspace list /Shared/sensorflow-lakehouse -p DEV

Checkpoint: workspace list deve mostrar as pastas. (Databricks Documentation)

Nota pragmática (não pedida, mas importante): para versionamento real, o ideal é usar Repos/Git e tratar notebooks/código como artefatos versionados; o workspace vira mais “interface” do que “fonte da verdade”.

Referências

▼