Arquitetura Lakehouse na AWS

Do desenho à governança: zonas no S3, catálogo, tabelas ACID e consumo analítico.

Por Fábio Linhares • Instituto Infnet

As questões a seguir não foram feitas para “ver se você sabe clicar na AWS”. Elas simulam um momento muito específico (e muito real) da vida de uma plataforma de dados: o instante em que a empresa percebe que migrar dados “do jeito rápido” é como construir um prédio começando pelo 8º andar. Antes de mover um único arquivo, você precisa desenhar o fluxo, separar zonas, decidir padrões de tabela e, principalmente, definir quem pode tocar em quê — porque depois que o dado está no lake, qualquer bagunça vira dívida cara, e qualquer brecha vira incidente.

O primeiro desafio que você vai enfrentar é arquitetural e de linguagem: transformar um objetivo vago (“analisar vendas na nuvem”) em um desenho completo de ponta a ponta, no qual cada bloco tem função, custo e responsabilidade. Não é apenas desenhar um diagrama bonito com ícones; é conseguir defender por que o fluxo proposto é um lakehouse (e não “um monte de arquivos no S3”) e por que isso resolve limitações clássicas de um Data Warehouse tradicional para uma startup que precisa evoluir rápido, aceitar dados semi-estruturados, reprocessar histórico e ainda controlar custos. Se você conseguir fazer isso com clareza, você demonstra domínio do pensamento de arquitetura: trade-offs explícitos, escolhas justificadas e visão de longo prazo.

O segundo desafio é disciplina de organização e operação no S3. Na prática, “zona raw/clean/analytics” é um contrato operacional: define imutabilidade, qualidade esperada, formato, e o que pode (ou não) ser consumido por BI. Ao construir a estrutura de buckets e camadas e ainda aplicar uma política de lifecycle para transicionar dados antigos para Glacier, você vai praticar uma competência raríssima em iniciantes: pensar em custo, retenção e reprocessamento ao mesmo tempo. Quem domina isso não cria um lake; cria um lake que dá para manter.

O terceiro desafio é o que separa um laboratório de um ambiente corporativo: governança e segurança. Definir administrador no Lake Formation e simular políticas IAM com papéis bem recortados (escreve apenas no raw, lê apenas no analytics) força você a pensar como alguém que projeta uma plataforma para múltiplos times — com controle de acesso, rastreabilidade, menor privilégio e separação de responsabilidades. Em outras palavras: você começa a construir o “sistema imunológico” da plataforma antes de ela ganhar massa.

Se você conseguir resolver todas as questões com qualidade, você terá desenvolvido um conjunto de competências que, no mercado, aparecem como “maturidade de plataforma”:

Você será capaz de desenhar uma arquitetura lakehouse completa, explicando o fluxo de dados da origem ao consumo e justificando tecnicamente escolhas de componentes e padrões. Você entenderá por que lakehouse é mais do que S3, e como ACID, catálogo e governança mudam o jogo em evolução de schema, reprocessamento e auditoria.

Você dominará a habilidade de organizar um Data Lake para não virar pântano, definindo zonas com intenção (raw/clean/analytics), separando responsabilidades, e criando bases para qualidade e rastreabilidade. E, crucialmente, você saberá operar custo como requisito, aplicando lifecycle/Glacier de forma alinhada com retenção, auditoria e necessidades reais de reprocessamento.

Você também desenvolverá uma mentalidade de segurança e governança “by design”: não como “camada final”, mas como parte estrutural do projeto. Isso inclui entender a diferença entre acesso ao armazenamento (S3/IAM) e governança no nível de dados (Lake Formation/tabelas), desenhar perfis de acesso mínimos, e implementar segregação que reduz risco e facilita compliance.

Em termos de “qualidades”, o leitor que passa por esse conjunto sai com algo muito específico: capacidade de tomar decisões técnicas sob restrição, com método. Ele aprende a perguntar e responder como um engenheiro responsável: “onde isso vai quebrar?”, “como eu provo que está seguro?”, “como eu evito que o custo exploda?”, “como eu explico a origem desse número daqui a seis meses?”. Resolver estas questões, portanto, não é só acertar a resposta — é demonstrar que você consegue preparar o terreno certo para que a CloudMart migre dados com segurança, governança e escalabilidade, sem transformar a nuvem num caos mais caro que o datacenter antigo.

Diagnóstico

Você quer definir Uma arquitetura lakehouse na AWS, organizar o S3 por zonas antes de mover dados, e estabelecer governança + IAM (incluindo Lake Formation). Vou assumir um cenário “médio”: dados de vendas vêm de um banco relacional on-prem (ex.: PostgreSQL/MySQL), alguns eventos de e-commerce (clickstream) e arquivos CSV/JSON. O objetivo é análise de vendas (BI) e base para ML no futuro.

(Consenso) A forma “limpa” de fazer isso na AWS hoje é: S3 como storage, catálogo (Glue Data Catalog), governança (Lake Formation), processamento (Glue/EMR/Athena) e consumo (Athena/Redshift/QuickSight). Para “Lakehouse” de verdade, você precisa de um formato de tabela com ACID no lake: Apache Iceberg (ou Hudi/Delta). Vou usar Iceberg como padrão por ser amplamente suportado no ecossistema AWS.

Design da Solução

Objetivo:

Desenhar o fluxo ponta a ponta e justificar o porquê das escolhas.

▼

1.1 Diagrama de arquitetura (com ícones AWS)

Camada 1 (modelo mental): pense em 4 trilhas: Fontes → Ingestão → Lakehouse (S3 + tabelas ACID + catálogo) → Consumo. A governança “cobre” tudo.

Camada 2 (diagrama lógico que você pode desenhar com ícones AWS no draw.io/Lucidchart):

flowchart LR
  subgraph OnPrem["Origem (On-Prem)"]
    DB[(Banco transacional)]
    Files[Arquivos CSV/JSON]
  end

  subgraph Ingest["Ingestão"]
    DMS[AWS DMS (CDC)]
    KDS[Amazon Kinesis Data Streams]
    SFTP[AWS Transfer Family]
  end

  subgraph Lake["Lakehouse no S3"]
    S3raw[(S3 - raw zone)]
    S3clean[(S3 - clean/silver zone)]
    S3an[(S3 - analytics/gold zone)]
    Ice[(Tabelas Iceberg)]
    Glue[Glue Data Catalog]
    LF[AWS Lake Formation]
  end

  subgraph Proc["Processamento"]
    GlueETL[AWS Glue Jobs]
    Athena[Amazon Athena]
    EMR[Amazon EMR (opcional)]
  end

  subgraph Cons["Consumo"]
    QS[Amazon QuickSight]
    RS[Amazon Redshift (opcional)]
    APIs[Data Products / APIs internas]
  end

  DB --> DMS --> S3raw
  Files --> SFTP --> S3raw
  KDS --> S3raw

  S3raw --> GlueETL --> S3clean --> GlueETL --> S3an
  S3clean --> Ice
  S3an --> Ice

  Ice <--> Glue
  LF --- Glue
  LF --- S3raw
  LF --- S3clean
  LF --- S3an

  Athena --> Ice --> QS
  RS --> Ice --> QS
  APIs --> Ice

Como desenhar “com ícones AWS” (passos práticos):

Use diagrams.net (draw.io) → “More Shapes” → AWS Architecture (ou importe o pack oficial de ícones).
Substitua cada bloco do Mermaid pelos ícones equivalentes:
- DMS, Kinesis Data Streams, S3, Glue, Lake Formation, Athena, QuickSight, (Redshift opcional).
Inclua setas claras com rótulos: “CDC”, “landing/raw”, “ETL/ELT”, “curated/gold”, “SQL/BI”.

Ação guiada por evidências (checkpoints do desenho):

O diagrama mostra onde a governança atua (Lake Formation + IAM).
O diagrama mostra camadas (raw→clean→analytics) e quem escreve em cada uma.
O consumo aponta para tabelas (Iceberg) e não “arquivos soltos”.

Validação:

Se você conseguir responder “de onde vem a métrica X?” seguindo setas até a origem, o diagrama está bom.

Debrief:

O diagrama é um contrato: ele força decisões (formatos, zones, controles) antes de código.

Exercício curto:

Refaça o diagrama substituindo Glue ETL por EMR/Spark e justifique em uma frase quando Spark é necessário.

1.2 Por que isso é Lakehouse e quais problemas do DW tradicional resolve

(Consenso) “Lakehouse” = Data Lake (S3) + governança + desempenho de DW + ACID em tabelas. Sem ACID, você tem um lake organizado; com ACID, você tem um lakehouse.

Camada 1 (essência):

DW tradicional: schema rígido, onboarding lento, alto custo se você “duplica” dados, e dificuldade com semi-estruturado.
Lakehouse: storage barato e elástico (S3) + compute desacoplado + formatos abertos (Iceberg) + catálogo/governança.

Camada 2 (problemas do DW clássico que o Lakehouse ataca na CloudMart):

Acoplamento storage/compute (DW): você paga caro para armazenar tudo “no warehouse”. → Lakehouse: S3 armazena; compute escala quando precisa (Athena/Glue/EMR/Redshift Spectrum).
Onboarding lento de novas fontes: cada nova fonte vira projeto de modelagem/ETL “pesado”. → Lakehouse: landing no raw rápido; evolução gradual para clean/gold.
Semi-estruturado e evolução de schema: JSONs e mudanças de payload quebram pipelines. → Lakehouse: schema evolution + catálogo + validações por camada.
Cópias e retrabalho: DW tende a gerar múltiplas cópias (staging, ods, marts) em storage caro. → Lakehouse: uma “fonte de verdade” no S3, com versionamento/time travel (Iceberg).

(Pontos em disputa) Iceberg vs Hudi vs Delta:

Iceberg costuma ser a escolha “neutra” no ecossistema AWS (Athena/Glue/EMR/Redshift vêm se alinhando bem). Hudi é forte em upserts/streaming; Delta é ótimo, mas historicamente mais colado ao ecossistema Databricks.

(Minha heurística) Para a CloudMart:

Comece com batch + CDC para o core transacional; adicione streaming só onde “agora” tem valor (fraude, estoque em tempo real, alertas operacionais). Streaming-first é caro de operar.

Mini-ADR (decisão arquitetural)

Contexto: migração on-prem → AWS, foco em analítica de vendas, segurança antes dos dados.
Decisão: S3 zones + Iceberg tables + Glue Catalog + Lake Formation + Athena/QuickSight.
Alternativas: DW puro (Redshift-only), Data Vault, Hudi/Delta.
Trade-offs: lakehouse exige mais disciplina (catálogo, contratos, governança); em troca ganha flexibilidade e custo.
Plano de validação: PoC com 1 fonte (vendas), 1 mart (fato vendas), 3 queries críticas com custo/latência medidos.

Infraestrutura de Armazenamento (S3)

Objetivo:

Estruturar buckets/zones e custo/retenção via lifecycle/Glacier.

▼

2.1 Estrutura de buckets por zonas

(Consenso) Existem dois padrões aceitáveis:

Padrão A (mais simples de governar por IAM): 1 bucket por zona.
Padrão B (menos buckets): 1 bucket com prefixes /raw/, /clean/, /analytics/.

Como você pediu “estrutura de Buckets”, vou usar o Padrão A.

Proposta (com ambientes):

cloudmart-datalake-raw-dev / cloudmart-datalake-raw-prod
cloudmart-datalake-clean-dev / cloudmart-datalake-clean-prod
cloudmart-datalake-analytics-dev / cloudmart-datalake-analytics-prod Opcional operacional:
cloudmart-datalake-logs-prod (logs de acesso, CloudTrail)
cloudmart-datalake-tmp-prod (staging temporário de jobs)

Boas práticas imediatas (antes de qualquer dado):

Block Public Access ligado em todos.
SSE-KMS (criptografia com KMS), com chaves separadas por ambiente.
Versioning ligado (principalmente raw/clean).
Bucket policy mínima e auditoria via CloudTrail + S3 access logs (ou CloudTrail data events, conforme custo).

Exemplo via AWS CLI (simplificado):

aws s3api create-bucket --bucket cloudmart-datalake-raw-prod --region us-east-1
aws s3api put-public-access-block --bucket cloudmart-datalake-raw-prod   --public-access-block-configuration BlockPublicAcls=true,IgnorePublicAcls=true,BlockPublicPolicy=true,RestrictPublicBuckets=true

aws s3api put-bucket-versioning --bucket cloudmart-datalake-raw-prod   --versioning-configuration Status=Enabled

Checklist de ingestão (para você colar no seu material):

Fonte → esquema → cadência → idempotência → qualidade → lineage → retenção → segurança.

Validação:

Tente criar um objeto público (deve falhar).
Confirme criptografia padrão no bucket.

Debrief:

“Raw” não é “bagunça”; é “imutável + rastreável”. A bagunça começa quando raw vira “área de trabalho”.

Exercício curto:

Adicione uma convenção de prefixes dentro de cada bucket: source=.../dt=YYYY-MM-DD/ e explique por que isso ajuda particionamento e governança.

2.2 Lifecycle Policy: mover dados da raw-zone para Glacier após 90 dias

(Consenso) Você não “move de um bucket para outro” com Lifecycle; você transiciona a classe de armazenamento. O objeto continua no mesmo bucket, mas passa a custar menos e a custar mais/ser mais lento para recuperar.

Regra típica para raw:

Após 90 dias: transicionar para GLACIER_IR (bom “meio termo”) ou DEEP_ARCHIVE (mais barato, recuperação mais lenta).
Opcional: após X anos, expirar (se sua política de retenção permitir).

Exemplo de policy (transição para Glacier Instant Retrieval após 90 dias):

{
  "Rules": [
    {
      "ID": "raw-to-glacier-ir-90d",
      "Status": "Enabled",
      "Filter": {},
      "Transitions": [
        {
          "Days": 90,
          "StorageClass": "GLACIER_IR"
        }
      ],
      "NoncurrentVersionTransitions": [
        {
          "NoncurrentDays": 30,
          "StorageClass": "GLACIER_IR"
        }
      ]
    }
  ]
}

Aplicar:

aws s3api put-bucket-lifecycle-configuration   --bucket cloudmart-datalake-raw-prod   --lifecycle-configuration file://lifecycle-raw.json

Ação guiada por evidências (o que medir/decidir):

Se raw é consultado raramente após 30–90 dias, Glacier faz sentido.
Se há backfills frequentes (reprocessamentos), talvez manter raw “quente” por mais tempo.

Validação:

Liste a configuração: aws s3api get-bucket-lifecycle-configuration --bucket ...
Em produção, valide por amostragem (S3 Inventory) se objetos antigos estão mudando de StorageClass.

Debrief:

A lifecycle policy é uma política financeira disfarçada de feature técnica. Ela precisa conversar com reprocessamento e auditoria.

Exercício curto:

Crie uma segunda regra: “expirar versões não correntes após 365 dias” e discuta o risco para auditoria.

Governança e Segurança

Objetivo:

Lake Formation como plano de controle + IAM de menor privilégio.

▼

3.1 Configurar AWS Lake Formation: definir um administrador do Data Lake

Camada 1 (modelo mental): Lake Formation centraliza “quem pode ver o quê” no lake em nível de tabela/coluna/linha, mas ele depende de:

Identidades (IAM roles/users),
Catálogo (Glue),
E permissões coerentes no S3 (geralmente mais abertas para roles de serviço e mais restritas para humanos).

Passo a passo (conceitual, console):

1 Crie/defina uma role: `CloudMartDataLakeAdminRole` (assumida por um grupo/admin, ou por uma role de plataforma).

2 Lake Formation → Data lake settings → “Data lake administrators” → adicione a role.

3 Configure locais do lake (S3 locations) e registre-os no Lake Formation (para LF gerenciar permissões).

Via CLI (simulação):

aws lakeformation put-data-lake-settings --data-lake-settings '{
  "DataLakeAdmins": [
    { "DataLakePrincipalIdentifier": "arn:aws:iam::<ACCOUNT_ID>:role/CloudMartDataLakeAdminRole" }
  ]
}'

Validação:

A role admin deve conseguir conceder permissões LF (Grant) e ver o catálogo.
Um usuário “comum” não deve conseguir administrar permissões LF.

Debrief:

Admin de lake é poder alto. Em org madura, isso vira um “plano de controle” com trilha de auditoria e, idealmente, MFA + aprovação.

Exercício curto:

Defina (em texto) a diferença entre “ser admin do Lake Formation” e “ter permissão de leitura no S3”.

3.2 Simular política de acesso: IAM “escreve só raw” e IAM “lê só analytics”

Vou assumir 3 buckets separados (raw/clean/analytics). Isso reduz complexidade e evita policy cheia de condição.

Perfil 1: CloudMartRawWriter (pode escrever no raw; não lê) Política IAM (anexar a um user/role):

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "AllowPutToRawBucketOnly",
      "Effect": "Allow",
      "Action": [
        "s3:PutObject",
        "s3:AbortMultipartUpload",
        "s3:ListBucketMultipartUploads"
      ],
      "Resource": [
        "arn:aws:s3:::cloudmart-datalake-raw-prod/*"
      ]
    },
    {
      "Sid": "AllowListRawBucketForPrefixes",
      "Effect": "Allow",
      "Action": ["s3:ListBucket", "s3:GetBucketLocation"],
      "Resource": ["arn:aws:s3:::cloudmart-datalake-raw-prod"]
    }
  ]
}

Perfil 2: CloudMartAnalyticsReader (pode ler no analytics; não escreve)

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "AllowReadFromAnalyticsBucketOnly",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject"
      ],
      "Resource": [
        "arn:aws:s3:::cloudmart-datalake-analytics-prod/*"
      ]
    },
    {
      "Sid": "AllowListAnalyticsBucket",
      "Effect": "Allow",
      "Action": ["s3:ListBucket", "s3:GetBucketLocation"],
      "Resource": ["arn:aws:s3:::cloudmart-datalake-analytics-prod"]
    }
  ]
}

(Consenso) Importante na vida real: acesso humano direto a S3 para “consumo” costuma ser substituído por acesso via Athena/Redshift/QuickSight + Lake Formation (permissões em tabelas), porque isso te dá governança fina e auditável. Mas como exercício de IAM, as policies acima são corretas.

Ação guiada por evidências (testes práticos):

1 Teste writer:

aws s3 cp file.csv s3://cloudmart-datalake-raw-prod/source=sales/dt=2026-02-06/file.csv
aws s3 ls s3://cloudmart-datalake-analytics-prod/   # deve falhar

2 Teste reader:

aws s3 ls s3://cloudmart-datalake-analytics-prod/
aws s3 cp s3://cloudmart-datalake-analytics-prod/... ./  # deve funcionar
aws s3 cp file.csv s3://cloudmart-datalake-raw-prod/...  # deve falhar

Validação adicional (mais “engenharia”):

Use iam:SimulatePrincipalPolicy para provar que a policy não permite ações fora do escopo (bom para checklist de segurança).

Debrief:

IAM em S3 resolve “porta de entrada”, mas governança de dados de verdade precisa subir para o nível de tabelas/colunas (Lake Formation).

Exercício curto:

Troque o padrão para 1 bucket com prefixes /raw/ e /analytics/ e reescreva as policies usando Condition com s3:prefix.

Fechamento operacional

Com isso, a CloudMart tem (1) um desenho lakehouse defensável, (2) zonas no S3 com políticas de custo, (3) um plano de controle de governança (Lake Formation) e (4) IAM mínimo para separar escrita de landing e leitura de consumo. Próximo passo natural é formalizar isso em um ADR completo e depois começar a primeira ingestão (um único domínio de vendas) com testes de qualidade e um mart simples para BI.