CRISP-DM — Aplicação ao Projeto de Detecção de Mídias Sintéticas

CRISP-DM: Breve Introdução

O CRISP-DM (Cross-Industry Standard Process for Data Mining) é um processo padronizado e iterativo para condução de projetos de ciência de dados. Ele organiza o trabalho em seis fases: Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelagem, Avaliação e Implantação. O ciclo é não-linear e prevê voltas entre fases, permitindo que descobertas em etapas posteriores refinem requisitos e decisões iniciais. Nesta página, aplicamos o CRISP-DM ao projeto de detecção de mídias sintéticas em vídeos, enfatizando alinhamento científico, reprodutibilidade e interpretabilidade (DataScience-PM, 2025).

📋 Nota metodológica

Para os fins desta entrega, preservamos a estrutura solicitada do CRISP-DM, acrescida, nas etapas pertinentes, de decisões metodológicas e fundamentações teóricas alinhadas ao nosso projeto de pesquisa.”

METODOLOGIA

O projeto foi (re)estruturado para seguir o CRISP-DM de forma prática e verificável. Abaixo, destacamos princípios operacionais e os artefatos esperados em cada fase, garantindo (ou tentando, ao menos) rastreabilidade, reprodutibilidade e ciclos iterativos curtos.

Princípios de aderência

Ciclos iterativos: revisões planejadas ao final de cada fase com critérios de saída (DoD).
Rastreabilidade: decisões e experimentos versionados (dados, código e modelos).
Reprodutibilidade: pipelines declarativos e seeds fixas nos experimentos.
Generalização: separação estrita entre bases (treino/validação/teste) e teste zero-shot.
Interpretabilidade: métricas e visualizações que expliquem o “como” e o “porquê”.

1) Compreensão do Negócio

Objetivos científicos mensuráveis (validação das hipóteses H1-H3).
Métricas de sucesso: AUC-ROC > 0.90, EER < 5%, generalização cross-dataset.
Critério de saída: problema científico bem definido e escopo fechado.

2) Compreensão dos Dados

Análise exploratória de FF++ e Celeb-DF v2 (distribuições, qualidade).
Mapeamento de técnicas de manipulação e características dos datasets.
Critério de saída: adequação dos dados às hipóteses de pesquisa confirmada.

3) Preparação dos Dados

Pipeline de extração/alinhamento facial e normalização padronizada.
Construção de séries temporais para análise de complexidade-entropia.
Critério de saída: dados processados e splits científicos validados.

4) Modelagem

Implementação do Plano CH e pipeline ViT com fusão híbrida.
Baselines rigorosos para comparação científica.
Critério de saída: modelos reprodutíveis com melhoria teórica demonstrada.

5) Avaliação

Protocolo científico com testes de significância estatística.
Análise de robustez, generalização e interpretabilidade.
Critério de saída: hipóteses validadas/refutadas com evidências sólidas.

6) Implantação

Framework científico reprodutível e código aberto.
Documentação completa para replicação e extensão da pesquisa.
Critério de saída: contribuição científica validada e disponibilizada.

REVISÃO BIBLIOGRÁFICA: O PRINCÍPIO DE TUDO

A revisão sistemática da literatura (RSL) constitui o alicerce metodológico do projeto, fornecendo o mapeamento científico necessário para identificar lacunas, estabelecer o estado da arte e fundamentar as hipóteses de pesquisa. Utilizando o protocolo PICOC (Population, Intervention, Comparison, Outcomes, Context), a revisão em andamento já permitiu identificar tendências, limitações e oportunidades na detecção de mídias sintéticas.

Este trabalho preliminar de revisão não apenas orienta as decisões metodológicas e técnicas do projeto, mas também assegura que a proposta se posicione adequadamente no contexto científico atual. A análise qualitativa dos trabalhos selecionados revelou padrões importantes: enquanto a maioria dos estudos se concentra em abordagens empíricas baseadas em artefatos visuais, poucos exploram fundamentos teóricos da análise de sistemas dinâmicos para caracterização de mídias sintéticas.

🧭 PICOC — Mapeamento da Revisão

Population/Problem: mídias sintéticas (imagens/vídeos) geradas por GANs e difusão; faces humanas.

Intervention: análise de complexidade‑entropia (entropia de permutação, Plano CH) e fusão com ViT.

Comparison: CNNs/Vision Transformers puros, análise de artefatos/frequência.

Outcomes: AUC‑ROC, EER, robustez (compressão/ruído), generalização cross‑dataset, interpretabilidade.

Context: segurança da informação, forense digital, mitigação de desinformação.

🗂️ Datasets adicionais (imagens)

AI Generated Images — High Quality (Kaggle): imagens IA realistas para testes de robustez.
Deepfake and Real Images (Kaggle): binário real vs. fake para avaliação cruzada.

Uso: complementar a avaliação com dados de imagens estáticas e medir transferência.

📚 Bases bibliográficas consultadas

Web of Science, IEEE Xplore, Scopus e ScienceDirect foram usadas para a RSL (PICOC), com critérios de qualidade e reprodutibilidade.

1. COMPREENSÃO DO "NEGÓCIO"

A disseminação de mídias sintéticas, especialmente vídeos manipulados por técnicas de deepfake, representa um desafio estratégico para a segurança digital, a integridade da informação e a confiança em ambientes virtuais. O problema transcende a esfera técnica: envolve impactos sociais, políticos e econômicos, já que conteúdos manipulados podem ser usados para fins de desinformação, difamação e manipulação de opinião pública.

O projeto busca responder a essa demanda crítica por meio do desenvolvimento de um detector de deepfakes baseado em fundamentos da Teoria da Informação e da Análise de Sistemas Dinâmicos Complexos. Diferentemente de abordagens puramente empíricas, a proposta se ancora em princípios teóricos sólidos, buscando conciliar robustez estatística, interpretabilidade e generalização para métodos de manipulação ainda não observados.

🎯 Objetivo Geral

Desenvolver e validar um framework híbrido e generalizável para a detecção de vídeos sintéticos (criados ou alterados por Inteligência Artificial), fundamentado na sinergia entre a análise de complexidade estatística (Plano CH) e a extração de features de aprendizado profundo (ViT).

🔹 Objetivos Específicos

Implementar pipeline para extração das coordenadas (H,C) do Plano CH com análise de sensibilidade aos parâmetros de embedding (dx, dy).
Mapear e caracterizar as assinaturas de complexidade de vídeos reais e falsos (FF++, Celeb-DF), validando a Hipótese de Separação.
Avaliar a robustez de (H,C) frente a perturbações: compressão, ruído e iluminação.
Construir, treinar e validar um modelo híbrido que combine F_CH e F_ViT, comparando contra um baseline F_ViT-only.
Fornecer explicações sobre os mecanismos de detecção, destacando interpretabilidade.

🔬 Hipóteses de Pesquisa

H1 — Separação: reais vs. sintéticos ocupam regiões separáveis no Plano CH.
H2 — Eficiência: F_CH é estimador mais eficiente da classe do que features baseadas em artefatos.
H3 — Sinergia: Fusão F_CH + F_ViT supera baselines em acurácia e generalização.

2. COMPREENSÃO DOS DADOS

A pesquisa fará uso de conjuntos de dados de referência amplamente empregados na literatura:

📊 FaceForensics++ (FF++)

Utilizado como base de treinamento e validação. Este dataset contém vídeos originais e suas versões manipuladas por diferentes técnicas (Deepfakes, Face2Face, FaceSwap e NeuralTextures), além de variantes em múltiplos níveis de compressão.

🎯 Celeb-DF v2

Empregado como conjunto de teste para avaliação de generalização. Considerado mais desafiador, este dataset apresenta manipulações sutis que escapam a detectores convencionais.

Os dados consistem em vídeos digitais contendo faces humanas, de onde serão extraídos frames individuais e subsequentes representações temporais. Cada frame será tratado como unidade básica para extração de atributos, mas a análise considerará também a dimensão temporal das sequências, uma vez que inconsistências sutis emergem apenas ao longo do tempo.

3. PREPARAÇÃO DOS DADOS

A preparação envolve múltiplas etapas de pré-processamento:

Extração de frames a partir dos vídeos, garantindo diversidade de amostras representativas.
Detecção e alinhamento de faces, assegurando comparabilidade entre quadros distintos.
Conversão para escala de cinza, reduzindo redundâncias e focando na estrutura estatística da imagem.
Normalização e segmentação temporal, preparando os dados para análises sequenciais.
Construção das séries temporais de padrões ordinais, a partir das quais serão estimadas medidas de entropia de permutação e complexidade estatística.

Nesta etapa também se definirá a divisão entre conjuntos de treinamento, validação e teste, preservando a independência entre as bases para garantir avaliação confiável.

🔧 Ambiente de Desenvolvimento

Python (Anaconda). Núcleo: numpy, pandas, scikit‑learn, matplotlib/jupyter. Deep Learning: PyTorch/torchvision (CUDA opcional). Visão: OpenCV, Pillow. Modelos: timm/transformers. Teoria da Informação: ordpy. Classificação tabular/visualização: xgboost, lightgbm, seaborn, plotly.

📈 Governança de Dados e Experimentos

Seeds fixas, splits reprodutíveis e versionamento de datasets/processamentos.
Rastreio de experimentos e hiperparâmetros; logs de métricas e artefatos.

4. MODELAGEM

A modelagem será realizada em dois eixos complementares:

Pipeline de Análise de Complexidade-Entropia (F_CH)

Implementação do Plano Complexidade-Entropia (Plano CH) em cada frame, gerando vetores bidimensionais [H, C].
Estudo de sensibilidade quanto aos parâmetros de embedding (dx, dy), de modo a maximizar a separabilidade entre classes (real vs. sintética).
Produção de um espaço de assinaturas dinâmicas, interpretável e fundamentado teoricamente.

Pipeline de Extração por Aprendizado Profundo (F_ViT)

Utilização de um Vision Transformer (ViT) pré-treinado como extrator de características globais.
Geração de embeddings latentes de alta dimensão, representando aspectos semânticos e contextuais da imagem.

Modelo Híbrido

Combinação dos vetores [H, C] e FViT em um espaço de representação unificado.
Aplicação de um classificador baseado em Gradient Boosting (e.g., XGBoost ou LightGBM).
Treinamento de um modelo baseline com apenas FViT, possibilitando comparação direta e validação da hipótese de sinergia.

⚖️ Baselines e Comparações

Baseline F_ViT-only, comparação com CNNs/ViTs da literatura; ablações sobre parâmetros do Plano CH e fusões.

🧪 Versionamento de Experimentos

Registro de configurações, seeds, checkpoints e métricas para reprodutibilidade e auditoria científica.

5. AVALIAÇÃO

A avaliação seguirá protocolo rigoroso, com múltiplas métricas:

Primárias: AUC-ROC e Equal Error Rate (EER), com foco na capacidade discriminativa.
Secundárias: Acurácia, Precisão, Recall e F1-score, para análise complementar.
Testes de Robustez: impacto de compressão, ruído e variações de iluminação sobre o desempenho do modelo.
Teste de Generalização: avaliação zero-shot no Celeb-DF v2, sem re-treinamento.

Essa etapa também contemplará análise interpretativa dos resultados, buscando compreender não apenas “quanto” o modelo detecta, mas também “como” ele o faz.

📋 QA da Literatura (RSL)

Critérios: métricas claras, uso de datasets públicos, comparação com baselines, robustez, reprodutibilidade, discussão de limitações e clareza de objetivos. Estatísticas preliminares: 10/10 aprovados; média 5,8/8; melhor desempenho em métricas/objetivos; necessidade de maior discussão de limitações.

Detalhes e artefatos: Relatório executivo · Resultados QA · Índice de artigos

📈 Resultados Esperados

Validação empírica das hipóteses centrais (H1–H3).
Framework híbrido inovador e interpretável.
Generalização superior em dados não vistos (zero‑shot).
Publicações científicas e código aberto.

6. IMPLANTAÇÃO

Embora o projeto esteja em fase acadêmica, a etapa de implantação prevê a entrega de um framework híbrido de detecção, com potencial de adaptação a diferentes contextos de aplicação:

Forense digital: autenticação de provas em investigações.
Plataformas de mídia: detecção de manipulações em vídeos compartilhados online.
Pesquisa científica: disponibilização de ferramentas e datasets processados para a comunidade.

As limitações previstas incluem a necessidade de infraestrutura computacional adequada, o desafio de acompanhar a rápida evolução das técnicas de geração de mídia sintética e a constante atualização frente a novos datasets.

🗓️ Cronograma (24 meses)

Fase 1 (1–6): RSL, ambiente, implementação dos pipelines F_CH e F_ViT.
Fase 2 (7–12): extração de features (FF++/Celeb‑DF), sensibilidade e validação da H1.
Fase 3 (13–18): modelo híbrido e baseline; otimização; validação de H2/H3.
Fase 4 (19–24): protocolo final, testes de generalização/robustez e dissertação.

🚀 Entrega e Código Aberto

Entrega de framework híbrido (batch/API) com documentação e repositório público para reprodutibilidade.

REFERÊNCIAS BIBLIOGRÁFICAS DO PROJETO

ARAUJO, F. H. A. (2022). ANÁLISE DOS PREÇOS DAS COMMODITIES AGRÍCOLAS USANDO MÉTODOS DE TEORIA DA INFORMAÇÃO. Universidade Federal Rural de Pernambuco.

BANDT, C.; POMPE, B. (2002). Permutation entropy: a natural complexity measure for time series. Physical Review Letters, v. 88, n. 17, p. 174102.

CELEB-DF. (2020). Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

DOLHANSKY, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. arXiv preprint arXiv:2006.07397.

FRANÇA, C. C. (2021). Detectando Deepfakes em vídeos: Uma abordagem utilizando redes neurais convolucionais residuais. Universidade de Brasília.

HEIDARI, A. et al. Deepfake detection using deep learning methods: A systematic and comprehensive review. WIREs Data Mining and Knowledge Discovery, v. 14, n. 2, p. e1520, 2024.

JAYNES, E. T. (1957). Information theory and statistical mechanics. Physical Review, v. 106, n. 4, p. 620-630.

MARTINS, A. F. (2018). Complexidade e entropia. Maringá, Brasil.

NASCIMENTO JUNIOR, G. L. (2023). Entropia de Permutação Espacial Multivariada e sua aplicação para Análise da Complexidade de Sistemas Caóticos.

PASSOS, J. H. Y. (2018). Medidas de Complexidade com Entropia de Permutação para Análise de Séries Temporais. Universidade Estadual de Maringá.

RIBEIRO, H. V., ZUNINO, L., LENZI, E. K., SANTORO, P. A., & MENDES, R. S. Complexity-Entropy Causality Plane as a Complexity Measure for Two-Dimensional Patterns. Journal of Statistical Mechanics: Theory and Experiment.

RODRIGUES, R., VASCONCELOS, G., SILVA, L., & AQUINO, A. L. L. Uma Abordagem a DeepFake via Algoritmos de Aprendizagem Profunda.

RÖSSLER, A. et al. (2019). FaceForensics++: Learning to Detect Manipulated Facial Images. In: Proceedings of the IEEE/CVF International Conference on Computer Vision.

SHANNON, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, v. 27, n. 3, p. 379-423.

SOELLA, G. M., & MAIMONE, G. D. (2022). Mapeamento da detecção de deepfakes: um trabalho terminológico. Brazilian Journal of Information Studies: Research Trends, 16, e02153.

SOUZA, V., SILVA, L., & ARAÚJO, L. Análise Comparativa de Redes Neurais Convolucionais no Reconhecimento de Cenas.

VASCONCELLOS, A. R., RODRIGUES, C. G., & LUZZI, R. (2015). Complexidade, auto-organização e informação em sistemas dinâmicos. Revista Brasileira de Ensino de Física, 37(2), 2314.

VASWANI, A. et al. (2017). Attention is all you need. In: Advances in Neural Information Processing Systems.

ZHANG, K. et al. (2016). Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, v. 23, n. 10, p. 1499-1503.

Universidade Federal de Alagoas