Brasão da Universidade Federal de Alagoas

Universidade Federal de Alagoas

Instituto de Computação

Programa de Pós-Graduação em Informática

Curso: Mestrado em Informática

EDITAL 02/2024-PPGI/CPG-PROPEP/UFAL

PRÉ-PROJETO

TÍTULO: DETECÇÃO AVANÇADA DE MÍDIAS SINTÉTICAS EM VÍDEOS MEDIANTE ANÁLISE DE COMPLEXIDADE-ENTROPIA

LINHA DE PESQUISA: COMPUTAÇÃO VISUAL E INTELIGENTE

TEMA DE PESQUISA: VISÃO COMPUTACIONAL: ANÁLISE, CARACTERIZAÇÃO E CLASSIFICAÇÃO DE PADRÕES DINÂMICOS E ESTRUTURAIS EM MÍDIAS SINTÉTICAS

ESTUDANTE: FÁBIO LINHARES*

ORIENTADORA: PROF.ª Dr.ª FABIANE DA SILVA QUEIROZ

* Advogado; Graduado em Banco de Dados, Big Data e BI; Especialista em IA e Machine Learning.

INTRODUÇÃO

A proliferação de mídias sintéticas, popularmente conhecidas como deepfakes, representa um desafio crescente para a segurança da informação e a confiança no ecossistema digital. A rápida evolução dos modelos generativos, como Redes Adversariais Generativas (GANs) e Modelos de Difusão, torna os métodos de detecção baseados em artefatos específicos rapidamente obsoletos. A comunidade de pesquisa enfrenta a necessidade premente de desenvolver detectores que não apenas apresentem alta acurácia, mas que também generalizem para métodos de manipulação desconhecidos e não vistos durante o treinamento.

A literatura atual é dominada por abordagens de aprendizado profundo, como Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs), que, apesar de seu desempenho notável, frequentemente operam como "caixas-pretas". Esses modelos podem aprender correlações espúrias nos dados de treinamento, o que limita sua robustez em cenários do mundo real. Existe uma lacuna significativa na literatura no que tange a métodos de detecção fundamentados em princípios teóricos que explorem a natureza intrínseca do conteúdo gerado por IA.

🎯 Mudança de Paradigma Proposta

Este projeto de pesquisa propõe uma mudança de paradigma. Em vez de tratar imagens geradas por IA como imagens autênticas com defeitos, hipotetizamos que elas são o produto de um sistema dinâmico complexo e determinístico. Argumentamos que tais sistemas imprimem uma "textura estatística" única e mensurável, caracterizada por uma assinatura específica no espaço de complexidade-entropia, análoga à de sistemas caóticos.

Propomos o Plano Causalidade Entropia-Complexidade (Plano CH) como a ferramenta principal para capturar essa assinatura fundamental, visando criar um detector que seja, por construção, mais generalizável e interpretável. Esta abordagem combina a robustez teórica da Teoria da Informação com a capacidade de representação dos modelos de aprendizado profundo, oferecendo uma solução híbrida e inovadora para o problema da detecção de mídias sintéticas.

JUSTIFICATIVA

A era da informação digital é marcada por um fluxo massivo de conteúdo cuja veracidade é frequentemente questionada. Imagens e vídeos não naturais — ou seja, gerados parcial ou totalmente por algoritmos de inteligência artificial, contendo um ou mais rostos humanos trocados ou não — constituem um novo tipo de artefato comunicacional: o que chamaremos produtos de IA. "A popularização de algoritmos generativos, como as Redes Adversariais Generativas (GANs) e os modelos de difusão, tem permitido a criação de conteúdo sintético visualmente consistente, muitas vezes indistinguível, a olho nu, de conteúdo natural e autêntico." Isso levanta sérias preocupações sobre desinformação, manipulação de opinião pública e danos à imagem pessoal e coletiva.

Pesquisas voltadas à detecção desses produtos sintéticos concentradas, em grande parte, em abordagens baseadas em Deep Learning (DL), como Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) têm demonstrado resultados promissores. No entanto, muitos desses métodos se concentram na análise de artefatos espaciais e na detecção de anomalias em quadros individuais. A natureza temporal dos vídeos, onde a evolução dos padrões e correlações ao longo do tempo é crucial, nos parece menos explorada. Produtos de IA em vídeo frequentemente carregam traços dinâmicos atípicos, exibem inconsistências temporais sutis, como falhas em padrões de piscar, movimentos de cabeça não naturais, ou transições abruptas entre expressões faciais, que podem não ser evidentes em um único quadro, mas se tornam detectáveis ao analisar a série temporal de características extraídas.

É neste ponto que as ferramentas da Teoria da Informação e da Análise de Sistemas Dinâmicos Complexos se mostram particularmente adequadas. A entropia de Shannon quantifica a incerteza de um sistema, enquanto a complexidade estatística mede o grau de estrutura e padrões, complementando a entropia. O Plano Complexidade-Entropia (CECP), e sua extensão Multivariada (MvCECP), provaram ser eficazes na distinção de sistemas com dinâmicas variadas — periódicas, caóticas e estocásticas — ao mapear as características de suas séries temporais em um espaço bidimensional. A entropia de permutação (Bandt e Pompe) é uma medida robusta e computacionalmente eficiente para extrair padrões ordinais de séries temporais. O parâmetro embedding delay (τ), por sua vez, permite investigar as séries temporais em diferentes escalas de tempo, revelando dinâmicas ocultas ou anômalas.

Acreditamos que a aplicação dessas ferramentas aos produtos de IA permitirá capturar as "digitais" dinâmicas da manipulação de forma mais precisa. Por exemplo, a suavidade excessiva de certas áreas manipuladas ou a ausência de padrões ordinais esperados em movimentos faciais podem ser detectadas como desvios em medidas de complexidade-entropia. Além disso, a Teoria da Estimação Estatística, particularmente o princípio da máxima entropia de Jaynes, fornecerá a base formal para inferir as distribuições de probabilidade que melhor representam os dados, garantindo que as inferências sobre a natureza das mídias sintéticas sejam as menos preconceituosas e mais objetivas possíveis.

HIPÓTESES E QUESTÕES DE PESQUISA

A investigação será guiada por três hipóteses centrais que conectam a teoria de sistemas complexos, a estimação estatística e o aprendizado de máquina:

H1 (Hipótese de Separação):

Imagens geradas por diferentes modelos de IA (e.g., GANs, Modelos de Difusão) e imagens autênticas ocuparão regiões estatisticamente separáveis no Plano Causalidade Entropia-Complexidade. Especificamente, a hipótese postula que as imagens de IA se agruparão em uma região de maior complexidade para um dado nível de entropia, em comparação com as imagens reais, refletindo a estrutura determinística subjacente de seus processos geradores.

H2 (Hipótese de Eficiência Informacional):

O vetor de features bidimensional FCH=[H,C], derivado do Plano CH, constitui um estimador estatisticamente mais eficiente (no sentido de Fisher) da classe da imagem (real vs. falsa) do que features baseadas em artefatos, como as derivadas da Análise de Nível de Erro (ELA).

H3 (Hipótese de Sinergia Híbrida):

Um modelo de classificação que funde as features interpretáveis e estatisticamente fundamentadas do Plano CH (FCH) com as features de representação global aprendidas por um Vision Transformer (FViT) exibirá um desempenho superior em acurácia e, crucialmente, em generalização para datasets e métodos de manipulação não vistos, em comparação com modelos que utilizam qualquer um dos conjuntos de features isoladamente.

OBJETIVOS

Objetivo Geral:

Desenvolver e validar um framework híbrido e generalizável para a detecção de vídeos deepfake, fundamentado na sinergia entre a análise de complexidade estatística e a extração de features de aprendizado profundo.

Objetivos Específicos:

  1. Pipeline de Extração: Implementar um pipeline robusto para a extração das coordenadas (H,C) do Plano CH a partir de frames de vídeo, incluindo uma análise de sensibilidade aos parâmetros de embedding dx e dy.
  2. Mapeamento de Assinaturas: Mapear e caracterizar as "assinaturas de complexidade" de vídeos reais e falsos de múltiplos datasets (e.g., FaceForensics++, Celeb-DF) no Plano CH, validando empiricamente a Hipótese de Separação (H1).
  3. Análise de Robustez: Avaliar a robustez das features (H,C) a perturbações comuns do mundo real, como compressão de vídeo, adição de ruído e variações de iluminação.
  4. Modelo Híbrido: Construir, treinar e validar um modelo híbrido que combine FCH e FViT, e testar rigorosamente sua capacidade de generalização contra um modelo baseline que utiliza apenas FViT, a fim de validar a Hipótese de Sinergia Híbrida (H3).
  5. Interpretabilidade: Oferecer explicações e insights sobre os mecanismos de detecção, interpretando como as medidas capturam as anomalias.

METODOLOGIA PROPOSTA

A metodologia é projetada para ser sistemática e rigorosa, combinando a implementação de técnicas de análise de sinais com protocolos de avaliação de aprendizado de máquina.

4.1 Pipeline de Extração de Features Estatísticas (FCH)

Este pipeline será responsável por transformar cada frame de vídeo em um ponto no Plano CH.

• Implementação:

A metodologia seguirá a abordagem descrita em Ribeiro et al. Cada frame será convertido para escala de cinza. A imagem será então varrida por uma janela deslizante (template) de tamanho dx×dy. Para cada template, um padrão ordinal será determinado e sua frequência será contada. A partir da distribuição de probabilidade de todos os padrões ordinais, a Entropia de Permutação Normalizada (H) e a Complexidade Estatística (C) serão calculadas.

• Seleção de Parâmetros:

A escolha das dimensões de embedding dx e dy é um passo crítico. Valores pequenos (e.g., 2×2, 3×2) serão investigados, sempre respeitando a condição (dx⋅dy)!≪W⋅H (onde W e H são as dimensões do frame) para garantir estatísticas confiáveis. Uma análise de sensibilidade será realizada no conjunto de validação para determinar os valores ótimos que maximizam a separabilidade entre as classes. A implementação será guiada por pacotes de código aberto existentes, como ordpy e EntropyHub.

• Saída:

Para cada frame, um par de valores [H,C] será gerado, constituindo o vetor de features FCH. Este vetor é de baixa dimensão, computacionalmente eficiente e altamente interpretável.

4.2 Pipeline de Extração de Features de Deep Learning (FViT)

Este pipeline extrairá features complementares que capturam o contexto global da imagem.

• Arquitetura:

Será utilizado um Vision Transformer (ViT) pré-treinado, como o ViT-Base/16. A escolha do ViT em detrimento de uma CNN tradicional é deliberada. Enquanto a PE2D foca em padrões ordinais estritamente locais, os ViTs processam a imagem como uma sequência de patches e utilizam mecanismos de auto-atenção para modelar dependências de longo alcance e contexto global. Esta diferença fundamental torna as duas abordagens conceitualmente complementares.

• Extração:

O ViT será empregado como um extrator de features "congelado" (frozen backbone). Um frame de entrada será passado pela rede, e o vetor de embedding associado ao token especial [CLS] da última camada será extraído para formar o vetor de features FViT. Esta abordagem preserva o vasto conhecimento semântico do modelo pré-treinado em milhões de imagens, ao mesmo tempo que reduz drasticamente o risco de overfitting aos artefatos do dataset de deepfake.

4.3 Fusão de Features e Classificação

O núcleo do modelo proposto reside na combinação sinérgica dos dois tipos de features.

• Método de Fusão:

A abordagem mais direta e robusta será a concatenação simples dos dois vetores de features para formar um vetor híbrido: Fhybrid = [FCH, FViT]. Esta fusão combina a informação de complexidade local e interpretável com a informação de contexto global e semântica.

• Classificador:

O vetor Fhybrid alimentará um classificador baseado em Gradient Boosting, como o XGBoost ou LightGBM. Esta escolha é justificada pela alta performance e eficiência computacional desses algoritmos em dados tabulares heterogêneos, que misturam features de diferentes naturezas e escalas.

• Modelo Baseline:

Para validar rigorosamente a Hipótese de Sinergia (H3), um modelo baseline será treinado sob condições idênticas, mas utilizando apenas o vetor de features FViT como entrada para o mesmo classificador XGBoost. A comparação direta do desempenho dos dois modelos permitirá isolar e quantificar o benefício da adição das features de complexidade-entropia.

4.4 Protocolo Experimental e Avaliação

A validação da proposta será realizada através de um protocolo experimental rigoroso.

• Datasets:

Treinamento e Validação: O dataset FaceForensics++ (FF++) será utilizado para treinar e validar os modelos. Ele é ideal para este fim por conter vídeos originais e suas versões manipuladas por quatro métodos distintos (Deepfakes, Face2Face, FaceSwap, NeuralTextures), além de diferentes níveis de compressão de vídeo.

Teste de Generalização (Zero-Shot): O modelo treinado exclusivamente no FF++ será avaliado no dataset Celeb-DF (v2) sem qualquer re-treinamento ou ajuste fino. O Celeb-DF é notoriamente mais desafiador, com artefatos de manipulação muito mais sutis.

• Métricas de Avaliação:

Métricas Primárias: A avaliação principal será baseada na Área Sob a Curva ROC (AUC-ROC) e na Taxa de Erro Igual (EER), calculadas a nível de vídeo.

Métricas Secundárias: Acurácia, Precisão, Recall e F1-Score serão calculadas a nível de frame para uma análise mais granular do desempenho.

Análise de Robustez: Para avaliar a estabilidade do método em condições não ideais, o conjunto de teste do Celeb-DF será submetido a degradações controladas, incluindo diferentes níveis de compressão JPEG e a adição de ruído Gaussiano.

Tabela Comparativa das Features

Característica Features do Plano CH (FCH) Features do Vision Transformer (FViT)
Tipo de Informação Estatística, Estrutural, Local Semântica, Contextual, Global
Domínio de Análise Padrões ordinais de intensidade de pixel Relações espaciais entre patches de imagem
Invariância Alta a transformações monotônicas de iluminação e contraste Aprendida a partir dos dados (e.g., a variações de pose, identidade)
Interpretabilidade Alta (posição no plano H-C tem significado físico) Baixa (vetor de embedding em espaço latente de alta dimensão)
Fundamentação Teoria da Informação, Sistemas Dinâmicos Aprendizado de Representação (Empírico)
Contribuição Esperada Detecção de anomalias texturais sutis e generalizáveis Captura de inconsistências semânticas e artefatos de alto nível

CRONOGRAMA

O projeto está planejado para ser executado ao longo de 24 meses, dividido em quatro fases principais:

📚 Fase 1 (Meses 1-6)

Fundamentação Teórica e Implementação Base

  • • Revisão aprofundada da literatura
  • • Configuração do ambiente computacional
  • • Implementação dos pipelines de extração de features FCH e FViT
  • • Familiarização com as bases de dados

🔬 Fase 2 (Meses 7-12)

Experimentação e Caracterização

  • • Execução da extração de features nos datasets FF++ e Celeb-DF
  • • Análise de sensibilidade dos parâmetros da PE2D
  • • Caracterização das assinaturas de complexidade
  • • Validação da Hipótese de Separação (H1)

🤖 Fase 3 (Meses 13-18)

Desenvolvimento e Treinamento

  • • Desenvolvimento do modelo de classificação híbrido
  • • Implementação do modelo baseline
  • • Treinamento e otimização dos modelos
  • • Integração com modelos de Aprendizado Profundo

📊 Fase 4 (Meses 19-24)

Validação e Documentação

  • • Execução do protocolo de validação final
  • • Testes de generalização e robustez
  • • Análise dos resultados e validação das hipóteses
  • • Redação da dissertação e preparação de artigos

📋 Cronograma Detalhado Complementar:

  • Mês 1-2: Revisão aprofundada da literatura e familiarização com as bases de dados
  • Mês 3-4: Implementação da pipeline de pré-processamento e extração de séries temporais
  • Mês 5-6: Desenvolvimento dos algoritmos de cálculo de entropia e complexidade
  • Mês 7-8: Análise exploratória no MvCECP e otimização dos parâmetros
  • Mês 9-10: Integração com modelos de Aprendizado Profundo, treinamento e ajuste
  • Mês 11-12: Avaliação rigorosa dos modelos e comparação com baselines
  • Mês 13-15: Redação da dissertação, consolidação dos resultados e preparação para defesa

REFERÊNCIAS BIBLIOGRÁFICAS

ARAUJO, F. H. A. (2022). ANÁLISE DOS PREÇOS DAS COMMODITIES AGRÍCOLAS USANDO MÉTODOS DE TEORIA DA INFORMAÇÃO. Universidade Federal Rural de Pernambuco.

BANDT, C.; POMPE, B. (2002). Permutation entropy: a natural complexity measure for time series. Physical Review Letters, v. 88, n. 17, p. 174102.

CELEB-DF. (2020). Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

DOLHANSKY, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. arXiv preprint arXiv:2006.07397.

FRANÇA, C. C. (2021). Detectando Deepfakes em vídeos: Uma abordagem utilizando redes neurais convolucionais residuais. Universidade de Brasília.

HEIDARI, A. et al. Deepfake detection using deep learning methods: A systematic and comprehensive review. WIREs Data Mining and Knowledge Discovery, v. 14, n. 2, p. e1520, 2024.

JAYNES, E. T. (1957). Information theory and statistical mechanics. Physical Review, v. 106, n. 4, p. 620-630.

MARTINS, A. F. (2018). Complexidade e entropia. Maringá, Brasil.

NASCIMENTO JUNIOR, G. L. (2023). Entropia de Permutação Espacial Multivariada e sua aplicação para Análise da Complexidade de Sistemas Caóticos.

PASSOS, J. H. Y. (2018). Medidas de Complexidade com Entropia de Permutação para Análise de Séries Temporais. Universidade Estadual de Maringá.

RIBEIRO, H. V., ZUNINO, L., LENZI, E. K., SANTORO, P. A., & MENDES, R. S. Complexity-Entropy Causality Plane as a Complexity Measure for Two-Dimensional Patterns. Journal of Statistical Mechanics: Theory and Experiment.

RODRIGUES, R., VASCONCELOS, G., SILVA, L., & AQUINO, A. L. L. Uma Abordagem a DeepFake via Algoritmos de Aprendizagem Profunda.

RÖSSLER, A. et al. (2019). FaceForensics++: Learning to Detect Manipulated Facial Images. In: Proceedings of the IEEE/CVF International Conference on Computer Vision.

SHANNON, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, v. 27, n. 3, p. 379-423.

SOELLA, G. M., & MAIMONE, G. D. (2022). Mapeamento da detecção de deepfakes: um trabalho terminológico. Brazilian Journal of Information Studies: Research Trends, 16, e02153.

SOUZA, V., SILVA, L., & ARAÚJO, L. Análise Comparativa de Redes Neurais Convolucionais no Reconhecimento de Cenas.

VASCONCELLOS, A. R., RODRIGUES, C. G., & LUZZI, R. (2015). Complexidade, auto-organização e informação em sistemas dinâmicos. Revista Brasileira de Ensino de Física, 37(2), 2314.

VASWANI, A. et al. (2017). Attention is all you need. In: Advances in Neural Information Processing Systems.

ZHANG, K. et al. (2016). Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Processing Letters, v. 23, n. 10, p. 1499-1503.