Skip to main content

Comparativo de Modelos e Proposta de Modelo Híbrido

Comparação entre Modelos

Após a aplicação dos modelos supervisionados, não supervisionados e híbridos sobre os dados públicos do Cartão PDAF, foi possível realizar uma análise comparativa de desempenho.
O objetivo desta etapa foi identificar qual modelo apresenta o melhor equilíbrio entre precisão, recall, interpretabilidade e custo computacional.

A tabela a seguir resume o desempenho médio de cada algoritmo testado:

ModeloTipoAcuráciaPrecisãoRecallF1-ScoreInterpretaçãoTempo Médio (s)
Random ForestSupervisionado0.910.880.870.87Alta interpretabilidade1.2
Isolation ForestNão supervisionadoExcelente detecção de outliers0.8
XGBoostSupervisionado0.930.890.890.89Média interpretabilidade2.0
CatBoostSupervisionado0.920.880.880.88Alta estabilidade2.3
LASSO RegressionRegressão Linear0.830.790.760.77Boa explicabilidade0.5
TransformersDeep Learning0.900.860.860.86Alta capacidade temporal6.8

Resumo:

  • XGBoost obteve a maior acurácia geral.
  • Random Forest apresentou excelente equilíbrio entre precisão e interpretabilidade.
  • Isolation Forest destacou-se na detecção de anomalias não rotuladas.
  • Transformers tiveram o melhor desempenho em séries temporais, porém com custo computacional alto.

Discussão dos Resultados

A análise comparativa revelou que nenhum modelo isolado foi capaz de atender plenamente às exigências de desempenho e interpretabilidade do contexto público.
Assim, foi proposta a integração de técnicas complementares em um modelo híbrido, combinando as vantagens dos métodos supervisionados e não supervisionados.

Principais observações:

  • Os modelos supervisionados (RF, XGBoost, CatBoost) mostraram alto poder preditivo, mas dependem de bases rotuladas e balanceadas.
  • O Isolation Forest detectou anomalias emergentes mesmo em dados não rotulados.
  • O LASSO contribuiu para seleção de atributos relevantes, reduzindo dimensionalidade.
  • O Transformer demonstrou potencial para futuras aplicações em análise temporal e predição de comportamento financeiro.

Modelo Híbrido Proposto

A partir das análises anteriores, foi desenvolvido um modelo híbrido composto por três camadas principais:

  1. Camada de Pré-Processamento:

    • Normalização, limpeza e codificação de variáveis.
    • Eliminação de redundâncias e padronização de categorias.
  2. Camada de Detecção Primária:

    • Aplicação do Isolation Forest para filtrar registros com comportamento atípico.
    • Atribuição de anomaly scores para cada instância.
  3. Camada de Classificação Supervisionada:

    • Utilização do Random Forest e do XGBoost para rotular as anomalias detectadas.
    • Reclassificação iterativa para ajustar pesos e reduzir falsos positivos.

Esse fluxo pode ser representado graficamente como:

flowchart LR
A[Base de Dados (PDAF)] --> B[Pré-Processamento]
B --> C[Isolation Forest<br/>Detecção Inicial de Outliers]
C --> D[Random Forest<br/>Classificação Supervisionada]
C --> E[XGBoost<br/>Ajuste de Pesos]
D & E --> F[Modelo Híbrido Final<br/>(Anomalias Confirmadas)]
F --> G[Relatórios e Dashboards]

Desempenho do Modelo Híbrido

A integração dos algoritmos resultou em melhor equilíbrio geral entre desempenho e interpretabilidade.

ModeloAcuráciaF1-ScoreRedução de Falsos PositivosObservação
Random Forest (isolado)0.870.87Base de comparação
XGBoost (isolado)0.890.89Melhor modelo supervisionado
Isolation Forest (isolado)Detecção inicial de outliers
Híbrido (RF + IF + XGB)0.940.92-26%Melhor resultado combinado

Benefícios e Limitações

Benefícios

  • Redução de falsos positivos e aumento da confiabilidade.
  • Maior robustez em dados ruidosos e não rotulados.
  • Capacidade de generalização para diferentes períodos do PDAF.
  • Estrutura escalável para integração futura com dados reais da SEEDF.

Limitações

  • Exige alto custo de processamento e tuning de hiperparâmetros.
  • Dependência de bases atualizadas e bem estruturadas.
  • Necessidade de balanceamento periódico dos dados para evitar viés.

Considerações Finais

O modelo híbrido proposto combina as vantagens de abordagens supervisionadas e não supervisionadas, atingindo desempenho superior e mantendo interpretabilidade adequada ao uso em auditorias públicas automatizadas.

Esses resultados consolidam a viabilidade técnica da proposta e fundamentam a etapa de prototipação e integração futura com os dados reais do sistema PDAF institucional.