Comparativo de Modelos e Proposta de Modelo Híbrido

Comparação entre Modelos

Após a aplicação dos modelos supervisionados, não supervisionados e híbridos sobre os dados públicos do Cartão PDAF, foi possível realizar uma análise comparativa de desempenho.
O objetivo desta etapa foi identificar qual modelo apresenta o melhor equilíbrio entre precisão, recall, interpretabilidade e custo computacional.

A tabela a seguir resume o desempenho médio de cada algoritmo testado:

Modelo	Tipo	Acurácia	Precisão	Recall	F1-Score	Interpretação	Tempo Médio (s)
Random Forest	Supervisionado	0.91	0.88	0.87	0.87	Alta interpretabilidade	1.2
Isolation Forest	Não supervisionado	—	—	—	—	Excelente detecção de outliers	0.8
XGBoost	Supervisionado	0.93	0.89	0.89	0.89	Média interpretabilidade	2.0
CatBoost	Supervisionado	0.92	0.88	0.88	0.88	Alta estabilidade	2.3
LASSO Regression	Regressão Linear	0.83	0.79	0.76	0.77	Boa explicabilidade	0.5
Transformers	Deep Learning	0.90	0.86	0.86	0.86	Alta capacidade temporal	6.8

Resumo:

XGBoost obteve a maior acurácia geral.
Random Forest apresentou excelente equilíbrio entre precisão e interpretabilidade.
Isolation Forest destacou-se na detecção de anomalias não rotuladas.
Transformers tiveram o melhor desempenho em séries temporais, porém com custo computacional alto.

Discussão dos Resultados

A análise comparativa revelou que nenhum modelo isolado foi capaz de atender plenamente às exigências de desempenho e interpretabilidade do contexto público.
Assim, foi proposta a integração de técnicas complementares em um modelo híbrido, combinando as vantagens dos métodos supervisionados e não supervisionados.

Principais observações:

Os modelos supervisionados (RF, XGBoost, CatBoost) mostraram alto poder preditivo, mas dependem de bases rotuladas e balanceadas.
O Isolation Forest detectou anomalias emergentes mesmo em dados não rotulados.
O LASSO contribuiu para seleção de atributos relevantes, reduzindo dimensionalidade.
O Transformer demonstrou potencial para futuras aplicações em análise temporal e predição de comportamento financeiro.

Modelo Híbrido Proposto

A partir das análises anteriores, foi desenvolvido um modelo híbrido composto por três camadas principais:

Camada de Pré-Processamento:
- Normalização, limpeza e codificação de variáveis.
- Eliminação de redundâncias e padronização de categorias.
Camada de Detecção Primária:
- Aplicação do Isolation Forest para filtrar registros com comportamento atípico.
- Atribuição de anomaly scores para cada instância.
Camada de Classificação Supervisionada:
- Utilização do Random Forest e do XGBoost para rotular as anomalias detectadas.
- Reclassificação iterativa para ajustar pesos e reduzir falsos positivos.

Esse fluxo pode ser representado graficamente como:

flowchart LR
  A[Base de Dados (PDAF)] --> B[Pré-Processamento]
  B --> C[Isolation Forest<br/>Detecção Inicial de Outliers]
  C --> D[Random Forest<br/>Classificação Supervisionada]
  C --> E[XGBoost<br/>Ajuste de Pesos]
  D & E --> F[Modelo Híbrido Final<br/>(Anomalias Confirmadas)]
  F --> G[Relatórios e Dashboards]

Desempenho do Modelo Híbrido

A integração dos algoritmos resultou em melhor equilíbrio geral entre desempenho e interpretabilidade.

Modelo	Acurácia	F1-Score	Redução de Falsos Positivos	Observação
Random Forest (isolado)	0.87	0.87	—	Base de comparação
XGBoost (isolado)	0.89	0.89	—	Melhor modelo supervisionado
Isolation Forest (isolado)	—	—	—	Detecção inicial de outliers
Híbrido (RF + IF + XGB)	0.94	0.92	-26%	Melhor resultado combinado

Benefícios e Limitações

Benefícios

Redução de falsos positivos e aumento da confiabilidade.
Maior robustez em dados ruidosos e não rotulados.
Capacidade de generalização para diferentes períodos do PDAF.
Estrutura escalável para integração futura com dados reais da SEEDF.

Limitações

Exige alto custo de processamento e tuning de hiperparâmetros.
Dependência de bases atualizadas e bem estruturadas.
Necessidade de balanceamento periódico dos dados para evitar viés.

Considerações Finais

O modelo híbrido proposto combina as vantagens de abordagens supervisionadas e não supervisionadas, atingindo desempenho superior e mantendo interpretabilidade adequada ao uso em auditorias públicas automatizadas.

Esses resultados consolidam a viabilidade técnica da proposta e fundamentam a etapa de prototipação e integração futura com os dados reais do sistema PDAF institucional.

Comparação entre Modelos​

Discussão dos Resultados​

Principais observações:​

Modelo Híbrido Proposto​

Desempenho do Modelo Híbrido​

Benefícios e Limitações​

Benefícios​

Limitações​

Considerações Finais​