Modelos de Inteligência Artificial

Seleção de Modelos

O desenvolvimento do sistema proposto envolveu a experimentação de diferentes modelos de aprendizado de máquina, com o objetivo de identificar quais técnicas apresentam melhor desempenho na detecção de anomalias financeiras no contexto do Cartão PDAF.

Foram testados modelos supervisionados, não supervisionados e híbridos, a fim de comparar sua capacidade de generalização, precisão e interpretabilidade.

Os algoritmos utilizados estão listados a seguir.

Random Forest (RF)

O Random Forest é um método de aprendizado supervisionado baseado em conjuntos de árvores de decisão.
Ele gera múltiplas árvores a partir de subconjuntos de dados e variáveis, combinando os resultados por votação.

Vantagens:

Alta precisão em conjuntos heterogêneos.
Capacidade de lidar com variáveis numéricas e categóricas.
Identificação da importância de cada atributo.

Aplicação no PDAF:
Foi utilizado para classificar registros suspeitos de irregularidade, a partir de variáveis como valores de ordens de serviço, tipo de fornecedor e frequência de solicitações.

Isolation Forest (IF)

O Isolation Forest é um algoritmo não supervisionado voltado à detecção de outliers.
Ele baseia-se na ideia de que anomalias são mais fáceis de isolar em árvores de partição aleatória do que pontos normais.

Vantagens:

Alta eficiência em grandes volumes de dados.
Dispensa rótulos de treinamento.
Baixa complexidade computacional.

Aplicação no PDAF:
Usado para detectar comportamentos atípicos em valores de despesa e na sequência temporal de solicitações.

XGBoost

O Extreme Gradient Boosting (XGBoost) é um modelo supervisionado baseado em boosting de árvores de decisão, otimizado para velocidade e desempenho.

Vantagens:

Redução de overfitting.
Ótima performance em datasets com variáveis correlacionadas.
Métricas nativas para classificação e regressão.

Aplicação no PDAF:
Empregado para analisar padrões complexos de combinações entre valor total, fornecedor e tipo de item.

CatBoost

O CatBoost é um algoritmo supervisionado de boosting por gradiente, com suporte nativo a variáveis categóricas sem necessidade de codificação manual.

Vantagens:

Suporte direto a categorical features.
Maior estabilidade em bases pequenas ou desbalanceadas.
Excelente interpretabilidade via SHAP Values.

Aplicação no PDAF:
Usado para modelar relações não lineares entre variáveis administrativas e financeiras, mantendo interpretabilidade.

LASSO Regression

A LASSO (Least Absolute Shrinkage and Selection Operator) é uma regressão linear regularizada que realiza seleção automática de variáveis ao penalizar coeficientes irrelevantes.

Vantagens:

Simplicidade e fácil interpretação.
Indica atributos mais relevantes.
Evita sobreajuste (overfitting).

Aplicação no PDAF:
Empregada para verificar correlações diretas entre variáveis monetárias e ocorrência de inconsistências contábeis.

Transformers

Os Transformers, originários do aprendizado profundo (Deep Learning), utilizam mecanismos de atenção que permitem identificar padrões complexos em séries temporais e textos.

Vantagens:

Excelente desempenho em dados sequenciais.
Capacidade de aprendizado contextual.
Aplicável a detecção de padrões em séries temporais de despesas.

Aplicação no PDAF:
Utilizados para modelar padrões temporais de repasses e solicitações, detectando anomalias em cronogramas de execução financeira.

Métricas de Avaliação

Os modelos foram avaliados de acordo com métricas clássicas de desempenho em detecção de anomalias:

Métrica	Descrição
Acurácia (Accuracy)	Proporção de previsões corretas sobre o total.
Precisão (Precision)	Percentual de registros classificados como anômalos que realmente o são.
Revocação (Recall)	Proporção de anomalias corretamente identificadas.
F1-Score	Média harmônica entre precisão e revocação.
AUC-ROC	Capacidade do modelo em distinguir entre classes positivas e negativas.

Além disso, para os modelos não supervisionados (como Isolation Forest), foi usada a métrica de anomaly score, que quantifica o grau de isolamento de cada ponto.

Critérios de Seleção

A comparação entre modelos considerou:

Desempenho estatístico, segundo as métricas anteriores;
Tempo de processamento e escalabilidade;
Facilidade de interpretação para fins de auditoria pública;
Capacidade de generalização em dados de diferentes períodos.

A partir dessas análises, foram definidos os modelos finais a serem utilizados na prova de conceito (PoC), incluindo uma abordagem híbrida combinando Random Forest e Isolation Forest.

Considerações Finais

Os experimentos evidenciaram que a combinação de técnicas supervisionadas e não supervisionadas é a mais adequada ao cenário do PDAF, pois permite detectar tanto padrões conhecidos de irregularidade quanto comportamentos emergentes.

Nas próximas seções, são apresentados os resultados obtidos com dados públicos e simulados, seguidos da comparação de desempenho entre modelos e da proposta do modelo híbrido final.

Seleção de Modelos​

Random Forest (RF)​

Isolation Forest (IF)​

XGBoost​

CatBoost​

LASSO Regression​

Transformers​

Métricas de Avaliação​

Critérios de Seleção​

Considerações Finais​

Seleção de Modelos

Random Forest (RF)

Isolation Forest (IF)

XGBoost

CatBoost

LASSO Regression

Transformers

Métricas de Avaliação

Critérios de Seleção

Considerações Finais