Metodologia – População e Amostra

Contextualização

O presente estudo foi conduzido com base em dados públicos e institucionais relacionados ao Programa de Descentralização Administrativa e Financeira (PDAF) da Secretaria de Educação do Distrito Federal (SEEDF).
O objetivo central da metodologia é estruturar uma base de dados confiável que permita testar e validar modelos de Inteligência Artificial aplicados à detecção de anomalias financeiras e operacionais.

A definição da população e da amostra considerou os seguintes critérios:

População-alvo: todas as unidades executoras do PDAF, incluindo escolas públicas e Coordenações Regionais de Ensino (CREs).
Período de referência: dados de 2024 e 2025, abrangendo ordens de serviço, solicitações e processos de pagamento.
Fonte de dados: portais públicos, relatórios da SEEDF, informações do Sistema Eletrônico de Informações (SEI) e documentos disponibilizados em dados.gov.br.

Estrutura dos Dados Reais

O dataset real (a ser integrado futuramente ao sistema proposto) segue o paradigma ELT – Extract, Load, Transform, sendo obtido diretamente do banco de dados institucional do PDAF, sob responsabilidade da Diretoria de Informações Educacionais (DINFE/SEEDF).

A Tabela 1 ilustra os principais campos do dataset interno:

Coluna	Tipo	Descrição
cd_solicitacao	int8	Código da solicitação
unidade_executora	varchar	Unidade executora (escola/CRE)
ds_tipo_solicitacao	text	Descrição do tipo de solicitação
ds_solicitacao	varchar	Descrição detalhada
dt_solicitacao	timestamp	Data da solicitação
dt_acao_fornecedor	timestamp	Data da ação do fornecedor
st_acao_fornecedor	text	Status da ação do fornecedor
ds_recusa	varchar	Motivo de recusa (se houver)
fornecedor	varchar	Nome do fornecedor
dbt_updated_at	timestamptz	Data da última atualização

Esses campos permitem acompanhar o ciclo completo de execução dos recursos, desde a solicitação até o fechamento do processo de compra.

Estrutura dos Dados Públicos

Dada a restrição de acesso aos dados internos, foi construído um dataset público de referência, derivado de informações abertas sobre o PDAF.
A Tabela 2 exemplifica a estrutura utilizada para análises experimentais:

Coluna	Tipo	Descrição
cd_os	int8	Código da ordem de serviço
cd_solicitacao	int8	Código da solicitação associada
unidade_executora	varchar	Escola ou CRE responsável
cd_usuario	varchar	Identificação do usuário
ds_solicitacao	varchar	Descrição do serviço
nome_item	varchar	Item contratado
quantidade	numeric(38,9)	Quantidade solicitada
preco_unitario	numeric(38,9)	Valor unitário
preco_total	numeric(38,9)	Valor total
situacao_os	text	Situação da ordem de serviço
fornecedor	varchar	Fornecedor
vl_total_os	numeric(38,9)	Valor total da OS
justificativa	varchar	Justificativa da compra

Esses dados, obtidos por meio de scraping e cruzamento de fontes abertas, foram tratados para garantir consistência e anonimização, mantendo apenas atributos relevantes à análise de anomalias.

Pré-Processamento dos Dados

As etapas de pré-processamento aplicadas incluíram:

Limpeza de dados faltantes e remoção de registros inconsistentes.
Normalização e padronização dos valores monetários.
Conversão de datas e codificação categórica para variáveis numéricas.
Verificação de duplicidades entre ordens e solicitações.
Anonimização de informações sensíveis, preservando o valor estatístico dos dados.

O resultado dessas etapas foi uma base consolidada, pronta para uso em modelos de aprendizado supervisionado e não supervisionado.

Considerações

A metodologia de coleta e tratamento dos dados garante reprodutibilidade e integridade, fundamentais para a validação dos modelos de IA.
As próximas seções detalham as estratégias de modelagem, seleção de algoritmos e avaliação de desempenho aplicadas ao problema.

Contextualização​

Estrutura dos Dados Reais​

Estrutura dos Dados Públicos​

Pré-Processamento dos Dados​

Considerações​

Contextualização

Estrutura dos Dados Reais

Estrutura dos Dados Públicos

Pré-Processamento dos Dados

Considerações