Ranking MCN

Nota Técnica

Essa nota metodológica analítica demonstra, de forma integrada e detalhada, como o Ranking de educação extrai, processa, integra e sintetiza os dados educacionais – tanto do ensino básico quanto do superior – para construir um indicador composto (IQM Educacional). Esse processo permite avaliar a evolução das matrículas, a dinâmica de escolas e instituições, e o impacto da educação sobre o mercado de trabalho, oferecendo uma visão abrangente e comparável do desempenho educacional dos municípios.

Introdução

O Ranking foi desenvolvido para processar e integrar dados provenientes de diferentes fontes (como bases do CAGED, RAIS, dados de acessos à banda larga, entre outros) com o objetivo de calcular indicadores de qualidade (chamados de “IQM”) para diversos setores econômicos – incluindo indústria, saúde, comércio e serviços – em municípios brasileiros acima de 100.000 habitantes.

Leitura e Preparação dos Dados

  • O pipeline de produção começa pela importação de fontes de dados distribuídas em múltiplas bases, que contêm informações referentes aos municípios, à movimentação de empregos e à remuneração dos vínculos empregatícios, além dos diversos setores que completam os pilares de avaliação do ranking.

  • São realizados procedimentos de junção entre os dados dos cadastros de municípios e as “bridges” que relacionam os códigos utilizados nas diferentes bases, garantindo a padronização dos identificadores de modo a uniformizar as informações dessas diferentes bases.

Filtragem por CNAE
(Classificação Nacional de Atividades Econômicas)

  • Para cada setor (como comércio, serviços, saúde, indústria, construção civil, imobiliário, agropecuária e educação), o Ranking filtra os registros das múltiplas bases de dados, de acordo com os códigos CNAE pré‐definidos que caracterizam a atividade específica.

  • Essa segmentação permite que os cálculos sejam realizados separadamente para cada setor, possibilitando análises setoriais.

Cálculo de Indicadores de Remuneração e Variação Anual

  1. Uma vez filtrados os dados, o Ranking calcula as estatísticas descritivas para a remuneração anual. São definidos intervalos (bins) baseados nos percentis (33° e 67°) e nos valores mínimo e máximo da remuneração.
  2. Com esses intervalos, os registros são classificados em categorias (“baixo”, “medio” e “alto”).
  3. Em seguida, é realizada a agregação dos dados por município e ano onde se calcula a quantidade de vínculos em cada categoria.
  4. São calculadas as variações absolutas (diferença entre os anos consecutivos) e as variações percentuais, utilizando funções de diferença agrupadas por município.

Integração dos Dados e Cálculo do IQM

  • Para cada setor, após o processamento individual das bases (filtragem, agrupamento e cálculo das variações), os dados são integrados por meio de junções utilizando os identificadores padronizados dos municípios.

  • O Ranking utiliza múltiplosmerges para combinar os dados de remuneração, número de estabelecimentos e, quando aplicável, dados relativos à velocidade da banda larga ou emprego qualificado.
  • Com os dados consolidados, é aplicado um modelo de pontuação (“IQM”) que, de forma simplificada, soma as variações percentuais calculadas.

  • Após o cálculo bruto do IQM para cada setor, o script realiza a normalização destes valores utilizando dois métodos:

    • Normalização Z-Score: onde o valor médio é subtraído do IQM e o resultado é dividido pelo desvio padrão.
    • Normalização Min-Max: onde os valores são ajustados para uma escala entre 0 e 1, considerando o mínimo e o máximo do IQM.

Filtragem por População e Geração dos Relatórios

  • Em diversos pontos do pipeline de produção do Ranking, é realizada uma filtragem dos municípios para considerar apenas aqueles com mais de 100 mil habitantes, visando focar a análise em centros urbanos de maior porte.

  • Para cada setor analisado (como comércio, serviços, saúde, indústria, etc.), os resultados consolidados (tanto os datasets completos quanto os resumidos por município e ano) são exportados para arquivos CSV e Excel, facilitando o acesso e a análise dos indicadores calculados.

Estrutura Geral e Modularidade

  • O Ranking segue uma estrutura modular, onde a sequência de operações (leitura, filtragem, agrupamento, cálculo de variações, normalização e exportação) é repetida para cada setor de atividade.

  • Essa abordagem permite que o mesmo método seja aplicado de forma consistente em múltiplos segmentos econômicos, possibilitando comparações e análises integradas dos indicadores de qualidade municipal na ótica de oportunidades para negócios.

Setorização com Base nos CNAEs

  • A classificação dos dados em setores é feita por meio de filtros aplicados a códigos CNAE (Classificação Nacional de Atividades Econômicas). Cada grupo de códigos CNAE representa um conjunto de atividades econômicas que, em conjunto, definem um setor específico. A seguir, o detalhamento dos CNAEs empregados para cada setor:

Construão Civil
Os códigos CNAE utilizados para esse setor abrangem atividades relacionadas à:

  • Desenvolvimento imobiliário: (por exemplo, código4110700) que se refere à promoção e desenvolvimento de empreendimentos imobiliários.
  • Construção de edificações residenciais e comerciais: (ex.: 4120400).
  • Obras de infraestrutura: como construção de rodovias, ferrovias e obras urbanas (4211101, 4212000, 4213800).
  • Instalações e serviços complementares: incluindo a construção de redes de abastecimento de água e esgoto (4221901, 4221902), demolição, terraplenagem, instalações elétricas e hidráulicas, pintura, drywall e outros acabamentos (4311800, 4312600, 4321500, 4322301, 4329101, 4330401, 4330402, 4399101, 4399199).

Mercado Imobiliário
Para o setor imobiliário, os CNAEs selecionados englobam:

  • Desenvolvimento e incorporação imobiliária: (ex.: 4110700).
  • Atividades de compra e venda, corretagem e administração:
  • Compra e venda de imóveis (6810201),
  • Corretagem realizada por meio de contratos ou comissionada (6810202),
  • Atividades de locação de imóveis – tanto diretamente quanto administradas por corretoras (6821801, 6821802),
  • Gestão condominial (6822500),
  • Atividades de avaliação e gestão imobiliária (6831901, 6831902).

Indústria
Os códigos CNAE atribuídos ao setor industrial cobrem uma ampla gama de atividades de manufatura e processamento, tais como:

  • Processamento de alimentos: incluindo abate, indústria de laticínios, panificação e outros (1011201, 1043000, 1052000, 1062700, 1071100, 1082100, 1091100).
  • Indústrias químicas e farmacêuticas: produção de produtos químicos, farmacêuticos, etc. (1101101, 1921700, 2011800, 2029600, 2110600).
  • Manufatura de produtos de borracha e plástico: (2211100, 2229400).
  • Produção de vidro e cerâmica: (2311700).
  • Indústria metalúrgica e de transformação: que abrange a produção de aço e produtos metálicos, fabricação de equipamentos elétricos e industriais, veículos, construção naval e aeroespacial (2411300, 2511000, 2710400, 2812200, 2910701, 3011801, 3030700).

Saúde
Os CNAEs selecionados para o setor de saúde abrangem atividades essenciais e de apoio, tais como:

  • Atividades hospitalares e de emergência: 
    (ex.: 8610101, 8610102).
  • Prática médica: tanto de caráter geral (8621300) quanto especializado (8622100), além da prática odontológica (8623000).
  • Atividades para suporte a procedimentos médicos: que incluem serviços laboratoriais, análises clínicas, patologia, bancos de sangue, e outros
    (8630501, 8630502, 8630503,
     8640201, 8640202, 8640203).
  • Serviços de cuidado e terapias: como enfermagem, nutrição, psicologia, fisioterapia, terapia ocupacional, fonoaudiologia, optometria e quiropraxia
    (8650001 até8650008).
  • Serviços complementares: como atividades de assistência social sem acomodação, práticas integrativas em saúde, serviços de ambulância e bancos de órgãos (8660700, 8690901, 8690902, 8690903, 8690904).

Comércio
Para o setor de comércio, os códigos CNAE englobam atividades tanto de varejo quanto de atacado, entre as quais se destacam:

Varejo:

    • Venda em lojas gerais e supermercados (4711301, 4712101),
    • Comércio de produtos específicos como padarias, confeitaria (4721101, 4721102),
    • Comércio de combustíveis, materiais de construção, eletrodomésticos, móveis, livros, vestuário, calçados, e outros tipos de lojas especializadas (4731800, 4744001, 4744099, 4751201, 4759801, 4761001, 4771701, 4781400, 4782200, 4789099)
    • Vendas realizadas via canais eletrônicos ou de comunicação, como internet, postal ou televisão (4799001, 4799002).


Atacado:

  • Comércio atacadista de produtos agrícolas, bebidas, produtos farmacêuticos, bens de consumo e equipamentos
    (4622101, 4637101, 4641901,
     4649601, 4651601, 4661101, 4663701).

 

Serviços
Os códigos CNAE para serviços englobam uma variedade de atividades não industriais e não comerciais, dentre as quais se incluem:

  • Serviços profissionais e consultoria: atividades jurídicas (6911701), consultoria em gestão (7020400), serviços de arquitetura e engenharia (7119701, 7119702), e publicidade (7311400).
  • Serviços de tradução e interpretação: (7490101).
  • Atividades de apoio administrativo e de segurança: como serviços de segurança privada (8012900), apoio administrativo (8211300) e organização de eventos (8230001).
  • Algumas atividades de saúde e bem-estar que se enquadram no segmento de serviços: como determinadas práticas médicas especializadas, odontológicas e complementares já descritas para o setor de saúde, que também podem ser consideradas quando o foco da análise é a prestação de serviços em regime ambulatorial.
  • Serviços pessoais e de conveniência: incluindo atividades de estética e bem-estar, como cabeleireiro, serviços de beleza, lavanderia, manicure e pedicure (9319102, 9609201, 9602500, 9609202).

Cálculo de Indicadores de Remuneração e Variação Anual

  • Agregação e Categorização:
    Após a filtragem dos registros por CNAE, o Ranking calcula estatísticas da remuneração anual, definindo intervalos (bins) com base nos percentis 33 e 67 e nos valores mínimo e máximo. Dessa forma, cada vínculo empregatício é classificado em categorias “baixo”, “medio” ou “alto”.

  • Cálculo de Variações:
    Os dados são agrupados por município e ano e para cada grupo são calculadas variações absolutas (diferença entre anos consecutivos) e percentuais, utilizando funções de diferença.

 

Integração dos Dados e Cálculo do IQM

  • Junção dos Dados Setoriais:
    Para cada setor, os dados processados (incluindo as variações calculadas e os dados agregados) são integrados por meio de múltiplosmerges que utilizam os identificadores padronizados dos municípios.
  • Cálculo do IQM:
    O indicador IQM é calculado por meio da soma das variações percentuais e, em seguida, os valores são normalizados usando dois métodos:
  • Normalização Z-Score:subtraindo a média e dividindo pelo desvio padrão.
  • Normalização Min-Max:ajustando os valores para uma escala entre 0 e 1, conforme o mínimo e o máximo encontrados. 

Filtragem por População e Exportação dos Resultados

  • Critério de População:
    Em diversos pontos, o Ranking filtra os municípios para considerar apenas aqueles com mais de 100 mil habitantes, assegurando foco em centros urbanos de maior relevância.

  • Geração de Relatórios:
    Os datasets resultantes (tanto os completos quanto os resumos agrupados por município e ano) são exportados para arquivos CSV e Excel, permitindo a análise posterior dos indicadores calculados.

Resumo Geral das etapas de construção do Ranking

Em síntese, o Ranking realiza as seguintes funções:

1.Leitura dos Indicadores Resumidos por Setor:
Importa os resultados normalizados de diversos setores (serviços, comércio, saúde, indústria, imobiliário, construção civil, agropecuária e educação) para municípios com mais de 100 mil habitantes.

2.Integração e Agregação dos Indicadores:
Realiza uma série de junções utilizando o código do município para consolidar os indicadores em um único dataset, tratando valores ausentes e calculando médias quando necessário.

3.Cálculo do Indicador Composto e Ajuste Populacional:
Soma os indicadores setoriais para formar o IQM_GERAL e aplica um ajuste ponderado pela população de cada município, resultando em um IQM final que é normalizado para facilitar a comparação.

4.Exportação dos Resultados:
Os resultados finais, tanto do resumo agregado quanto da análise detalhada, são salvos nas bases de dados do Ranking, para uso em análises posteriores e na elaboração de produtos de informação complementares.

Este processo de integração e síntese permite que os diversos aspectos (setoriais e demográficos) sejam combinados em um único indicador composto, que oferece uma visão abrangente da qualidade e competitividade dos municípios analisados.

Pilar da Educação

Fontes de Dados e Extração: Educação Básica

Bases Utilizadas:

  • Os microdados do Censo Escolar referentes aos anos de 2023 e 2022 são importados.
  • As colunas selecionadas inicialmente incluem:
  • CO_MUNICIPIO: Código do município.
  • NU_ANO_CENSO: Ano de referência do censo.
  • TP_CATEGORIA_ESCOLA_PRIVADA: Indicador da categoria da escola (privada ou não).
  • QT_MAT_BAS: Quantidade de matrículas na educação básica.
  • Em algumas etapas, também é considerada a colunaCO_ENTIDADE para identificar as escolas.

Tratamento Inicial:

    • São separados os registros com e sem informação na colunaTP_CATEGORIA_ESCOLA_PRIVADA para garantir que ambos os casos sejam processados (preenchendo osNaN com zero quando necessário).
    • Os dados dos dois anos (2023 e 2022) são concatenados, formando uma base histórica que permite o cálculo de variações temporais.

Fontes de Dados e Extração: Educação Superior

  • Bases Utilizadas: São lidos os microdados do Censo da Educação Superior para os anos de 2023 e 2022, extraindo colunas relevantes como:
  • CO_MUNICIPIO, NU_ANO_CENSO, TP_ORGANIZACAO_ACADEMICA, TP_REDE, TP_CATEGORIA_ADMINISTRATIVA, CO_IES e QT_MAT.
  • Tratamento Inicial: Os dados dos dois períodos são concatenados para permitir a análise das variações na quantidade de matrículas (QT_MAT) e outros indicadores relacionados à educação superior.

Pré-processamento e Cálculo de Variações: Educação Básica

Agregação por Município e Ano:

    • Os dados são agrupados pelas chavesCO_MUNICIPIO, NU_ANO_CENSO e TP_CATEGORIA_ESCOLA_PRIVADA (e, para as escolas, também pela entidade, CO_ENTIDADE) para calcular o total de matrículas (QT_MAT_BAS) em cada agrupamento.

    Cálculo da Variação Anual:

    • Para cada município e categoria de escola, calcula-se a variação absoluta de matrículas de um ano para outro utilizando a funçãodiff().
    • A variação percentual é então computada dividindo essa variação pelo valor do ano anterior (obtido via shift(1)) e multiplicando por 100.

Cálculo do Número de Escolas:

  • Separadamente, o número de escolas (identificadas porCO_ENTIDADE) é agregado por município e ano.
  • São também calculadas a variação absoluta e a variação percentual no número de escolas.
  • Variação do Número de Alunos por Escola:
  • É calculada a média das variações (absoluta e percentual) no número de matrículas por escola, agrupando os dados por município e ano.
  •  

Pré-processamento e Cálculo de Variações: Educação Superior

Agregação de Matrículas:

  • Os dados da educação superior são agrupados porCO_MUNICIPIO, NU_ANO_CENSO e, conforme o caso, porTP_ORGANIZACAO_ACADEMICA.
  • São calculadas as somas das matrículas totais (QT_MAT) e, separadamente, para instituições privadas (filtradas pela variávelTP_REDE igual a 2).

    Cálculo das Variações:
  • Para cada agrupamento, são calculadas as variações absolutas e percentuais das matrículas de um ano para outro.
  • Contagem de Instituições de Ensino Superior:
  • É realizada a contagem do número de instituições (CO_IES) por município e ano, e, similarmente, são calculadas as variações absolutas e percentuais.
  • Variação do Número de Alunos por Escola (Ensino Superior):
  • É calculada a média das variações (absoluta e percentual) de matrículas por instituição, novamente agrupando por município e ano.

Integração dos Componentes e Cálculo do IQM para Educação

Criação dos Componentes do Indicador

  • Componentes para Educação Básica:
    • São definidos componentes relativos às matrículas totais, matrículas em escolas privadas, número de escolas e variação média de alunos por escola.
    • Cada componente é representado pelas variações percentuais calculadas anteriormente.
  • Componentes para Educação Superior:
    • Incluem-se os componentes derivados da variação das matrículas totais e privadas, bem como dos números de instituições e a variação dos alunos por escola.
  • Agregação dos Componentes
    • União dos Dados:
      • Os componentes dos diferentes níveis (educação básica e superior) são integrados por meio de merge() utilizando a chaveCO_MUNICIPIO e o ano (NU_ANO_CENSO).
      • Essa etapa permite que os diversos indicadores (das matrículas, escolas, variações de alunos e também os dados de saldo de empregos na área de educação, extraídos de fontes como o CAGED) sejam combinados em um único dataset.
  • Cálculo do IQM Educacional:
    • O IQM para educação é calculado como a soma dos componentes de variação percentual de cada subcomponente (matrículas totais e privadas na educação básica e superior, variação de número de escolas, variação média de alunos por escola e variação dos empregos na educação).
    • Após a soma, o valor agregado passa por uma normalização, onde são aplicados métodos como o z-score (subtraindo a média e dividindo pelo desvio padrão) e a normalização Min-Max (para ajustar os valores a uma escala entre 0 e 1). Essas normalizações resultam nos indicadoresIQM_EDUCACAO_NORM e IQM_EDUCACAO_NORM_MINMAX.

Integração com Dados Demográficos e Geração do Ranking

  • Junção com Cadastro de Municípios
  • Incorporação de Informações Demográficas:
  • O cadastro de municípios é importado a partir de um dataset que contém dados como UF, nome do município e código do IBGE (CO_MUNICIPIO).
  • Essa base é utilizada para complementar os dados do IQM educacional, possibilitando a identificação dos municípios e a inclusão de informações adicionais (como a população, em etapas posteriores).
  • Filtragem por População
  • Critério de Seleção:
  • É aplicada uma filtragem para considerar apenas os municípios com mais de 100 mil habitantes. Essa etapa assegura que o ranking se concentre em centros urbanos de maior representatividade.
  • Geração e Exportação dos Rankings
  • Agregação Final e Ordenação:
  • Os dados integrados são agrupados (por município, e em alguns casos por ano) e a média dos indicadores normalizados é calculada.
  • O IQM final para educação (IQM_EDUCACAO_NORM_MINMAX) é utilizado para ordenar os municípios em um ranking.
  • Exportação dos Resultados:
  • Os resultados finais, tanto o ranking detalhado quanto o resumo (por município, com informações de população e demais dados do cadastro), são exportados para arquivos CSV e Excel para posterior análise e utilização em relatórios e tomada de decisão.

Resumo Geral da Metodologia de Educação

  • Extração e Preparação dos Dados:
  • São importados os microdados do Censo Escolar (educação básica) e do Censo da Educação Superior para os anos de 2022 e 2023.
  • As bases são filtradas para selecionar colunas-chave (comoCO_MUNICIPIO, NU_ANO_CENSO, QT_MAT_BAS, CO_ENTIDADE, entre outras) e unificadas.
  • Cálculo das Variações:
  • Para cada nível (educação básica e superior), são calculadas variações absolutas e percentuais de matrículas, número de escolas/instituições e a média de alunos por escola, permitindo a mensuração da dinâmica temporal.
  • Construção dos Componentes do IQM Educacional:
  • Os indicadores de variação são agrupados em componentes que representam aspectos críticos do sistema educacional (matrículas totais, escolas, variação de alunos, e também o impacto dos empregos na área de educação).
  • Integração dos Componentes e Normalização:
  • Os diversos componentes são integrados em um único dataset, e o IQM educacional é calculado pela soma dos componentes, seguido de normalizações (z-score e Min-Max) para gerar os indicadoresIQM_EDUCACAO_NORM e IQM_EDUCACAO_NORM_MINMAX.
  • Integração Demográfica e Geração do Ranking:
  • Os indicadores são combinados com dados do cadastro de municípios e filtrados para considerar apenas municípios com mais de 100 mil habitantes.
  • É gerado um ranking final, que é exportado para CSV e Excel, permitindo a análise comparativa dos municípios em termos de desempenho educacional.
  •  

Integração com Dados Demográficos e Geração do Ranking

  • Junção com Cadastro de Municípios
  • Incorporação de Informações Demográficas:
  • O cadastro de municípios é importado a partir de um dataset que contém dados como UF, nome do município e código do IBGE (CO_MUNICIPIO).
  • Essa base é utilizada para complementar os dados do IQM educacional, possibilitando a identificação dos municípios e a inclusão de informações adicionais (como a população, em etapas posteriores).
  • Filtragem por População
  • Critério de Seleção:
  • É aplicada uma filtragem para considerar apenas os municípios com mais de 100 mil habitantes. Essa etapa assegura que o ranking se concentre em centros urbanos de maior representatividade.
  • Geração e Exportação dos Rankings
  • Agregação Final e Ordenação:
  • Os dados integrados são agrupados (por município, e em alguns casos por ano) e a média dos indicadores normalizados é calculada.
  • O IQM final para educação (IQM_EDUCACAO_NORM_MINMAX) é utilizado para ordenar os municípios em um ranking.
  • Exportação dos Resultados:
  • Os resultados finais, tanto o ranking detalhado quanto o resumo (por município, com informações de população e demais dados do cadastro), são exportados para arquivos CSV e Excel para posterior análise e utilização em relatórios e tomada de decisão.