O documento descreve os tratamentos realizados na construção da base de dados longitudinal do Censo da Educação Básica no Brasil de 2007 a 2016, incluindo a padronização de variáveis, processo de deduplicação para identificar registros duplicados e corrigi-los, e imputação de dados ausentes para preencher lacunas nas trajetórias dos alunos.
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
Construção da base longitudinal do Censo da Educação Básica DEED/INEP (2007-2016
1. Construção da base
de dados longitudinal
do Censo da
Educação Básica
DEED/INEP
Brasília-DF | Junho 2017
2. Sumário
Introdução
1) Tratamentos:
• Padronização das variáveis
• Processo de deduplicação
• Imputação
2) Produtos finais:
• Estrutura da base final (sala segura)
• Risco de identificação individual
• Estrutura dos microdados
3. Situação
final
Matrícula
(última quarta-feira
de maio)
Admissões
Transferências
Óbitos
Ano t
Introdução: a dinâmica do Censo Escolar
Mais informações:
http://download.inep.gov.br/educacao_basica/censo_escolar/caderno_de_instrucoes/caderno_de_instrucoes_censo_escolar_2017.pdf
http://download.inep.gov.br/educacao_basica/educacenso/situacao_aluno/documentos/2017/cartilha_situacao_do_aluno.pdf
4. Tratamentos: padronização das variáveis
O primeiro passo para a construção da base de dados longitudinal com as
informações do período 2007-2016 foi a padronização das variáveis e
categorias coletadas na primeira e segunda etapa do Censo Escolar. Isso
permitiu a criação de bases contendo todas as informações do período:
• TS_CENSO_BASICO_MATRICULA:
com dados da matrícula inicial de 2007 a 2016.
• TS_CENSO_BASICO_SITUACAO:
com dados da situação final de 2007 a 2016.
5. Com a mudança metodológica ocorrida em 2007, quando os dados do
Censo Escolar passaram a ser coletados individualmente e não mais
agregados por escola, o Inep passou a manter um cadastro de alunos e
docentes com informações pessoais. Cada indivíduo vinculado ao Censo
Escolar a partir de 2007 recebe um número identificação único que é
mantido ao longo dos anos - e pode facilitar o preenchimento das edições
subsequentes do Censo Escolar.
Essa identificação única permite também o acompanhamento da
trajetória dos alunos ao longo dos anos. Para isso é preciso garantir que
cada aluno ou docente não possua mais de um cadastro na base.
Problema: inexistência de registro civil único.
Tratamentos: processo de deduplicação
6. Tratamentos: processo de deduplicação
O que é o processo de deduplicação?
É um processo realizado na base de dados cadastrais de alunos e
docentes que permite a identificação e tratamento de registros
duplicados (dois ou mais registros referentes a um mesmo indivíduo).
7. Tratamentos: processo de deduplicação
Por que é necessário?
Em um cadastro de pessoas ideal, todos os indivíduos devem preencher
em algum campo o seu código de identificação único, que pode ser
validado por uma base externa ou, minimamente, por algum dígito
verificador. Isso permitiria que o sistema alertasse sobre a entrada de
dados errôneos e também indicasse de forma precisa a pré-existência do
cadastro na base – impedindo a duplicidade.
8. Tratamentos: processo de deduplicação
Por que é necessário?
O Censo Escolar já coleta alguns campos que pode ser utilizados como
identificador único, como o CPF, a nova certidão de nascimento, o NIS e a
própria identificação única do EDUCACENSO - sendo alguns melhores que
outros como identificadores. Entretanto, nem todos os alunos possuem
esses documentos e, assim, esses campos não podem ser obrigatórios.
Antes de cadastrar um aluno, o sistema EDUCACENSO obriga o usuário a
realizar uma busca pelo aluno na base nacional. Caso esse aluno não seja
encontrado, o cadastro é liberado.
10. “Lembre-se de que os nomes não devem ser
abreviados e que todas as possibilidades de
pesquisa do nome do aluno devem ser esgotadas
para solicitar um novo cadastro.”
Tratamentos: processo de deduplicação
Apesar dos alertas do manual:
Um usuário pode preencher os campos sem o devido cuidado, fazendo
com que o sistema libere o preenchimento do cadastro de um aluno que
já consta na base de dados. É possível que o sistema barre a entrada
desse novo cadastro, por exemplo, se um CPF pré-existente for inserido.
Entretanto, se isso não ocorrer, um cadastro duplo será criado.
11. Tratamentos: processo de deduplicação
Como funciona?
O processo de deduplicação é aplicado na base de cadastro ao menos
uma vez por ano e vem sendo aperfeiçoado desde 2007. O processo
consiste na busca de pares de registros cujas informações em vários
campos apresentam grande similaridade.
Exemplos de campos avaliados: Nome, nome dos pais, data de
nascimento, município de nascimento, município de residência e campos
de documentação.
12. Tratamentos: processo de deduplicação
Como funciona?
Para avaliar a similaridade de dois nomes, são realizados os seguintes
passos:
1) Testa-se a igualdade dos nomes após simplificação fonética (por
função similar à “soundex”, voltada para a língua portuguesa);
2) Utiliza-se a distância “levenshtein” entre os dois nomes, que avalia o
número de modificações - inserção, supressão ou substituição de uma
letra - necessárias para transformar um nome em outro.
Atualmente, verifica-se até mesmo a similaridade entre as etapas
frequentadas ao longo dos anos pelo par de registros suspeito de ser do
mesmo aluno.
13. Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
14. NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
15. NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
16. Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
17. Esse processo impacta diretamente o acompanhamento da trajetória dos
alunos:
Tratamentos: processo de deduplicação
O processo de deduplicação já processou quase 20 milhões de
correções de 2007 a 2016 - como este é um tratamento
recorrente, os microdados não refletem essas mudanças.
CO_PESSOA_FISICA Nome
123 thiago martins
CO_PESSOA_FISICA Nome
952 tiago martines
2007 2008
CO_PESSOA_FISICA Nome
123 thiago martins
952 tiago martines
18. Múltiplas matrículas:
1º Modalidade
(regular > especial > EJA)
2º Etapas seriadas
(1 ano do EF - 4ª série EM)
3º Situação
(Aprov.> Rep. > Aban.>SIR>Fal.)
4º Etapa mais elevada
5º Primeiro cadastro
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
Menos de 1% dos alunos possui mais de uma
matrícula em um mesmo ano.
19. Tratamentos: imputação
Após esses procedimentos, as trajetórias dos alunos podem ser adequadamente
avaliadas por meio da identificação única do Censo (variável
CO_PESSOA_FISICA). As análises iniciais dessas trajetórias apontaram a
necessidade de tratamentos adicionais para alguns alunos que apresentaram
ausências/“saltos” inconsistentes com a sua evolução nas etapas de ensino.
Esses dados ausentes da trajetória de alunos foram submetidos a um
procedimento de imputação denominado “hot deck”1,2, que busca preservar a
distribuição original e a coerência dos dados. De forma resumida, as informações
ausentes de um aluno são substituídas por informações válidas de outros alunos
que possuem características similares a esse.
¹ LITTLE, Roderick JA; RUBIN, Donald B. Statistical analysis with missing data. John Wiley & Sons, 2014.
2 BRICK, JM; KALTON, G. Handling missing data in survey research. Stat Meth Med Res. 1996; 5:215–238.
20. Alunos com registros inconsistentes
Total de casos identificados: 3.325.558
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de
retorno e mesma etapa e situação de rendimento do ano anterior à
ausência
• Casos imputados: 3.100.854 (93,2%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) - 2ª Série EM (aprov.) 3ª Série EM (aprov.)
121504282700 9º Ano EF (rep.) - - 2ª Série EM (aprov.) 3ª Série EM (aprov.)
122284239390 1º Ano EF (aprov.) - - - 4º Ano EF (aprov.)
... ... ... ... ... ...
Etapa de ensino segundo ano
21. Alunos com registros inconsistentes
Total de casos identificados: 3.325.558
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de
retorno e mesma etapa e situação de rendimento do ano anterior à
ausência
• Casos imputados: 3.100.854 (93,2%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.)
121504282700 9º Ano EF (rep.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.)
122284239390 1º Ano EF (aprov.) 2º Ano EF (rep.) 2º Ano EF (aprov.) 3º Ano EF (aprov.) 4º Ano EF (aprov.)
... ... ... ... ... ...
Etapa de ensino segundo ano
22. Aluno novo em etapa seriada avançada (trajetória regular/irregular)
Total de casos identificados: 2.775.364
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade, etapa e grupo de
idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção)
no ano de entrada.
• Casos imputados: 2.518.001 (90,7%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
120621831546 - - - 2ª Série EM 3ª Série EM
124109593505 - - 3º Ano EF 4º Ano EF 5º Ano EF
... ... ... ... ... ...
Etapa de ensino segundo ano
23. Aluno novo em etapa seriada avançada (trajetória regular/irregular)
Total de casos identificados: 2.775.364
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa e grupo
de idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção)
no ano de entrada.
• Casos imputados: 2.518.001 (90,7%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
120621831546 8º Ano EF 9º Ano EF 1ª Série EM 2ª Série EM 3ª Série EM
124109593505 1º Ano EF 2º Ano EF 3º Ano EF 4º Ano EF 5º Ano EF
... ... ... ... ... ...
Etapa de ensino segundo ano
24. Os dados de matrícula oriundos do processo de imputação representam 2,4%
das matrículas da base final - 466.426.934 matrículas de 2007 a 2015.
Tratamentos: imputação
0
10,000,000
20,000,000
30,000,000
40,000,000
50,000,000
60,000,000
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Número
de
matrículas
Declarada Imputada
25. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
NU_ANO_CENSO Ano do Censo
CO_PESSOA_FISICA Código do aluno (ID_INEP)
ID_MATRICULA Código da matrícula (1ª fase Censo Escolar)
CO_ENTIDADE Código da escola (1ª fase Censo Escolar)
CO_ENTIDADE_SIT Código da escola (2ª fase Censo Escolar)
Variáveis de agregação/identificação
26. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
DT_NASCIMENTO Data de nascimento (formato datetime SAS. ex: "20DEC1986:00:00:00")
NU_IDADE Idade do aluno no ano de referência
NU_IDADE_REFERENCIA Idade do aluno na data de referência
CO_MUNICIPIO_NASC Código Município de nascimento
TP_SEXO Sexo
1 - Masculino
2 - Feminino
TP_COR_RACA Cor/raça
0 - Não declarada
1 - Branca
2 - Preta
3 - Parda
4 - Amarela
5 - Indígena
IN_NECESSIDADE_ESPECIAL
Aluno com deficiência, transtorno global do desenvolvimento ou altas
habilidades/superdotação
0 - Não
1 - Sim
Variáveis pessoais do aluno
27. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
CO_UF Código da UF (1ª fase Censo Escolar)
CO_MUNICIPIO Código do município da escola (1ª fase Censo Escolar)
TP_DEPENDENCIA Dependência Administrativa (1ª fase Censo Escolar)
1 - Federal
2 - Estadual
3 - Municipal
4 - Privada
TP_LOCALIZACAO Localização (1ª fase Censo Escolar)
1 - Urbana
2 - Rural
CO_UF_SIT Código da UF (2ª fase Censo Escolar)
CO_MUNICIPIO_SIT Código do município da escola (2ª fase Censo Escolar)
TP_DEPENDENCIA_SIT Dependência Administrativa (2ª fase Censo Escolar)
1 - Federal
2 - Estadual
3 - Municipal
4 - Privada
TP_LOCALIZACAO_SIT Localização (2ª fase Censo Escolar)
1 - Urbana
2 - Rural
Variáveis da escola
28. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
TP_MEDIACAO_DIDATICO_PEDAGO Tipo de mediação didático-pedagógica (1ª fase Censo Escolar)
1 - Presencial
2 - Semipresencial
3 - Educação a
Distância - EAD
IN_ESPECIAL_EXCLUSIVA
Aluno de turma exclusiva de alunos com deficiência, transtorno global do
desenvolvimento ou altas habilidades/superdotação (Classes Especiais)
0 - Não
1 - Sim
IN_REGULAR
Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de
escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas
modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14,
15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38.
0 - Não
1 - Sim
IN_EJA
Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a
pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas
consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a
65,67,69,70,71,73 ou 74.
0 - Não
1 - Sim
IN_PROFISSIONALIZANTE
Modo profissionalizante de ensino correspondente às turmas de cursos de formação
inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou
concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou
concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas
consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a
30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74.
0 - Não
1 - Sim
TP_ETAPA_ENSINO Etapa de ensino (1ª fase Censo Escolar)
Variáveis da relação aluno/escola
29. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis da relação aluno/escola
Variáveis Descrição das variáveis Categorias
TP_MEDIACAO_DIDATICO_PEDAGO_SIT Tipo de mediação didático-pedagógica (2ª fase Censo Escolar)
1 - Presencial
2 - Semipresencial
3 - Educação a
Distância - EAD
IN_ESPECIAL_EXCLUSIVA_SIT
Aluno de turma exclusiva de alunos com deficiência, transtorno global do
desenvolvimento ou altas habilidades/superdotação (Classes Especiais) - 2ª fase Censo
Escolar
0 - Não
1 - Sim
IN_REGULAR_SIT
Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de
escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas
modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14,
15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38.
0 - Não
1 - Sim
IN_EJA_SIT
Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a
pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas
consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a
65,67,69,70,71,73 ou 74.
0 - Não
1 - Sim
IN_PROFISSIONALIZANTE_SIT
Modo profissionalizante de ensino correspondente às turmas de cursos de formação
inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou
concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou
concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas
consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a
30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74.
0 - Não
1 - Sim
TP_ETAPA_ENSINO_SIT Etapa de ensino da (2ª fase Censo Escolar)
30. Estrutura da base longitudinal
(TS_FLUXO)
Variáveis de rendimento e fluxo
Variáveis Descrição das variáveis Categorias
TP_SITUACAO
Situação de rendimento ou movimento do aluno
ao final do ano letivo
2 - Abandono
3 - Falecido
4 - Reprovado
5 - Aprovado
9 - Sir
IN_CONCLUINTE Situação de conclusão (2ª fase Censo Escolar)
0 – Não concluinte
1 – Concluinte
TP_NOVO
Indica se o aluno é novo na base - alunos que
retornaram ao sistema foram considerados como
novos
0 - Aluno matriculado no ano anterior sem mudança de modalidade
1 - Aluno não matriculado no ano anterior (novo)
2 - Aluno matriculado no ano anterior com mudança de modalidade
TP_FLUXO
Fluxo escolar - transição entre ano atual
(considerando a etapa do aluno na 2ª fase do
Censo Escolar) e ano seguinte (considerando a 1ª
fase do Censo Escolar)
1 – Promovido
2 – Repetente
3 – Evadido de escola
4 – Migração para a EJA
6 – Migração para o regular
7 – Falecido
9 – Não se aplica
ID_MARCA Marcas de imputação
Valores não nulos indicam que todas as variáveis referentes ao ano
foram imputadas
IN_DIVULGA Marca de divulgação
0 - Não
1 - Sim
32. Tipos de variáveis quanto ao
segredo estatístico
• Variáveis-chave e quase identificadoras
Nome, CPF, sexo, idade...
• Variáveis sensíveis
Salário, desempenho, religião...
• Variáveis não-confidenciais
Acesso à internet, número de computadores...
33. Risco de identificação individual
• Fatores determinantes
1. Quanto menor o número de variáveis necessárias
para individualização, maior o risco
2. Quanto maior o número de informações únicas/
incomuns em uma observação, maior o risco
• Anonimidade-K
Número de repetições para as combinações das
variáveis-chave
Tipicamente igual a 3
34. Frequência de combinações únicas
(fk) e risco individual (rk)
ID SEXO RAÇA fk rk
1 1 1 2 0,5
2 1 1 2 0,5
3 1 2 1 1
4 2 3 3 0,33
5 2 3 3 0,33
6 2 . 3 0,33
35. Métodos de anonimização
• Determinísticos
Recodificação
Supressão local
Mascaramento
Micro-agregação
• Probabilísticos
Randomização
Adição de ruído
Dados categóricos
Dados contínuos
36. Utilidade dos dados e perda de
informações
• Necessidade de manutenção de estrutura e
precisão
Diferença pequena ou nula em relação à informação
original
• Avaliação dos dados anonimizados
Seleção de indicadores
Comparação de estimativas, variâncias, intervalos de
confiança
39. Risco de identificação na base do
fluxo escolar
ID_ALUNO, CO_UF_SIT, CO_MUNICIPIO_SIT,
ANO_NASCIMENTO, TP_DISTORCAO, TP_SEXO, TP_COR_RACA,
TP_REDE, TP_LOCALIZACAO_SIT, TP_ETAPA_ENSINO_SIT,
TP_SITUACAO, TP_FLUXO
Variáveis utilizadas
Variáveis-chave Variáveis sensíveis
40. Processo de supressão na base do
fluxo
• Seleção de amostra (n = 770.663)
• Critérios utilizados para alcançar anonimidade-k
total (k=2)
Supressão iniciada pelas variáveis mais influentes
(individualmente, com exceção de rede e etapa)
Combinação de duas variáveis
Combinação de três variáveis
Combinação de quatro variáveis
Supressão de rede e etapa (individualmente)
41. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 1
2 1 1 2008 1
3 2 1 2007 1
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
42. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
43. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
44. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
45. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 1
5 3 2 2002 1
6 2 2 2005 1
46. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 1
5 3 2 2002 1
6 2 2 2005 1
47. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 2
5 3 2 . 2
6 2 2 2005 1
48. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 2
5 3 2 . 2
6 2 2 2005 1
49. Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 4
2 1 1 . 4
3 . 1 2007 4
4 3 2 2008 2
5 . . . 6
6 2 2 2005 2