SlideShare uma empresa Scribd logo
1 de 54
Construção da base
de dados longitudinal
do Censo da
Educação Básica
DEED/INEP
Brasília-DF | Junho 2017
Sumário
Introdução
1) Tratamentos:
• Padronização das variáveis
• Processo de deduplicação
• Imputação
2) Produtos finais:
• Estrutura da base final (sala segura)
• Risco de identificação individual
• Estrutura dos microdados
Situação
final
Matrícula
(última quarta-feira
de maio)
Admissões
Transferências
Óbitos
Ano t
Introdução: a dinâmica do Censo Escolar
Mais informações:
http://download.inep.gov.br/educacao_basica/censo_escolar/caderno_de_instrucoes/caderno_de_instrucoes_censo_escolar_2017.pdf
http://download.inep.gov.br/educacao_basica/educacenso/situacao_aluno/documentos/2017/cartilha_situacao_do_aluno.pdf
Tratamentos: padronização das variáveis
O primeiro passo para a construção da base de dados longitudinal com as
informações do período 2007-2016 foi a padronização das variáveis e
categorias coletadas na primeira e segunda etapa do Censo Escolar. Isso
permitiu a criação de bases contendo todas as informações do período:
• TS_CENSO_BASICO_MATRICULA:
com dados da matrícula inicial de 2007 a 2016.
• TS_CENSO_BASICO_SITUACAO:
com dados da situação final de 2007 a 2016.
Com a mudança metodológica ocorrida em 2007, quando os dados do
Censo Escolar passaram a ser coletados individualmente e não mais
agregados por escola, o Inep passou a manter um cadastro de alunos e
docentes com informações pessoais. Cada indivíduo vinculado ao Censo
Escolar a partir de 2007 recebe um número identificação único que é
mantido ao longo dos anos - e pode facilitar o preenchimento das edições
subsequentes do Censo Escolar.
Essa identificação única permite também o acompanhamento da
trajetória dos alunos ao longo dos anos. Para isso é preciso garantir que
cada aluno ou docente não possua mais de um cadastro na base.
Problema: inexistência de registro civil único.
Tratamentos: processo de deduplicação
Tratamentos: processo de deduplicação
O que é o processo de deduplicação?
É um processo realizado na base de dados cadastrais de alunos e
docentes que permite a identificação e tratamento de registros
duplicados (dois ou mais registros referentes a um mesmo indivíduo).
Tratamentos: processo de deduplicação
Por que é necessário?
Em um cadastro de pessoas ideal, todos os indivíduos devem preencher
em algum campo o seu código de identificação único, que pode ser
validado por uma base externa ou, minimamente, por algum dígito
verificador. Isso permitiria que o sistema alertasse sobre a entrada de
dados errôneos e também indicasse de forma precisa a pré-existência do
cadastro na base – impedindo a duplicidade.
Tratamentos: processo de deduplicação
Por que é necessário?
O Censo Escolar já coleta alguns campos que pode ser utilizados como
identificador único, como o CPF, a nova certidão de nascimento, o NIS e a
própria identificação única do EDUCACENSO - sendo alguns melhores que
outros como identificadores. Entretanto, nem todos os alunos possuem
esses documentos e, assim, esses campos não podem ser obrigatórios.
Antes de cadastrar um aluno, o sistema EDUCACENSO obriga o usuário a
realizar uma busca pelo aluno na base nacional. Caso esse aluno não seja
encontrado, o cadastro é liberado.
Fonte:http://download.inep.gov.br/educacao_basica/educacenso/matricula_inicial/2017/navegacao_guiada_censo_escolar_2017.pdf
“Lembre-se de que os nomes não devem ser
abreviados e que todas as possibilidades de
pesquisa do nome do aluno devem ser esgotadas
para solicitar um novo cadastro.”
Tratamentos: processo de deduplicação
Apesar dos alertas do manual:
Um usuário pode preencher os campos sem o devido cuidado, fazendo
com que o sistema libere o preenchimento do cadastro de um aluno que
já consta na base de dados. É possível que o sistema barre a entrada
desse novo cadastro, por exemplo, se um CPF pré-existente for inserido.
Entretanto, se isso não ocorrer, um cadastro duplo será criado.
Tratamentos: processo de deduplicação
Como funciona?
O processo de deduplicação é aplicado na base de cadastro ao menos
uma vez por ano e vem sendo aperfeiçoado desde 2007. O processo
consiste na busca de pares de registros cujas informações em vários
campos apresentam grande similaridade.
Exemplos de campos avaliados: Nome, nome dos pais, data de
nascimento, município de nascimento, município de residência e campos
de documentação.
Tratamentos: processo de deduplicação
Como funciona?
Para avaliar a similaridade de dois nomes, são realizados os seguintes
passos:
1) Testa-se a igualdade dos nomes após simplificação fonética (por
função similar à “soundex”, voltada para a língua portuguesa);
2) Utiliza-se a distância “levenshtein” entre os dois nomes, que avalia o
número de modificações - inserção, supressão ou substituição de uma
letra - necessárias para transformar um nome em outro.
Atualmente, verifica-se até mesmo a similaridade entre as etapas
frequentadas ao longo dos anos pelo par de registros suspeito de ser do
mesmo aluno.
Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
Tabela DEPARA
Aluno
removido
Aluno
mantido
- -
- -
- -
- -
120550100234 120550647030
- -
120621830125 124109593505
- -
... ...
... ...
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
Esse processo impacta diretamente o acompanhamento da trajetória dos
alunos:
Tratamentos: processo de deduplicação
O processo de deduplicação já processou quase 20 milhões de
correções de 2007 a 2016 - como este é um tratamento
recorrente, os microdados não refletem essas mudanças.
CO_PESSOA_FISICA Nome
123 thiago martins
CO_PESSOA_FISICA Nome
952 tiago martines
2007 2008
CO_PESSOA_FISICA Nome
123 thiago martins
952 tiago martines
Múltiplas matrículas:
1º Modalidade
(regular > especial > EJA)
2º Etapas seriadas
(1 ano do EF - 4ª série EM)
3º Situação
(Aprov.> Rep. > Aban.>SIR>Fal.)
4º Etapa mais elevada
5º Primeiro cadastro
NU_ANO_CENSO
(ano
da
informação)
CO_PESSOA_FISICA
(identificação
única)
ID_MATRICULA
(código
da
matrícula)
CO_ENTIDADE
(código
da
escola)
TP_ETAPA_ENSINO
(código
da
etapa
de
ensino)
TP_SITUACAO
(situação
final)
2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep.
2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov.
2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov.
2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov.
2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov.
2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep.
2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban.
2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov.
... ... ... ... ... ...
Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
Menos de 1% dos alunos possui mais de uma
matrícula em um mesmo ano.
Tratamentos: imputação
Após esses procedimentos, as trajetórias dos alunos podem ser adequadamente
avaliadas por meio da identificação única do Censo (variável
CO_PESSOA_FISICA). As análises iniciais dessas trajetórias apontaram a
necessidade de tratamentos adicionais para alguns alunos que apresentaram
ausências/“saltos” inconsistentes com a sua evolução nas etapas de ensino.
Esses dados ausentes da trajetória de alunos foram submetidos a um
procedimento de imputação denominado “hot deck”1,2, que busca preservar a
distribuição original e a coerência dos dados. De forma resumida, as informações
ausentes de um aluno são substituídas por informações válidas de outros alunos
que possuem características similares a esse.
¹ LITTLE, Roderick JA; RUBIN, Donald B. Statistical analysis with missing data. John Wiley & Sons, 2014.
2 BRICK, JM; KALTON, G. Handling missing data in survey research. Stat Meth Med Res. 1996; 5:215–238.
Alunos com registros inconsistentes
Total de casos identificados: 3.325.558
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de
retorno e mesma etapa e situação de rendimento do ano anterior à
ausência
• Casos imputados: 3.100.854 (93,2%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) - 2ª Série EM (aprov.) 3ª Série EM (aprov.)
121504282700 9º Ano EF (rep.) - - 2ª Série EM (aprov.) 3ª Série EM (aprov.)
122284239390 1º Ano EF (aprov.) - - - 4º Ano EF (aprov.)
... ... ... ... ... ...
Etapa de ensino segundo ano
Alunos com registros inconsistentes
Total de casos identificados: 3.325.558
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de
retorno e mesma etapa e situação de rendimento do ano anterior à
ausência
• Casos imputados: 3.100.854 (93,2%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.)
121504282700 9º Ano EF (rep.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.)
122284239390 1º Ano EF (aprov.) 2º Ano EF (rep.) 2º Ano EF (aprov.) 3º Ano EF (aprov.) 4º Ano EF (aprov.)
... ... ... ... ... ...
Etapa de ensino segundo ano
Aluno novo em etapa seriada avançada (trajetória regular/irregular)
Total de casos identificados: 2.775.364
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade, etapa e grupo de
idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção)
no ano de entrada.
• Casos imputados: 2.518.001 (90,7%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
120621831546 - - - 2ª Série EM 3ª Série EM
124109593505 - - 3º Ano EF 4º Ano EF 5º Ano EF
... ... ... ... ... ...
Etapa de ensino segundo ano
Aluno novo em etapa seriada avançada (trajetória regular/irregular)
Total de casos identificados: 2.775.364
Processo de imputação via “hot deck”
• Critérios de elegibilidade: mesma escola, modalidade e etapa e grupo
de idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção)
no ano de entrada.
• Casos imputados: 2.518.001 (90,7%)
Tratamentos: imputação
CO_PESSOA_FISICA 2008 2009 2010 2011 2012
120621831546 8º Ano EF 9º Ano EF 1ª Série EM 2ª Série EM 3ª Série EM
124109593505 1º Ano EF 2º Ano EF 3º Ano EF 4º Ano EF 5º Ano EF
... ... ... ... ... ...
Etapa de ensino segundo ano
Os dados de matrícula oriundos do processo de imputação representam 2,4%
das matrículas da base final - 466.426.934 matrículas de 2007 a 2015.
Tratamentos: imputação
0
10,000,000
20,000,000
30,000,000
40,000,000
50,000,000
60,000,000
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Número
de
matrículas
Declarada Imputada
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
NU_ANO_CENSO Ano do Censo
CO_PESSOA_FISICA Código do aluno (ID_INEP)
ID_MATRICULA Código da matrícula (1ª fase Censo Escolar)
CO_ENTIDADE Código da escola (1ª fase Censo Escolar)
CO_ENTIDADE_SIT Código da escola (2ª fase Censo Escolar)
Variáveis de agregação/identificação
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
DT_NASCIMENTO Data de nascimento (formato datetime SAS. ex: "20DEC1986:00:00:00")
NU_IDADE Idade do aluno no ano de referência
NU_IDADE_REFERENCIA Idade do aluno na data de referência
CO_MUNICIPIO_NASC Código Município de nascimento
TP_SEXO Sexo
1 - Masculino
2 - Feminino
TP_COR_RACA Cor/raça
0 - Não declarada
1 - Branca
2 - Preta
3 - Parda
4 - Amarela
5 - Indígena
IN_NECESSIDADE_ESPECIAL
Aluno com deficiência, transtorno global do desenvolvimento ou altas
habilidades/superdotação
0 - Não
1 - Sim
Variáveis pessoais do aluno
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
CO_UF Código da UF (1ª fase Censo Escolar)
CO_MUNICIPIO Código do município da escola (1ª fase Censo Escolar)
TP_DEPENDENCIA Dependência Administrativa (1ª fase Censo Escolar)
1 - Federal
2 - Estadual
3 - Municipal
4 - Privada
TP_LOCALIZACAO Localização (1ª fase Censo Escolar)
1 - Urbana
2 - Rural
CO_UF_SIT Código da UF (2ª fase Censo Escolar)
CO_MUNICIPIO_SIT Código do município da escola (2ª fase Censo Escolar)
TP_DEPENDENCIA_SIT Dependência Administrativa (2ª fase Censo Escolar)
1 - Federal
2 - Estadual
3 - Municipal
4 - Privada
TP_LOCALIZACAO_SIT Localização (2ª fase Censo Escolar)
1 - Urbana
2 - Rural
Variáveis da escola
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis Descrição das variáveis Categorias
TP_MEDIACAO_DIDATICO_PEDAGO Tipo de mediação didático-pedagógica (1ª fase Censo Escolar)
1 - Presencial
2 - Semipresencial
3 - Educação a
Distância - EAD
IN_ESPECIAL_EXCLUSIVA
Aluno de turma exclusiva de alunos com deficiência, transtorno global do
desenvolvimento ou altas habilidades/superdotação (Classes Especiais)
0 - Não
1 - Sim
IN_REGULAR
Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de
escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas
modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14,
15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38.
0 - Não
1 - Sim
IN_EJA
Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a
pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas
consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a
65,67,69,70,71,73 ou 74.
0 - Não
1 - Sim
IN_PROFISSIONALIZANTE
Modo profissionalizante de ensino correspondente às turmas de cursos de formação
inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou
concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou
concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas
consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a
30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74.
0 - Não
1 - Sim
TP_ETAPA_ENSINO Etapa de ensino (1ª fase Censo Escolar)
Variáveis da relação aluno/escola
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis da relação aluno/escola
Variáveis Descrição das variáveis Categorias
TP_MEDIACAO_DIDATICO_PEDAGO_SIT Tipo de mediação didático-pedagógica (2ª fase Censo Escolar)
1 - Presencial
2 - Semipresencial
3 - Educação a
Distância - EAD
IN_ESPECIAL_EXCLUSIVA_SIT
Aluno de turma exclusiva de alunos com deficiência, transtorno global do
desenvolvimento ou altas habilidades/superdotação (Classes Especiais) - 2ª fase Censo
Escolar
0 - Não
1 - Sim
IN_REGULAR_SIT
Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de
escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas
modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14,
15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38.
0 - Não
1 - Sim
IN_EJA_SIT
Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a
pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas
consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a
65,67,69,70,71,73 ou 74.
0 - Não
1 - Sim
IN_PROFISSIONALIZANTE_SIT
Modo profissionalizante de ensino correspondente às turmas de cursos de formação
inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou
concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou
concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas
consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a
30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74.
0 - Não
1 - Sim
TP_ETAPA_ENSINO_SIT Etapa de ensino da (2ª fase Censo Escolar)
Estrutura da base longitudinal
(TS_FLUXO)
Variáveis de rendimento e fluxo
Variáveis Descrição das variáveis Categorias
TP_SITUACAO
Situação de rendimento ou movimento do aluno
ao final do ano letivo
2 - Abandono
3 - Falecido
4 - Reprovado
5 - Aprovado
9 - Sir
IN_CONCLUINTE Situação de conclusão (2ª fase Censo Escolar)
0 – Não concluinte
1 – Concluinte
TP_NOVO
Indica se o aluno é novo na base - alunos que
retornaram ao sistema foram considerados como
novos
0 - Aluno matriculado no ano anterior sem mudança de modalidade
1 - Aluno não matriculado no ano anterior (novo)
2 - Aluno matriculado no ano anterior com mudança de modalidade
TP_FLUXO
Fluxo escolar - transição entre ano atual
(considerando a etapa do aluno na 2ª fase do
Censo Escolar) e ano seguinte (considerando a 1ª
fase do Censo Escolar)
1 – Promovido
2 – Repetente
3 – Evadido de escola
4 – Migração para a EJA
6 – Migração para o regular
7 – Falecido
9 – Não se aplica
ID_MARCA Marcas de imputação
Valores não nulos indicam que todas as variáveis referentes ao ano
foram imputadas
IN_DIVULGA Marca de divulgação
0 - Não
1 - Sim
Uso e divulgação de dados
estatísticos
...
vs
Tipos de variáveis quanto ao
segredo estatístico
• Variáveis-chave e quase identificadoras
 Nome, CPF, sexo, idade...
• Variáveis sensíveis
 Salário, desempenho, religião...
• Variáveis não-confidenciais
 Acesso à internet, número de computadores...
Risco de identificação individual
• Fatores determinantes
1. Quanto menor o número de variáveis necessárias
para individualização, maior o risco
2. Quanto maior o número de informações únicas/
incomuns em uma observação, maior o risco
• Anonimidade-K
 Número de repetições para as combinações das
variáveis-chave
 Tipicamente igual a 3
Frequência de combinações únicas
(fk) e risco individual (rk)
ID SEXO RAÇA fk rk
1 1 1 2 0,5
2 1 1 2 0,5
3 1 2 1 1
4 2 3 3 0,33
5 2 3 3 0,33
6 2 . 3 0,33
Métodos de anonimização
• Determinísticos
 Recodificação
 Supressão local
 Mascaramento
 Micro-agregação
• Probabilísticos
 Randomização
 Adição de ruído
Dados categóricos
Dados contínuos
Utilidade dos dados e perda de
informações
• Necessidade de manutenção de estrutura e
precisão
 Diferença pequena ou nula em relação à informação
original
• Avaliação dos dados anonimizados
 Seleção de indicadores
 Comparação de estimativas, variâncias, intervalos de
confiança
Variáveis do fluxo vs microdados
NU_ANO_CENSO CO_PESSOA_FISICA DT_NASCIMENTO NU_IDADE NU_IDADE_REFERENCIA CO_MUNICIPIO_NASC
TP_SEXO TP_COR_RACA IN_NECESSIDADE_ES
PECIAL
ID_MATRICULA CO_UF CO_MUNICIPIO
CO_ENTIDADE TP_DEPENDENCIA TP_LOCALIZACAO TP_MEDIACAO_DID
ATICO_PEDAGO
IN_ESPECIAL_EXCLUSIVA IN_REGULAR
IN_EJA IN_PROFISSIONALIZANTE TP_ETAPA_ENSINO CO_UF_SIT CO_MUNICIPIO_SIT CO_ENTIDADE_SIT
TP_DEPENDENCIA_SIT TP_LOCALIZACAO_SIT TP_MEDIACAO_DID
ATICO_PEDAGO_SIT
IN_ESPECIAL_EXCLU
SIVA_SIT
IN_REGULAR_SIT IN_EJA_SIT
IN_PROFISSIONALIZA
NTE_SIT
TP_ETAPA_ENSINO_SIT TP_SITUACAO IN_CONCLUINTE TP_NOVO TP_FLUXO
ID_MARCA IN_DIVULGA
Variáveis do fluxo vs microdados
NU_ANO_CENSO CO_PESSOA_FISICA DT_NASCIMENTO NU_IDADE NU_IDADE_REFERENCIA CO_MUNICIPIO_NASC
TP_SEXO TP_COR_RACA IN_NECESSIDADE_ES
PECIAL
ID_MATRICULA CO_UF CO_MUNICIPIO
CO_ENTIDADE TP_DEPENDENCIA TP_LOCALIZACAO TP_MEDIACAO_DID
ATICO_PEDAGO
IN_ESPECIAL_EXCLUSIVA IN_REGULAR
IN_EJA IN_PROFISSIONALIZANTE TP_ETAPA_ENSINO CO_UF_SIT CO_MUNICIPIO_SIT CO_ENTIDADE_SIT
TP_DEPENDENCIA_SIT TP_LOCALIZACAO_SIT TP_MEDIACAO_DID
ATICO_PEDAGO_SIT
IN_ESPECIAL_EXCLU
SIVA_SIT
IN_REGULAR_SIT IN_EJA_SIT
IN_PROFISSIONALIZA
NTE_SIT
TP_ETAPA_ENSINO_SIT TP_SITUACAO IN_CONCLUINTE TP_NOVO TP_FLUXO
ID_MARCA IN_DIVULGA ANO_NASCIMENTO TP_DISTORCAO TP_REDE
Risco de identificação na base do
fluxo escolar
ID_ALUNO, CO_UF_SIT, CO_MUNICIPIO_SIT,
ANO_NASCIMENTO, TP_DISTORCAO, TP_SEXO, TP_COR_RACA,
TP_REDE, TP_LOCALIZACAO_SIT, TP_ETAPA_ENSINO_SIT,
TP_SITUACAO, TP_FLUXO
Variáveis utilizadas
Variáveis-chave Variáveis sensíveis
Processo de supressão na base do
fluxo
• Seleção de amostra (n = 770.663)
• Critérios utilizados para alcançar anonimidade-k
total (k=2)
 Supressão iniciada pelas variáveis mais influentes
(individualmente, com exceção de rede e etapa)
 Combinação de duas variáveis
 Combinação de três variáveis
 Combinação de quatro variáveis
 Supressão de rede e etapa (individualmente)
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 1
2 1 1 2008 1
3 2 1 2007 1
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 2
2 1 1 2008 1
3 . 1 2007 2
4 3 2 2008 1
5 3 2 2002 1
6 1 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 1
5 3 2 2002 1
6 2 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 1
5 3 2 2002 1
6 2 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 2
5 3 2 . 2
6 2 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 3
2 1 1 . 3
3 . 1 2007 3
4 3 2 2008 2
5 3 2 . 2
6 2 2 2005 1
Exemplificando o processo de
supressão
ID RAÇA SEXO ANO_NASC fk
1 1 1 2007 4
2 1 1 . 4
3 . 1 2007 4
4 3 2 2008 2
5 . . . 6
6 2 2 2005 2
fk Freq Perc (%)
Freq
cumulativa
Perc
cumulativo
1 11.087 1,44 11.087 1,44
2 8.672 1,13 19.759 2,56
3 8.396 1,09 28.155 3,65
4 7.409 0,96 35.564 4,61
5 7.114 0,92 42.678 5,54
6 7.332 0,95 50.010 6,49
7 6.919 0,9 56.929 7,39
8 6.743 0,87 63.672 8,26
9 6.631 0,86 70.303 9,12
10 6.472 0,84 76.775 9,96
Original
fk Freq Perc (%)
Freq
cumulativa
Perc
cumulativo
1 0 0 0 0
2 0 0 0 0
3 4.053 0,53 4.053 0,53
4 6.016 0,78 10.069 1,31
5 7.593 0,99 17.662 2,29
6 8.210 1,07 25.872 3,36
7 8.284 1,07 34.156 4,43
8 7.909 1,03 42.065 5,46
9 7.896 1,02 49.961 6,48
10 7.501 0,97 57.462 7,46
Suprimido
Resultado da supressão
Total: 770.663
Resultado da supressão
Total: 770.663
19.759
14.320
8.735
867 632 435 321 268 257 15 5 0
0
0.5
1
1.5
2
2.5
3
Percentual
cumulativo
fk
1
e
2
(%)
TP_SEXO Tot orig SUP (n) SUP(%) Orig (%)
Prop
inicial
Prop
final
Diff Diff (%)
. . . . . . .
1 390.033 3.237 44,93 0,83 50,61 50,66 0,05 0,11
2 380.630 3.967 55,07 1,04 49,39 49,34 -0,05 -0,11
TP_COR_RACA Tot orig SUP (n) SUP(%) Orig (%)
Prop
inicial
Prop
final
Diff Diff (%)
. 195.705 . . 25,39 26,26 0,87 3,42
1 215.548 2.408 35,95 1,12 27,97 27,66 -0,31 -1,12
2 25.365 1.351 20,17 5,33 3,29 3,12 -0,18 -5,33
3 327.845 2.593 38,71 0,79 42,54 42,20 -0,34 -0,79
4 2.917 156 2,33 5,35 0,38 0,36 -0,02 -5,35
5 3.283 191 2,85 5,82 0,43 0,40 -0,02 -5,82
TP_DISTORCAO Tot orig SUP (n) SUP(%) Orig (%)
Prop
inicial
Prop
final
Diff Diff (%)
. . . . . . .
0 609.137 26 5,09 0,00 79,04 79,09 0,05 0,06
1 161.526 485 94,91 0,30 20,96 20,91 -0,05 -0,23
TP_LOCALIZACAO Tot orig SUP (n) SUP(%) Orig (%)
Prop
inicial
Prop
final
Diff Diff (%)
. . . . . . .
1 675.657 36 16,29 0,01 87,67 87,69 0,02 0,02
2 95.006 185 83,71 0,19 12,33 12,31 -0,02 -0,17
Efeitos das supressões nos dados
Disponibilização dos dados
• Sala segura
• Microdados
Obrigado!

Mais conteúdo relacionado

Semelhante a Construção da base longitudinal do Censo da Educação Básica DEED/INEP (2007-2016

Prova brasil-lingua-port-prof
Prova brasil-lingua-port-profProva brasil-lingua-port-prof
Prova brasil-lingua-port-profCaxambu DIRE
 
Reunião saresp 2012 prefeitura e sesi
Reunião saresp 2012 prefeitura e sesiReunião saresp 2012 prefeitura e sesi
Reunião saresp 2012 prefeitura e sesidiretoriabraganca
 
Tutoria l saerjinho mapa de resultados e banco de ítens nterj18 itaocara
Tutoria l saerjinho   mapa de resultados e banco de ítens nterj18 itaocaraTutoria l saerjinho   mapa de resultados e banco de ítens nterj18 itaocara
Tutoria l saerjinho mapa de resultados e banco de ítens nterj18 itaocaraflaviacrm
 
Implantação do SEI na Universidade de Brasília
Implantação do SEI na Universidade de BrasíliaImplantação do SEI na Universidade de Brasília
Implantação do SEI na Universidade de BrasíliaColaborativismo
 
prova-brasil-lingua-port-Prof.pdf
prova-brasil-lingua-port-Prof.pdfprova-brasil-lingua-port-Prof.pdf
prova-brasil-lingua-port-Prof.pdfCaroline Assis
 
Tutorial de utilização sara professor v2 (1)
Tutorial de utilização sara   professor v2 (1)Tutorial de utilização sara   professor v2 (1)
Tutorial de utilização sara professor v2 (1)Leila Schimith
 
Ppc licenciatura fisica cavgconsup ref mem 94
Ppc licenciatura fisica  cavgconsup ref mem 94Ppc licenciatura fisica  cavgconsup ref mem 94
Ppc licenciatura fisica cavgconsup ref mem 94Vitor Dias
 
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdf
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdfCADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdf
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdfOSIELDEOLIVEIRAANDRA
 
Saresp 2013 relatório pedagógico matemática
Saresp 2013 relatório pedagógico matemáticaSaresp 2013 relatório pedagógico matemática
Saresp 2013 relatório pedagógico matemáticaKatia - uniesp alves
 
Evasão na Educação a Distância
Evasão na Educação a DistânciaEvasão na Educação a Distância
Evasão na Educação a DistânciaLuciano Sathler
 
Seminário Aprova Brasil - Bahia 1
Seminário Aprova Brasil - Bahia 1Seminário Aprova Brasil - Bahia 1
Seminário Aprova Brasil - Bahia 1Editora Moderna
 
Cartilhas procedimentos informatica
Cartilhas procedimentos informaticaCartilhas procedimentos informatica
Cartilhas procedimentos informaticaTerc Cre
 
Apresentação Aprova Brasil - 2010
Apresentação Aprova Brasil - 2010Apresentação Aprova Brasil - 2010
Apresentação Aprova Brasil - 2010Editora Moderna
 
1º formação avalia reme 2015 definitiva
 1º formação avalia reme 2015   definitiva 1º formação avalia reme 2015   definitiva
1º formação avalia reme 2015 definitivaLuciano de Brito
 

Semelhante a Construção da base longitudinal do Censo da Educação Básica DEED/INEP (2007-2016 (20)

Prova brasil-lingua-port-prof
Prova brasil-lingua-port-profProva brasil-lingua-port-prof
Prova brasil-lingua-port-prof
 
Reunião saresp 2012 prefeitura e sesi
Reunião saresp 2012 prefeitura e sesiReunião saresp 2012 prefeitura e sesi
Reunião saresp 2012 prefeitura e sesi
 
Tutoria l saerjinho mapa de resultados e banco de ítens nterj18 itaocara
Tutoria l saerjinho   mapa de resultados e banco de ítens nterj18 itaocaraTutoria l saerjinho   mapa de resultados e banco de ítens nterj18 itaocara
Tutoria l saerjinho mapa de resultados e banco de ítens nterj18 itaocara
 
Manual de aplicação do saresp 2012
Manual de aplicação do saresp 2012Manual de aplicação do saresp 2012
Manual de aplicação do saresp 2012
 
Implantação do SEI na Universidade de Brasília
Implantação do SEI na Universidade de BrasíliaImplantação do SEI na Universidade de Brasília
Implantação do SEI na Universidade de Brasília
 
Aula 05 pesquisa_quantitativa_23_03
Aula 05 pesquisa_quantitativa_23_03Aula 05 pesquisa_quantitativa_23_03
Aula 05 pesquisa_quantitativa_23_03
 
prova-brasil-lingua-port-Prof.pdf
prova-brasil-lingua-port-Prof.pdfprova-brasil-lingua-port-Prof.pdf
prova-brasil-lingua-port-Prof.pdf
 
Tutorial de utilização sara professor v2 (1)
Tutorial de utilização sara   professor v2 (1)Tutorial de utilização sara   professor v2 (1)
Tutorial de utilização sara professor v2 (1)
 
Ppc licenciatura fisica cavgconsup ref mem 94
Ppc licenciatura fisica  cavgconsup ref mem 94Ppc licenciatura fisica  cavgconsup ref mem 94
Ppc licenciatura fisica cavgconsup ref mem 94
 
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdf
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdfCADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdf
CADERNO DO PROFESSOR - COLETÂNEA ENEM (1).pdf
 
SARESP 2022 LIVE.pdf
SARESP 2022 LIVE.pdfSARESP 2022 LIVE.pdf
SARESP 2022 LIVE.pdf
 
Dif 03 05 2012
Dif 03 05 2012Dif 03 05 2012
Dif 03 05 2012
 
Saresp 2013 relatório pedagógico matemática
Saresp 2013 relatório pedagógico matemáticaSaresp 2013 relatório pedagógico matemática
Saresp 2013 relatório pedagógico matemática
 
Evasão na Educação a Distância
Evasão na Educação a DistânciaEvasão na Educação a Distância
Evasão na Educação a Distância
 
Seminário Aprova Brasil - Bahia 1
Seminário Aprova Brasil - Bahia 1Seminário Aprova Brasil - Bahia 1
Seminário Aprova Brasil - Bahia 1
 
Cartilhas procedimentos informatica
Cartilhas procedimentos informaticaCartilhas procedimentos informatica
Cartilhas procedimentos informatica
 
Apresentação Aprova Brasil - 2010
Apresentação Aprova Brasil - 2010Apresentação Aprova Brasil - 2010
Apresentação Aprova Brasil - 2010
 
Enangrad 2014 inep
Enangrad 2014 inepEnangrad 2014 inep
Enangrad 2014 inep
 
1º formação avalia reme 2015 definitiva
 1º formação avalia reme 2015   definitiva 1º formação avalia reme 2015   definitiva
1º formação avalia reme 2015 definitiva
 
Estatistica.pdf
Estatistica.pdfEstatistica.pdf
Estatistica.pdf
 

Último

PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMHELENO FAVACHO
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...azulassessoria9
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdfLeloIurk1
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorEdvanirCosta
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelGilber Rubim Rangel
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médiorosenilrucks
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Ilda Bicacro
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?AnabelaGuerreiro7
 
Ficha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFicha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFtimaMoreira35
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Ilda Bicacro
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamentalAntônia marta Silvestre da Silva
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESEduardaReis50
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...IsabelPereira2010
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfWagnerCamposCEA
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividadeMary Alvarenga
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfHELENO FAVACHO
 

Último (20)

PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
 
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
421243121-Apostila-Ensino-Religioso-Do-1-ao-5-ano.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de Professor
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim Rangel
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?
 
Ficha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFicha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdf
 
CINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULACINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULA
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividade
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 

Construção da base longitudinal do Censo da Educação Básica DEED/INEP (2007-2016

  • 1. Construção da base de dados longitudinal do Censo da Educação Básica DEED/INEP Brasília-DF | Junho 2017
  • 2. Sumário Introdução 1) Tratamentos: • Padronização das variáveis • Processo de deduplicação • Imputação 2) Produtos finais: • Estrutura da base final (sala segura) • Risco de identificação individual • Estrutura dos microdados
  • 3. Situação final Matrícula (última quarta-feira de maio) Admissões Transferências Óbitos Ano t Introdução: a dinâmica do Censo Escolar Mais informações: http://download.inep.gov.br/educacao_basica/censo_escolar/caderno_de_instrucoes/caderno_de_instrucoes_censo_escolar_2017.pdf http://download.inep.gov.br/educacao_basica/educacenso/situacao_aluno/documentos/2017/cartilha_situacao_do_aluno.pdf
  • 4. Tratamentos: padronização das variáveis O primeiro passo para a construção da base de dados longitudinal com as informações do período 2007-2016 foi a padronização das variáveis e categorias coletadas na primeira e segunda etapa do Censo Escolar. Isso permitiu a criação de bases contendo todas as informações do período: • TS_CENSO_BASICO_MATRICULA: com dados da matrícula inicial de 2007 a 2016. • TS_CENSO_BASICO_SITUACAO: com dados da situação final de 2007 a 2016.
  • 5. Com a mudança metodológica ocorrida em 2007, quando os dados do Censo Escolar passaram a ser coletados individualmente e não mais agregados por escola, o Inep passou a manter um cadastro de alunos e docentes com informações pessoais. Cada indivíduo vinculado ao Censo Escolar a partir de 2007 recebe um número identificação único que é mantido ao longo dos anos - e pode facilitar o preenchimento das edições subsequentes do Censo Escolar. Essa identificação única permite também o acompanhamento da trajetória dos alunos ao longo dos anos. Para isso é preciso garantir que cada aluno ou docente não possua mais de um cadastro na base. Problema: inexistência de registro civil único. Tratamentos: processo de deduplicação
  • 6. Tratamentos: processo de deduplicação O que é o processo de deduplicação? É um processo realizado na base de dados cadastrais de alunos e docentes que permite a identificação e tratamento de registros duplicados (dois ou mais registros referentes a um mesmo indivíduo).
  • 7. Tratamentos: processo de deduplicação Por que é necessário? Em um cadastro de pessoas ideal, todos os indivíduos devem preencher em algum campo o seu código de identificação único, que pode ser validado por uma base externa ou, minimamente, por algum dígito verificador. Isso permitiria que o sistema alertasse sobre a entrada de dados errôneos e também indicasse de forma precisa a pré-existência do cadastro na base – impedindo a duplicidade.
  • 8. Tratamentos: processo de deduplicação Por que é necessário? O Censo Escolar já coleta alguns campos que pode ser utilizados como identificador único, como o CPF, a nova certidão de nascimento, o NIS e a própria identificação única do EDUCACENSO - sendo alguns melhores que outros como identificadores. Entretanto, nem todos os alunos possuem esses documentos e, assim, esses campos não podem ser obrigatórios. Antes de cadastrar um aluno, o sistema EDUCACENSO obriga o usuário a realizar uma busca pelo aluno na base nacional. Caso esse aluno não seja encontrado, o cadastro é liberado.
  • 10. “Lembre-se de que os nomes não devem ser abreviados e que todas as possibilidades de pesquisa do nome do aluno devem ser esgotadas para solicitar um novo cadastro.” Tratamentos: processo de deduplicação Apesar dos alertas do manual: Um usuário pode preencher os campos sem o devido cuidado, fazendo com que o sistema libere o preenchimento do cadastro de um aluno que já consta na base de dados. É possível que o sistema barre a entrada desse novo cadastro, por exemplo, se um CPF pré-existente for inserido. Entretanto, se isso não ocorrer, um cadastro duplo será criado.
  • 11. Tratamentos: processo de deduplicação Como funciona? O processo de deduplicação é aplicado na base de cadastro ao menos uma vez por ano e vem sendo aperfeiçoado desde 2007. O processo consiste na busca de pares de registros cujas informações em vários campos apresentam grande similaridade. Exemplos de campos avaliados: Nome, nome dos pais, data de nascimento, município de nascimento, município de residência e campos de documentação.
  • 12. Tratamentos: processo de deduplicação Como funciona? Para avaliar a similaridade de dois nomes, são realizados os seguintes passos: 1) Testa-se a igualdade dos nomes após simplificação fonética (por função similar à “soundex”, voltada para a língua portuguesa); 2) Utiliza-se a distância “levenshtein” entre os dois nomes, que avalia o número de modificações - inserção, supressão ou substituição de uma letra - necessárias para transformar um nome em outro. Atualmente, verifica-se até mesmo a similaridade entre as etapas frequentadas ao longo dos anos pelo par de registros suspeito de ser do mesmo aluno.
  • 13. Tabela DEPARA Aluno removido Aluno mantido - - - - - - - - 120550100234 120550647030 - - 120621830125 124109593505 - - ... ... ... ... NU_ANO_CENSO (ano da informação) CO_PESSOA_FISICA (identificação única) ID_MATRICULA (código da matrícula) CO_ENTIDADE (código da escola) TP_ETAPA_ENSINO (código da etapa de ensino) TP_SITUACAO (situação final) 2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep. 2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov. 2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov. 2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov. 2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep. 2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban. 2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov. ... ... ... ... ... ... Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
  • 14. NU_ANO_CENSO (ano da informação) CO_PESSOA_FISICA (identificação única) ID_MATRICULA (código da matrícula) CO_ENTIDADE (código da escola) TP_ETAPA_ENSINO (código da etapa de ensino) TP_SITUACAO (situação final) 2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep. 2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov. 2007 120550100234 53106 43184782 25 - EM- 1ª Série Aprov. 2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov. 2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep. 2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban. 2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov. ... ... ... ... ... ... Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA Aluno removido Aluno mantido - - - - - - - - 120550100234 120550647030 - - 120621830125 124109593505 - - ... ... ... ...
  • 15. NU_ANO_CENSO (ano da informação) CO_PESSOA_FISICA (identificação única) ID_MATRICULA (código da matrícula) CO_ENTIDADE (código da escola) TP_ETAPA_ENSINO (código da etapa de ensino) TP_SITUACAO (situação final) 2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep. 2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov. 2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov. 2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov. 2007 120621830125 54166 43066313 41 - EF (9 anos) - 9º Ano Rep. 2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban. 2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov. ... ... ... ... ... ... Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Tabela DEPARA Aluno removido Aluno mantido - - - - - - - - 120550100234 120550647030 - - 120621830125 124109593505 - - ... ... ... ...
  • 16. Tabela DEPARA Aluno removido Aluno mantido - - - - - - - - 120550100234 120550647030 - - 120621830125 124109593505 - - ... ... ... ... NU_ANO_CENSO (ano da informação) CO_PESSOA_FISICA (identificação única) ID_MATRICULA (código da matrícula) CO_ENTIDADE (código da escola) TP_ETAPA_ENSINO (código da etapa de ensino) TP_SITUACAO (situação final) 2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep. 2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov. 2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov. 2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov. 2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep. 2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban. 2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov. ... ... ... ... ... ... Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO
  • 17. Esse processo impacta diretamente o acompanhamento da trajetória dos alunos: Tratamentos: processo de deduplicação O processo de deduplicação já processou quase 20 milhões de correções de 2007 a 2016 - como este é um tratamento recorrente, os microdados não refletem essas mudanças. CO_PESSOA_FISICA Nome 123 thiago martins CO_PESSOA_FISICA Nome 952 tiago martines 2007 2008 CO_PESSOA_FISICA Nome 123 thiago martins 952 tiago martines
  • 18. Múltiplas matrículas: 1º Modalidade (regular > especial > EJA) 2º Etapas seriadas (1 ano do EF - 4ª série EM) 3º Situação (Aprov.> Rep. > Aban.>SIR>Fal.) 4º Etapa mais elevada 5º Primeiro cadastro NU_ANO_CENSO (ano da informação) CO_PESSOA_FISICA (identificação única) ID_MATRICULA (código da matrícula) CO_ENTIDADE (código da escola) TP_ETAPA_ENSINO (código da etapa de ensino) TP_SITUACAO (situação final) 2007 120550133355 53104 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120550133355 53105 43184782 27 - EM- 3ª Série Rep. 2007 120621830975 53108 43184782 39 - Educ. Prof. Conc. Aprov. 2007 120621830975 53377 43111467 25 - EM- 1ª Série Aprov. 2007 120550647030 53106 43184782 25 - EM- 1ª Série Aprov. 2007 120574514707 53107 43184782 26 - EM- 2ª Série Aprov. 2007 124109593505 54166 43066313 41 - EF (9 anos) - 9º Ano Rep. 2007 116400753213 50989 43180736 41 - EF (9 anos) - 9º Ano Aban. 2007 121504282700 51941 43025501 41 - EF (9 anos) - 9º Ano Aprov. ... ... ... ... ... ... Variáveis utilizadas na TS_CENSO_BASICO_SITUACAO Menos de 1% dos alunos possui mais de uma matrícula em um mesmo ano.
  • 19. Tratamentos: imputação Após esses procedimentos, as trajetórias dos alunos podem ser adequadamente avaliadas por meio da identificação única do Censo (variável CO_PESSOA_FISICA). As análises iniciais dessas trajetórias apontaram a necessidade de tratamentos adicionais para alguns alunos que apresentaram ausências/“saltos” inconsistentes com a sua evolução nas etapas de ensino. Esses dados ausentes da trajetória de alunos foram submetidos a um procedimento de imputação denominado “hot deck”1,2, que busca preservar a distribuição original e a coerência dos dados. De forma resumida, as informações ausentes de um aluno são substituídas por informações válidas de outros alunos que possuem características similares a esse. ¹ LITTLE, Roderick JA; RUBIN, Donald B. Statistical analysis with missing data. John Wiley & Sons, 2014. 2 BRICK, JM; KALTON, G. Handling missing data in survey research. Stat Meth Med Res. 1996; 5:215–238.
  • 20. Alunos com registros inconsistentes Total de casos identificados: 3.325.558 Processo de imputação via “hot deck” • Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de retorno e mesma etapa e situação de rendimento do ano anterior à ausência • Casos imputados: 3.100.854 (93,2%) Tratamentos: imputação CO_PESSOA_FISICA 2008 2009 2010 2011 2012 116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) - 2ª Série EM (aprov.) 3ª Série EM (aprov.) 121504282700 9º Ano EF (rep.) - - 2ª Série EM (aprov.) 3ª Série EM (aprov.) 122284239390 1º Ano EF (aprov.) - - - 4º Ano EF (aprov.) ... ... ... ... ... ... Etapa de ensino segundo ano
  • 21. Alunos com registros inconsistentes Total de casos identificados: 3.325.558 Processo de imputação via “hot deck” • Critérios de elegibilidade: mesma escola, modalidade e etapa no ano de retorno e mesma etapa e situação de rendimento do ano anterior à ausência • Casos imputados: 3.100.854 (93,2%) Tratamentos: imputação CO_PESSOA_FISICA 2008 2009 2010 2011 2012 116400753213 8º Ano EF (aprov.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.) 121504282700 9º Ano EF (rep.) 9º Ano EF (aprov.) 1ª Série EM (aprov.) 2ª Série EM (aprov.) 3ª Série EM (aprov.) 122284239390 1º Ano EF (aprov.) 2º Ano EF (rep.) 2º Ano EF (aprov.) 3º Ano EF (aprov.) 4º Ano EF (aprov.) ... ... ... ... ... ... Etapa de ensino segundo ano
  • 22. Aluno novo em etapa seriada avançada (trajetória regular/irregular) Total de casos identificados: 2.775.364 Processo de imputação via “hot deck” • Critérios de elegibilidade: mesma escola, modalidade, etapa e grupo de idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção) no ano de entrada. • Casos imputados: 2.518.001 (90,7%) Tratamentos: imputação CO_PESSOA_FISICA 2008 2009 2010 2011 2012 120621831546 - - - 2ª Série EM 3ª Série EM 124109593505 - - 3º Ano EF 4º Ano EF 5º Ano EF ... ... ... ... ... ... Etapa de ensino segundo ano
  • 23. Aluno novo em etapa seriada avançada (trajetória regular/irregular) Total de casos identificados: 2.775.364 Processo de imputação via “hot deck” • Critérios de elegibilidade: mesma escola, modalidade e etapa e grupo de idade (sem distorção idade-série, 1 ano, 2 ou mais anos de distorção) no ano de entrada. • Casos imputados: 2.518.001 (90,7%) Tratamentos: imputação CO_PESSOA_FISICA 2008 2009 2010 2011 2012 120621831546 8º Ano EF 9º Ano EF 1ª Série EM 2ª Série EM 3ª Série EM 124109593505 1º Ano EF 2º Ano EF 3º Ano EF 4º Ano EF 5º Ano EF ... ... ... ... ... ... Etapa de ensino segundo ano
  • 24. Os dados de matrícula oriundos do processo de imputação representam 2,4% das matrículas da base final - 466.426.934 matrículas de 2007 a 2015. Tratamentos: imputação 0 10,000,000 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Número de matrículas Declarada Imputada
  • 25. Estrutura da base longitudinal (TS_FLUXO) Variáveis Descrição das variáveis Categorias NU_ANO_CENSO Ano do Censo CO_PESSOA_FISICA Código do aluno (ID_INEP) ID_MATRICULA Código da matrícula (1ª fase Censo Escolar) CO_ENTIDADE Código da escola (1ª fase Censo Escolar) CO_ENTIDADE_SIT Código da escola (2ª fase Censo Escolar) Variáveis de agregação/identificação
  • 26. Estrutura da base longitudinal (TS_FLUXO) Variáveis Descrição das variáveis Categorias DT_NASCIMENTO Data de nascimento (formato datetime SAS. ex: "20DEC1986:00:00:00") NU_IDADE Idade do aluno no ano de referência NU_IDADE_REFERENCIA Idade do aluno na data de referência CO_MUNICIPIO_NASC Código Município de nascimento TP_SEXO Sexo 1 - Masculino 2 - Feminino TP_COR_RACA Cor/raça 0 - Não declarada 1 - Branca 2 - Preta 3 - Parda 4 - Amarela 5 - Indígena IN_NECESSIDADE_ESPECIAL Aluno com deficiência, transtorno global do desenvolvimento ou altas habilidades/superdotação 0 - Não 1 - Sim Variáveis pessoais do aluno
  • 27. Estrutura da base longitudinal (TS_FLUXO) Variáveis Descrição das variáveis Categorias CO_UF Código da UF (1ª fase Censo Escolar) CO_MUNICIPIO Código do município da escola (1ª fase Censo Escolar) TP_DEPENDENCIA Dependência Administrativa (1ª fase Censo Escolar) 1 - Federal 2 - Estadual 3 - Municipal 4 - Privada TP_LOCALIZACAO Localização (1ª fase Censo Escolar) 1 - Urbana 2 - Rural CO_UF_SIT Código da UF (2ª fase Censo Escolar) CO_MUNICIPIO_SIT Código do município da escola (2ª fase Censo Escolar) TP_DEPENDENCIA_SIT Dependência Administrativa (2ª fase Censo Escolar) 1 - Federal 2 - Estadual 3 - Municipal 4 - Privada TP_LOCALIZACAO_SIT Localização (2ª fase Censo Escolar) 1 - Urbana 2 - Rural Variáveis da escola
  • 28. Estrutura da base longitudinal (TS_FLUXO) Variáveis Descrição das variáveis Categorias TP_MEDIACAO_DIDATICO_PEDAGO Tipo de mediação didático-pedagógica (1ª fase Censo Escolar) 1 - Presencial 2 - Semipresencial 3 - Educação a Distância - EAD IN_ESPECIAL_EXCLUSIVA Aluno de turma exclusiva de alunos com deficiência, transtorno global do desenvolvimento ou altas habilidades/superdotação (Classes Especiais) 0 - Não 1 - Sim IN_REGULAR Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14, 15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38. 0 - Não 1 - Sim IN_EJA Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a 65,67,69,70,71,73 ou 74. 0 - Não 1 - Sim IN_PROFISSIONALIZANTE Modo profissionalizante de ensino correspondente às turmas de cursos de formação inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a 30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74. 0 - Não 1 - Sim TP_ETAPA_ENSINO Etapa de ensino (1ª fase Censo Escolar) Variáveis da relação aluno/escola
  • 29. Estrutura da base longitudinal (TS_FLUXO) Variáveis da relação aluno/escola Variáveis Descrição das variáveis Categorias TP_MEDIACAO_DIDATICO_PEDAGO_SIT Tipo de mediação didático-pedagógica (2ª fase Censo Escolar) 1 - Presencial 2 - Semipresencial 3 - Educação a Distância - EAD IN_ESPECIAL_EXCLUSIVA_SIT Aluno de turma exclusiva de alunos com deficiência, transtorno global do desenvolvimento ou altas habilidades/superdotação (Classes Especiais) - 2ª fase Censo Escolar 0 - Não 1 - Sim IN_REGULAR_SIT Modo, maneira ou metodologia de ensino correspondente às turmas com etapas de escolarização consecutivas, Creche ao Ensino Médio. Etapas consideradas (nas antigas modalidades 1 ou 2): TP_ETAPA_ENSINO igual a 1,2,4,5,6,7,8,9,10,11,14, 15,16,17,18,19,20,21,41,25,26,27,28,29,30,31, 32,33,34,35,36,37 ou 38. 0 - Não 1 - Sim IN_EJA_SIT Modo, maneira ou metodologia de ensino correspondente às turmas destinadas a pessoas que não cursaram o ensino fundamental e/ou médio em idade própria. Etapas consideradas (nas antigas modalidades 2 ou 3): TP_ETAPA_ENSINO igual a 65,67,69,70,71,73 ou 74. 0 - Não 1 - Sim IN_PROFISSIONALIZANTE_SIT Modo profissionalizante de ensino correspondente às turmas de cursos de formação inicial e continuada ou de qualificação profissional (Cursos FIC) articulados à EJA ou concomitantes; ou de cursos técnicos de nível médio nas formas articulada (integrada ou concomitante) ou subsequente ao ensino médio e de normal/magistério. Etapas consideradas (nas antigas modalidades 1, 2 ou 3): TP_ETAPA_ENSINO igual a 30,31,32,33,34, 35,36,37,38,39,40,65,67,68,73 ou 74. 0 - Não 1 - Sim TP_ETAPA_ENSINO_SIT Etapa de ensino da (2ª fase Censo Escolar)
  • 30. Estrutura da base longitudinal (TS_FLUXO) Variáveis de rendimento e fluxo Variáveis Descrição das variáveis Categorias TP_SITUACAO Situação de rendimento ou movimento do aluno ao final do ano letivo 2 - Abandono 3 - Falecido 4 - Reprovado 5 - Aprovado 9 - Sir IN_CONCLUINTE Situação de conclusão (2ª fase Censo Escolar) 0 – Não concluinte 1 – Concluinte TP_NOVO Indica se o aluno é novo na base - alunos que retornaram ao sistema foram considerados como novos 0 - Aluno matriculado no ano anterior sem mudança de modalidade 1 - Aluno não matriculado no ano anterior (novo) 2 - Aluno matriculado no ano anterior com mudança de modalidade TP_FLUXO Fluxo escolar - transição entre ano atual (considerando a etapa do aluno na 2ª fase do Censo Escolar) e ano seguinte (considerando a 1ª fase do Censo Escolar) 1 – Promovido 2 – Repetente 3 – Evadido de escola 4 – Migração para a EJA 6 – Migração para o regular 7 – Falecido 9 – Não se aplica ID_MARCA Marcas de imputação Valores não nulos indicam que todas as variáveis referentes ao ano foram imputadas IN_DIVULGA Marca de divulgação 0 - Não 1 - Sim
  • 31. Uso e divulgação de dados estatísticos ... vs
  • 32. Tipos de variáveis quanto ao segredo estatístico • Variáveis-chave e quase identificadoras  Nome, CPF, sexo, idade... • Variáveis sensíveis  Salário, desempenho, religião... • Variáveis não-confidenciais  Acesso à internet, número de computadores...
  • 33. Risco de identificação individual • Fatores determinantes 1. Quanto menor o número de variáveis necessárias para individualização, maior o risco 2. Quanto maior o número de informações únicas/ incomuns em uma observação, maior o risco • Anonimidade-K  Número de repetições para as combinações das variáveis-chave  Tipicamente igual a 3
  • 34. Frequência de combinações únicas (fk) e risco individual (rk) ID SEXO RAÇA fk rk 1 1 1 2 0,5 2 1 1 2 0,5 3 1 2 1 1 4 2 3 3 0,33 5 2 3 3 0,33 6 2 . 3 0,33
  • 35. Métodos de anonimização • Determinísticos  Recodificação  Supressão local  Mascaramento  Micro-agregação • Probabilísticos  Randomização  Adição de ruído Dados categóricos Dados contínuos
  • 36. Utilidade dos dados e perda de informações • Necessidade de manutenção de estrutura e precisão  Diferença pequena ou nula em relação à informação original • Avaliação dos dados anonimizados  Seleção de indicadores  Comparação de estimativas, variâncias, intervalos de confiança
  • 37. Variáveis do fluxo vs microdados NU_ANO_CENSO CO_PESSOA_FISICA DT_NASCIMENTO NU_IDADE NU_IDADE_REFERENCIA CO_MUNICIPIO_NASC TP_SEXO TP_COR_RACA IN_NECESSIDADE_ES PECIAL ID_MATRICULA CO_UF CO_MUNICIPIO CO_ENTIDADE TP_DEPENDENCIA TP_LOCALIZACAO TP_MEDIACAO_DID ATICO_PEDAGO IN_ESPECIAL_EXCLUSIVA IN_REGULAR IN_EJA IN_PROFISSIONALIZANTE TP_ETAPA_ENSINO CO_UF_SIT CO_MUNICIPIO_SIT CO_ENTIDADE_SIT TP_DEPENDENCIA_SIT TP_LOCALIZACAO_SIT TP_MEDIACAO_DID ATICO_PEDAGO_SIT IN_ESPECIAL_EXCLU SIVA_SIT IN_REGULAR_SIT IN_EJA_SIT IN_PROFISSIONALIZA NTE_SIT TP_ETAPA_ENSINO_SIT TP_SITUACAO IN_CONCLUINTE TP_NOVO TP_FLUXO ID_MARCA IN_DIVULGA
  • 38. Variáveis do fluxo vs microdados NU_ANO_CENSO CO_PESSOA_FISICA DT_NASCIMENTO NU_IDADE NU_IDADE_REFERENCIA CO_MUNICIPIO_NASC TP_SEXO TP_COR_RACA IN_NECESSIDADE_ES PECIAL ID_MATRICULA CO_UF CO_MUNICIPIO CO_ENTIDADE TP_DEPENDENCIA TP_LOCALIZACAO TP_MEDIACAO_DID ATICO_PEDAGO IN_ESPECIAL_EXCLUSIVA IN_REGULAR IN_EJA IN_PROFISSIONALIZANTE TP_ETAPA_ENSINO CO_UF_SIT CO_MUNICIPIO_SIT CO_ENTIDADE_SIT TP_DEPENDENCIA_SIT TP_LOCALIZACAO_SIT TP_MEDIACAO_DID ATICO_PEDAGO_SIT IN_ESPECIAL_EXCLU SIVA_SIT IN_REGULAR_SIT IN_EJA_SIT IN_PROFISSIONALIZA NTE_SIT TP_ETAPA_ENSINO_SIT TP_SITUACAO IN_CONCLUINTE TP_NOVO TP_FLUXO ID_MARCA IN_DIVULGA ANO_NASCIMENTO TP_DISTORCAO TP_REDE
  • 39. Risco de identificação na base do fluxo escolar ID_ALUNO, CO_UF_SIT, CO_MUNICIPIO_SIT, ANO_NASCIMENTO, TP_DISTORCAO, TP_SEXO, TP_COR_RACA, TP_REDE, TP_LOCALIZACAO_SIT, TP_ETAPA_ENSINO_SIT, TP_SITUACAO, TP_FLUXO Variáveis utilizadas Variáveis-chave Variáveis sensíveis
  • 40. Processo de supressão na base do fluxo • Seleção de amostra (n = 770.663) • Critérios utilizados para alcançar anonimidade-k total (k=2)  Supressão iniciada pelas variáveis mais influentes (individualmente, com exceção de rede e etapa)  Combinação de duas variáveis  Combinação de três variáveis  Combinação de quatro variáveis  Supressão de rede e etapa (individualmente)
  • 41. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 1 2 1 1 2008 1 3 2 1 2007 1 4 3 2 2008 1 5 3 2 2002 1 6 1 2 2005 1
  • 42. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 2 2 1 1 2008 1 3 . 1 2007 2 4 3 2 2008 1 5 3 2 2002 1 6 1 2 2005 1
  • 43. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 2 2 1 1 2008 1 3 . 1 2007 2 4 3 2 2008 1 5 3 2 2002 1 6 1 2 2005 1
  • 44. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 2 2 1 1 2008 1 3 . 1 2007 2 4 3 2 2008 1 5 3 2 2002 1 6 1 2 2005 1
  • 45. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 3 2 1 1 . 3 3 . 1 2007 3 4 3 2 2008 1 5 3 2 2002 1 6 2 2 2005 1
  • 46. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 3 2 1 1 . 3 3 . 1 2007 3 4 3 2 2008 1 5 3 2 2002 1 6 2 2 2005 1
  • 47. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 3 2 1 1 . 3 3 . 1 2007 3 4 3 2 2008 2 5 3 2 . 2 6 2 2 2005 1
  • 48. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 3 2 1 1 . 3 3 . 1 2007 3 4 3 2 2008 2 5 3 2 . 2 6 2 2 2005 1
  • 49. Exemplificando o processo de supressão ID RAÇA SEXO ANO_NASC fk 1 1 1 2007 4 2 1 1 . 4 3 . 1 2007 4 4 3 2 2008 2 5 . . . 6 6 2 2 2005 2
  • 50. fk Freq Perc (%) Freq cumulativa Perc cumulativo 1 11.087 1,44 11.087 1,44 2 8.672 1,13 19.759 2,56 3 8.396 1,09 28.155 3,65 4 7.409 0,96 35.564 4,61 5 7.114 0,92 42.678 5,54 6 7.332 0,95 50.010 6,49 7 6.919 0,9 56.929 7,39 8 6.743 0,87 63.672 8,26 9 6.631 0,86 70.303 9,12 10 6.472 0,84 76.775 9,96 Original fk Freq Perc (%) Freq cumulativa Perc cumulativo 1 0 0 0 0 2 0 0 0 0 3 4.053 0,53 4.053 0,53 4 6.016 0,78 10.069 1,31 5 7.593 0,99 17.662 2,29 6 8.210 1,07 25.872 3,36 7 8.284 1,07 34.156 4,43 8 7.909 1,03 42.065 5,46 9 7.896 1,02 49.961 6,48 10 7.501 0,97 57.462 7,46 Suprimido Resultado da supressão Total: 770.663
  • 51. Resultado da supressão Total: 770.663 19.759 14.320 8.735 867 632 435 321 268 257 15 5 0 0 0.5 1 1.5 2 2.5 3 Percentual cumulativo fk 1 e 2 (%)
  • 52. TP_SEXO Tot orig SUP (n) SUP(%) Orig (%) Prop inicial Prop final Diff Diff (%) . . . . . . . 1 390.033 3.237 44,93 0,83 50,61 50,66 0,05 0,11 2 380.630 3.967 55,07 1,04 49,39 49,34 -0,05 -0,11 TP_COR_RACA Tot orig SUP (n) SUP(%) Orig (%) Prop inicial Prop final Diff Diff (%) . 195.705 . . 25,39 26,26 0,87 3,42 1 215.548 2.408 35,95 1,12 27,97 27,66 -0,31 -1,12 2 25.365 1.351 20,17 5,33 3,29 3,12 -0,18 -5,33 3 327.845 2.593 38,71 0,79 42,54 42,20 -0,34 -0,79 4 2.917 156 2,33 5,35 0,38 0,36 -0,02 -5,35 5 3.283 191 2,85 5,82 0,43 0,40 -0,02 -5,82 TP_DISTORCAO Tot orig SUP (n) SUP(%) Orig (%) Prop inicial Prop final Diff Diff (%) . . . . . . . 0 609.137 26 5,09 0,00 79,04 79,09 0,05 0,06 1 161.526 485 94,91 0,30 20,96 20,91 -0,05 -0,23 TP_LOCALIZACAO Tot orig SUP (n) SUP(%) Orig (%) Prop inicial Prop final Diff Diff (%) . . . . . . . 1 675.657 36 16,29 0,01 87,67 87,69 0,02 0,02 2 95.006 185 83,71 0,19 12,33 12,31 -0,02 -0,17 Efeitos das supressões nos dados
  • 53. Disponibilização dos dados • Sala segura • Microdados