SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
CapítuloCapítulo Criação de Bancos de Dados
Angelo Giuseppe Roncalli da Costa Oliveira
INTRODUÇÃO
As pesquisas epidemiológicas, assim como todas as
pesquisas de caráter quantitativo, pressupõem uma
seqüência de etapas que vão do planejamento da
pesquisa até a elaboração do relatório final, passando
pela coleta e processamento dos dados. Uma atribuição
precípua da estatística aplicada aos estudos
epidemiológicos é a consolidação de dados obtidos de
amostras ou populações de modo que estes possam ser
lidos e interpretados em seu conjunto.
Desse modo, a etapa subseqüente à coleta de dados é a
construção de um banco em que tais dados sejam
organizados de forma a facilitar as tarefas de análise.
Este capítulo abordará as estratégias necessárias para a
construção de bancos de dados em pesquisas
epidemiológicas, dando especial destaque à tabulação
eletrônica a partir dos principais programas de
gerenciamento de dados.
ENTENDENDO AS VARIÁVEIS
As pesquisas epidemiológicas envolvem o estudo
de características que não são distribuídas de modo
uniforme na população. O conceito de “variável”
refere-se justamente a estas características
populacionais não uniformes, que se propõe descrever
e analisar no âmbito das pesquisas epidemiológicas.
Grosso modo, “variável” pode ser definida como a
expressão numérica de qualquer evento da natureza. É
tudo aquilo que se deseja estudar e que pode ser
traduzido em números, seja através de contagem,
mensuração ou classificação. As variáveis, portanto,
estão associadas a eventos contábeis, mensuráveis ou
classificáveis; e, considerando a natureza complexa dos
objetos de estudo da epidemiologia, possuem
limitações diretamente proporcionais à subjetividade
do evento. Ao contarmos uma certa quantidade de
eventos ou medirmos alguns deles, geramos variáveis
ditas quantitativas; ao classificamos os eventos obtemos
variáveis do tipo categóricas. Peso, altura, CPO, glicemia
são exemplos de variáveis quantitativas e sexo, etnia,
grau de instrução e moradia são exemplos de variáveis
categóricas (Berquó, 1981).
PRINCÍPIOS GERAIS PARA A
CRIAÇÃO DE BANCOS DE
DADOS
Com os recursos tecnológicos atualmente
disponíveis, não se admite mais que os dados
envolvidos em pesquisas epidemiológicas sejam
tabulados manualmente. Além de demorada,
desgastante e limitada, a tabulação manual submete o
estudo a um risco elevado de erros. Com o advento e a
disseminação da informática, a tabulação eletrônica
tornou a análise de dados epidemiológicos muito mais
rápida, eficiente e segura. Com isso, a descrição e a
análise dependem, fundamentalmente, de uma
cuidadosa elaboração do banco de dados da pesquisa.
A correspondência entre o banco de dados e o
instrumento da coleta de dados na pesquisa facilita a
digitação e, posteriormente, a análise dos dados.
Outras recomendações importantes são:
1. Estabelecimento de códigos para as variáveis
categóricas.
A codificação das variáveis pode ser efetuada
durante a construção do instrumento de coleta de
dados. Caso isso não tenha sido feito, a codificação
poderá ser realizada por ocasião da entrada dos dados
em uma base eletrônica. Os códigos devem ser,
preferencialmente, numéricos e com um único dígito, a
não ser, obviamente, quando se trabalha com variáveis
quantitativas que demandam outras escalas de medida.
Podem ser usadas letras como códigos, quando o
número de categorias passa de 10, ou quando é
necessário estabelecer uma diferenciação entre as
categorias, como é o caso dos registros de condição
dentária, em que os códigos numéricos dizem respeito
aos dentes permanentes e as letras correspondem aos
dentes decíduos. A utilização de códigos numéricos
facilita bastante a digitação, pelo fato de permitirem
Criação de Bancos de Dados 399
efetuar a digitação exclusivamente através do teclado
numérico do computador, uma estratégia muito
utilizada por digitadores profissionais.
2. Criação de códigos de exclusão.
Embora alguns programas de bancos de dados
ignorem as células deixadas em branco na análise,
recomenda-se evitar deixar a variável sem
preenchimento, para evitar confusão. A maioria dos
programas permite que um determinado código, por
exemplo o algarismo 9, seja interpretado como
informação não disponível (missing), o que facilita
bastante a análise.
3. Utilização de dados quantitativos brutos.
Na medida do possível, o dado deve ser captado em
sua expressão numérica primária, evitando categorias
estabelecidas a priori. Esta recomendação é útil tanto na
construção do instrumento de coleta de dados, como na
criação do banco informatizado. Ao se avaliar a renda
mensal familiar, por exemplo, é mais prático captar a
renda em reais para, somente durante a análise
estabelecer as faixas de renda ou transformação em
outra unidade, como salários mínimos. Ao se obter a
informação já incluída em faixas pré-estabelecidas,
perde-se a informação original, além de haver o risco
de uma distribuição heterogênea da variável entre os
elementos amostrais. A classificação de faixas de renda
(por exemplo, menos de um salário mínimo, de um a
dois e dois ou mais salários mínimos) pode ser muito
útil para pesquisas envolvendo população de baixa
renda, mas teria pouca utilidade em bairros de classe
média alta. Outro exemplo diz respeito à escolaridade,
que pode ser expressa em número de anos de estudo,
evitando a obtenção da informação por graus (ensino
fundamental, médio e superior).
4. Critérios de validação de entrada.
Os programas de bancos de dados permitem a
criação de critérios de validação de entrada de dados.
Isso é particularmente importante quando diferentes
digitadores contribuem para a informatização dos
dados e diminui consideravelmente os erros de
digitação.
5. Verificação de erros de digitação.
O cumprimento da recomendação anterior reduz o
risco de erros de digitação. Mesmo assim, podem
ocorrer erros quando se digitam dados válidos porém
não correspondentes ao registro que consta na ficha de
coleta. Em alguns casos, recomenda-se a digitação
dupla ou mesmo tripla para minimizar o risco de erros.
Após o banco pronto, ainda deve ser realizada uma
avaliação, por amostragem, do percentual de erros de
digitação. A simples verificação da distribuição de
freqüência das variáveis em estudo possibilita a
identificação de valores aberrantes, possivelmente fruto
de erros de digitação ou anotação, permitindo assim
sua correção.
6. Criação de página de códigos.
Em função das recomendações anteriores, é
importante criar uma tabela em que sejam explicitadas
as informações relativas ao banco de dados,
particularmente os códigos empregados. Em alguns
programas, como o SPSS ou o Microsoft Excel, essa
informação faz parte da estrutura do banco. Quando
for necessário disponibilizar o banco de dados em uma
linguagem de uso comum para diferentes programas
de informática, como os arquivos de extensão DBF, é
necessário apresentar em anexo a tabela de códigos
correspondente, como exemplificado no Quadro 1.
Criando um banco de dados
Há uma quantidade considerável de programas de
bancos de dados. Alguns são mais sofisticados e
exigem conhecimentos de programação, sendo mais
aplicáveis às áreas comercial e financeira.
Especificamente para pesquisas epidemiológicas,
existem bons programas que permitem a construção do
banco de dados e sua posterior análise. A despeito de
cada um deles possuir suas especificidades, a lógica de
criação dos bancos de dados é muito semelhante entre
eles, bastando, na maioria dos casos, seguir as
recomendações anteriores. Descreveremos aqui as
informações mais importantes para a criação de bancos
em três dos mais populares programas disponíveis, o
Microsoft Excel®, o SPSS (Statistical Package for Social
Science) e o Epi-Info.
Utilizando o Microsoft Excel®
O Microsoft Excel® é uma conhecida planilha eletrônica
integrada ao pacote de aplicativos de “escritório” mais
utilizado em computadores pessoais no Brasil, o
Microsoft Office. Na verdade, o Excel não é um
programa de banco de dados e, em princípio poderia
não ser o aplicativo mais adequado para trabalhar com
dados epidemiológicos. Contudo, a facilidade de seu
uso, sua versatilidade e popularidade permitem a
construção de bancos de dados relativamente simples,
quando se trabalha com dados numéricos e / ou
categóricos. Para questionários mais complexos, com
campos descritivos, recomenda-se utilizar programas
específicos para questionários, como o Epi-Info ou, caso
se tenha em mente alguma análise de caráter
qualitativo, há outras opções como o Evoc ou Alcest.
Mas, para estudos envolvendo o cálculo de medidas de
tendência central e de dispersão, bem como freqüências
absolutas e percentuais, o Excel é uma boa opção,
embora não contemple recursos para análises de
inferência.
Criação de Bancos de Dados 400
QUADRO 4.1 Descrição das variáveis constantes em um banco de dados
Variável Descrição Tipo Categorias
UF Unidade da Federação Categórica Nominal Código do IBGE
FLUOR Presença de Água Fluoretada Categórica Nominal 1- Fluoretado
2- Não-Fluoretado
9- Sem Informação
ESCOLA Tipo de Escola Categórica Nominal 1- Pública
2- Privada
9- Sem Informação
IDADE Idade em anos Quantitativa Discreta Dado numérico
SEXO Sexo Categórica Nominal 1- Masculino
2- Feminino
9- Sem Informação
DENTAL16 Código CPO para dente 16 Categórica Nominal 0- Hígido
1- Cariado
2- Restaurado com cárie
3- Restaurado sem cárie
4- Extraído por cárie
5- Extraído por outras razões
9- Não examinado
Fonte: Exemplo retirado do banco de dados do Projeto SBBrasil 2003 (Brasil, 2004).
Outra vantagem do Excel é que o formato XLS de
seus arquivos é passível de leitura direta por boa parte
dos programas estatísticos, como o SPSS, o S+ ou o
Statistica®. Além disso, pode exportar para outros
formatos, como o Dbase (DBF - Data Base File) um
padrão quase universal de bancos de dados. Ademais,
em geral, seus arquivos não são muito grandes (a não
ser quando se exagera nas formatações de cores e
linhas), o que facilita a troca de informações em meio
virtual. O Excel tem uma capacidade razoável de
armazenamento de dados, e serve bem a muitas
finalidades das pesquisas epidemiológicas. O limite de
linhas em uma planilha é de 65.536; o que significa que
pesquisas com um número de unidades amostrais
superior a este limite terão que recorrer a outros
programas. Sua capacidade de armazenamento para
variáveis é bastante considerável, permitindo o uso de
até 256 colunas.
ETAPAS PARA A CONSTRUÇÃO DE BANCOS
NO EXCEL
Considera-se que o leitor possua conhecimentos
básicos sobre o funcionamento de planilhas
eletrônicas(*), como as operações comuns aos
programas do pacote Microsoft Office, como
salvamento de arquivos, impressão, formatação, entre
outras. Considerações mais complexas, relativas à
(*) Foi utilizada, para os exemplos deste capítulo, a versão 2002 para
Windows XP. Versões anteriores para Windows 98 ou da família
do Office 2000 podem apresentar ligeiras diferenças na
apresentação visual e nas funções.
análise de dados e à construção de tabelas e gráficos,
não serão tratadas neste capítulo.
1. Definição das variáveis
Em primeiro lugar, devem ser definidas as variáveis
que constituirão o banco de dados, com suas
respectivas codificações, conforme indicado
anteriormente. Essas variáveis preencherão toda a
primeira linha da planilha, sendo cada linha
subseqüente reservada para o preenchimento das
informações relativas a cada elemento da amostra.
É importante observar que, embora o programa
aceite nomes com tamanho ilimitado, recomenda-se
algumas precauções ao nomear as variáveis. Entre
essas precauções, sugere-se não exceder oito caracteres,
bem como evitar o uso de cedilha, acentos, traços (a
não ser o traço subscrito ou “underline”) e espaços. Isso
se justifica para facilitar o processo de exportação do
arquivo para outras plataformas, as quais solicitam
essas restrições. O SPSS, por exemplo, apenas aceita os
primeiros oitos caracteres registrados para os nomes de
variáveis, e o Epi-Info aceita até 10 caracteres. Do
mesmo modo, ao se utilizar o Epi-Info em sua versão
6.04 em MS-DOS†, somente caracteres padrão serão
aceitos. Além disso, ao serem criadas variáveis com
nomes de extensão reduzida, o banco fica menor e mais
fácil de ser utilizado.
(†) O MS-DOS (Microsoft Disk Operating System), foi um dos primeiros
Sistemas Operacionais a serem utilizados em computadores pessoais.
Tinha uma interface ainda pouco amigável e hoje está praticamente
em desuso com o advento do Sistema Windows.
FIG. 4.1. Exemplo de banco de dados no Excel.
O banco de dados apresentado como exemplo, a
seguir, é o produto de um formato de pesquisa muito
comum em Epidemiologia em Saúde Bucal, o
levantamento epidemiológico. As variáveis que
constam no arquivo advêm da ficha básica proposta
pela OMS e adaptada recentemente para o Projeto
SBBrasil 2003 (vide o capítulo 3 da primeira parte).
Observe que, na planilha, foram incluídas as
variáveis na primeira linha com o cuidado de criar
uma variável IDENT (Identificação), onde os
elementos amostrais são devidamente numerados.
2. Validando a entrada de dados
Após criar a estrutura do banco de dados e antes
de começar a digitação, é importante acrescentar
alguns aperfeiçoamentos disponibilizados pelas
ferramentas do Excel. Em primeiro lugar, como em
qualquer banco de dados, podem ser criadas regras
de validação para a entrada dos dados, o que agiliza
o processo e evita erros de digitação.
Para criar estas regras, marca-se a coluna da
variável, clica-se em “Dados” e escolhe-se a opção
“Validação”. Em seguida abre-se uma caixa de
diálogo como a ilustrada a seguir, que exemplifica a
validação da variável “Tipo de Escola”. Na primeira
interface de diálogo que se abre (usualmente
denominada “orelha”) o item “Configurações”
permite que se informe que códigos podem ser
aceitos para aquela variável. Há diversas opções para
se realizar esta operação, como escolher uma lista,
estabelecer um intervalo numérico, entre outras. Para
o caso em que se trabalha com listas de códigos,
deve-se colocar esta lista de códigos em outro ponto
da planilha e informar, na caixa de diálogo, onde se
encontra essa informação.
FIG. 4.2 Caixa de diálogo das funções para validação da entrada de dados no Excel.
Criação de Bancos de Dados 402
FIG. 4.3 Aspecto da planilha após a validação, quando a célula é selecionada.
Na orelha “Mensagem de entrada” pode-se optar
pela visualização de uma mensagem de ajuda
informando os códigos válidos, que aparece quando o
cursor passa pela célula. Este recurso é particularmente
útil em bancos um pouco mais complexos e que serão
trabalhados por digitadores externos.
Finalmente, a orelha “Alerta de erro” permite que se
customize a mensagem que surgirá quando da
tentativa de entrada de um dado que não seja válido
(veja nas Figura 4.2 e 4.3).
3. Criando painéis e agilizando o processo de
digitação
A seguir, a “criação de painéis” é outro importante
recurso de formatação da planilha, que facilita a
digitação. Como a primeira linha da planilha
corresponde ao nome das variáveis, é interessante que
esta primeira linha esteja sempre visível durante a
navegação, o que geralmente não acontece quando se
tem um banco de dados com mais de 30 elementos
amostrais. O mesmo vale para a primeira coluna, a qual
é sempre destinada para os códigos de identificação.
Um recurso para manter linhas e colunas sempre
visíveis é a criação e o congelamento de painéis.
Para esta finalidade, seleciona-se a célula que limita
a linha e coluna (em geral a B2) e, no menu “Janela”,
escolhe-se a opção “Congelar painéis”. Como resposta,
o programa cria uma demarcação abaixo da primeira
linha e à direita da primeira coluna (veja Figura 4).
4. Utilização da ferramenta “Formulários”
Outra opção que facilita a digitação no Excel é
oferecida pelo recurso de “Formulários”. Clicando em
“Dados” e em seguida em “Formulários”, aparece uma
janela como ilustrada na Figura 5. Todas as células da
primeira linha são identificadas como variáveis e os
dados podem ser digitados como num programa de
banco de dados. Dentre as desvantagens desta opção,
está o fato de que ela só permite trabalhar com no
máximo 25 variáveis. Para bancos com maior número
de variáveis, os dados deverão ser digitados
diretamente na planilha. Além disso, ao se utilizar o
modo formulário, perdem-se as informações de
validação.
Criação de Bancos de Dados 403
FIG. 4.4 Passos para a criação e congelamento de painéis.
FIG. 5.5 Janela de entrada de dados da opção “Formulários”.
Criação de Bancos de Dados 404
Utilizando o SPSS®
O SPSS (Statistical Package for the Social Sciences) é um dos principais produtos da SPSS Inc. uma empresa
de software sediada em Chicago e com atividades na área de sistemas de informática desde o fim da década de
1960 (SPSS, 2004). Trata-se de um programa bastante utilizado na área acadêmica para análises estatísticas, ao lado
do SAS® (Statistical Analysis System) e do Statistica®.
O SPSS tem uma interface parecida com a do Excel, e permite a entrada de dados visualizando o banco de
dados como um todo. Contudo, por se tratar de um programa específico para análise de dados, possui inúmeras
outras potencialidades. Dentre as facilidades para operações com arquivos, suas versões mais recentes permitem
ler arquivos de praticamente todos os programas mais importantes, como o próprio Excel e outras planilhas
eletrônicas como Lotus, além do formato Dbase (.dbf). Sua grande desvantagem é o preço muito elevado, fator que,
na maioria dos casos, restringe sua aplicação para usuários corporativos.
Etapas para a construção de bancos no SPSS
Uma das vantagens de programas específicos de bancos de dados é facilitar a definição de variáveis. Neste
sentido, a primeira medida a se tomar é definir as variáveis. A tela de abertura do SPSS, quando se opta pela
abertura de um banco de dados novo, tem duas modalidades de exibição (ou views): a visualização dos dados (Data
View) e das variáveis (Variable View). O exemplo a seguir advém do mesmo banco ilustrado no item anterior
quando discutimos o Excel.
Pode-se observar que, no Variable View, cada variável é definida a partir dos seguintes parâmetros (veja na
Figura 6):
Name: Nome da variável. Conforme discutimos anteriormente, deve-se limitar a oito caracteres, sem utilização de
cedilhas, acentos e espaços.
Type: Tipo de variável. Existem diversos tipos disponíveis, porém os mais utilizados são o formato String, para
variáveis categóricas, e o Numeric, para dados quantitativos, além de diferentes opções para o registro de datas.
Trata-se de uma propriedade importantes, pois irá definir a forma como o programa interpretará o dado. Uma
variável do tipo String, por exemplo não permite operações matemáticas nem a obtenção de medidas de tendência
central e de variabilidade; para sua análise, só poderão ser obtidas freqüências.
Width: Tamanho do campo. Deve ser informado com quantos caracteres é formada cada categoria da variável. Por
exemplo, se estamos trabalhando com renda e o máximo encontrado foi de 20 mil reais, então o campo deverá ter 5
algarismos. Embora colocar um tamanho maior que o necessário não atrapalhe a análise, é importante se ater ao
número correto, pois isso irá economizar “bytes”, gerando um banco de dados menor e, conseqüentemente, de mais
fácil manuseio.
Decimals: Número de casas decimais. Aplicável somente para as variáveis numéricas, é um complemento da
especificação anterior.
Label: Rótulo da variável. Deve-se colocar o nome que descreve a variável e que deverá aparecer quando as
análises forem solicitadas. Caso não seja informado, aparecerá o nome da variável.
Values: Valores atribuídos aos dados. Aplica-se às variáveis categóricas, e é muito importante na hora da geração
dos relatórios. A Figura 7 mostra um exemplo de codificação para a variável “Tipo de Escola”.
Missing: Informação não disponível. Quando, por algum motivo, não se tem o dado disponível, deve-se entrar
com um valor que indique a ausência de informação. É importante que seja informado, neste item, qual o valor que
referencia esta condição, para que o programa o exclua dos cálculos.
Measure: Escala de medida. Trata-se de um complemento do tipo de variável. Há as opções Scale, quando os dados
advém de medidas quantitativas, Nominal, para dados categóricos nominais e Ordinal, para variáveis categóricas
do tipo ordinal.
Uma vez finalizado o processo de definição das variáveis, pode-se prosseguir com a entrada dos dados.
Criação de Bancos de Dados 405
Figura 6. Tela do Variable View do SPSS.
Figura 7. Caixa de diálogo para atribuição dos valores das categorias da variável “Tipo de Escola”.
Algumas diferenças entre o SPSS e Excel
Uma diferença importante que existe na elaboração de bancos no Excel e no SPSS diz respeito às ocasiões
em que se pretende avaliar a associação entre dados das variáveis dependentes e independentes. Para o SPSS, as
categorias da variável independente (grupos de estudo, por exemplo) devem ser identificadas como variáveis
específicas; enquanto no Excel, cada cruzamento da variável dependente com a independente deve ser codificado
como uma variável específica no banco.
Para ficar mais claro, vamos utilizar o seguinte exemplo: um pesquisador deseja verificar o efeito de
bochechos com diferentes substâncias sobre o índice de sangramento gengival em três momentos distintos (antes
do uso, imediatamente após e um mês depois do uso). Neste caso, temos, como variável dependente, os valores do
índice de sangramento gengival e, como independentes, o grupo (as três diferentes substâncias) e o tempo (antes,
logo após e um mês depois). O banco de dados desta pesquisa construído no Excel teria a estrutura mostrada na
Figura 8 a seguir.
Criação de Bancos de Dados 406
Figura 8. Modelo de entrada de dados para o Excel.
Pode-se observar que são criadas nove variáveis oriundas de todos os cruzamentos da variável dependente
com as duas independentes, gerando nove combinações possíveis (ROMA_LB = Romã na linha-base, CLOREX_LB
= Clorexidina na linha-base, PLAC_LB = Placebo na linha-base, ROMA_AP = Romã imediatamente após e assim
por diante). Desse modo, as estatísticas descritivas poderão ser obtidas colocando-se as fórmulas abaixo do último
valor (na linha 13). Do mesmo modo, as análises estatísticas podem ser realizadas informando as colunas em que se
encontram os dados que se deseja testar.
Este mesmo banco teria que ser estruturado no SPSS de uma forma diferente, para considerar tempo e
grupo como variáveis. Neste caso, ele ficaria com o formato ilustrado na Figura 9. Observe que, neste caso, apenas
três variáveis são criadas, a dependente (Sangramento Gengival, ou sang) e as independentes (tempo e grupo). Os
tempos foram codificados como 1 – Linha-Base, 2 – Imediatamente após e 3 – Um mês depois. Os grupos foram
codificados como 1 – Romã, 2 – Clorexidina e 3 – Placebo. Esse procedimento é necessário pelo fato de a análise no
SPSS exigir, como entrada, a especificação das variáveis dependente e independente, de modo diferente do Excel.
Assim, é importante decidir qual programa será utilizado para a análise, e projetar o banco de dados de
forma apropriada antes de começar a digitação.
Criação de Bancos de Dados 407
Figura 9. Modelo de entrada de dados para o SPSS.
Utilizando o Epi-Info
O Epi-Info foi criado ainda em meados dos anos 1980s pelo Centers for Disease Control and Prevention (CDC)
sediado em Atlanta, EUA. Foi desenvolvido por Andrew Dean e colaboradores com o objetivo de servir de suporte
para entrada e processamento de dados epidemiológicos, para uso em Saúde Pública (Dean, 1994; Dean et al, 2004).
É um programa de “domínio público”, ou seja, sua distribuição é livre e gratuita, podendo ser copiado de sítios da
Internet em várias partes do mundo, sendo o principal deles o do próprio CDC (www.cdc.gov/epiinfo)
Desde suas versões iniciais, ainda em ambiente MS-DOS, o Epi-Info foi adquirindo popularidade crescente,
e é hoje usado em mais de 180 países. Segundo as últimas informações divulgadas no sítio do CDC, até 2003, cerca
de 1 milhão de downloads haviam sido realizados e há registros da tradução de seu manual para 13 línguas
diferentes.
A partir do ano 2000, foi lançada uma versão para ambiente Windows, a qual não agradou muito no início,
em função de falhas ainda presentes. Uma versão aperfeiçoada foi lançada em 2002, a qual ficou conhecida como
Epi-Info 2002. A versão mais recente é a 3.3, disponível no CDC desde outubro de 2004.
A lógica da construção de bancos no Epi-Info é semelhante à de outros programas, como o SPSS, e também
está sujeita às recomendações relativas à estruturação e codificação das variáveis. Contudo, um grande diferencial
é a interface do Epi-Info para a entrada de dados. Ao contrário dos programas em que o nome das variáveis é
informado na primeira linha e os dados são digitados diretamente na planilha, o Epi-Info permite que se construa
um formulário com o mesmo aspecto da ficha utilizada para a coleta dos dados, o que facilita bastante o processo
de digitação (CDC, 2002).
Construindo bancos de dados no Epi-Info
O exemplo a seguir tomou como base o modelo de coleta de dados do Projeto SBBrasil, em que o
instrumento de coleta era composto por uma ficha de exame com os dados de saúde bucal e um questionário
socioeconômico e de acesso a serviços (Brasil, 2004). O Epi-Info, em sua versão para ambiente Windows, trabalha
com o conceito de “projetos”; ou seja, é possível manter, em um único arquivo, diversos modelos de questionário,
denominados “views”. No nosso exemplo, o projeto deu origem ao nome do arquivo (SBBrasil_Exemplo) e o
primeiro “view” foi denominado “FichaExame”. Esta é uma vantagem interessante, pois cada questionário pode ser
gravado em uma tabela de dados distinta, porém todos são mantidos em um mesmo arquivo, o que pode ser útil
quando se trabalha com pesquisas de caráter multicêntrico. Além disso, é possível criar diversas páginas em um
mesmo questionário, de modo a organizar melhor a entrada de dados.
A Figura 10 exemplifica o início da construção do modelo de entrada de dados. Na tela de abertura do Epi-
Info, escolhe-se a opção “Make view”. Clicando em “File – New” é solicitado o nome do Projeto, que será salvo como
nome do arquivo. Em seguida, em uma nova janela, deve-se entrar com o nome do questionário (view). A partir
daí, define-se cada campo de entrada, de acordo com a ficha da coleta de dados. Clicando com o botão direito do
Criação de Bancos de Dados 408
mouse, abre-se uma janela em que as definições de campo podem ser especificadas (veja Figura 10). Seus principais
elementos são os seguintes:
Question of prompt: Rótulo do campo. Aqui deve ser colocada a denominação do campo da forma como
desejamos que apareça no questionário. É possível, por intermédio do botão, à direita do campo (Font for Prompt)
formatar a fonte, com relação ao tamanho e tipo, de acordo com os tipos de fonte disponíveis no computador.
Field or Variable: Características da variável. De modo análogo ao SPSS, define-se aqui as características da
variável (numérica, texto, data etc.), incluindo seu padrão de entrada (número de caracteres ou algarismos) e o tipo
de fonte.
Field name: Nome da variável. Coloca-se o nome como se deseja que a variável seja armazenada. Novamente,
recomenda-se a utilização de caracteres-padrão em número máximo de 10. É este o nome que aparecerá na tabela
de dados, quando da exportação do banco para outros formatos.
Code Tables: Para variáveis codificadas em modo texto (Text), padrão utilizado para as variáveis categóricas, é
possível definir os códigos válidos. Funciona do mesmo modo que a opção “Values” do SPSS e as opções de
validação do Excel.
Figura 10. Caixa de diálogo das definições dos campos de entrada no Epi-Info.
Para melhor organizar o questionário, assemelhando-o à ficha de coleta, é possível criar grupos de campos.
No caso do exemplo, a ficha original continha um cabeçalho, informações gerais, e campos específicos dos índices
utilizados. Neste caso, os campos podem ser agrupados de modo a separá-los, de acordo com estas categorias. Para
criar grupos, é preciso, primeiro, marcar o conjunto de campos que se deseja agrupar. Em seguida clica-se em
“Insert” e depois em “Group”. Na caixa de diálogo que se abre, basta informar o nome do campo e definir algumas
características de formatação como a cor do campo. A Figura 11 ilustra a forma final da tela de entrada de dados da
primeira parte da ficha. Observa-se que é possível construir um questionário muito semelhante à ficha de coleta e
com um padrão estético agradável.
Criação de Bancos de Dados 409
Figura 11. Tela de entrada de dados após definição de campos e grupos.
Ainda com relação à organização do questionário, é importante informar ao programa a ordem de entrada
dos dados. De modo geral, à medida em que são criados os campos, o Epi-Info estabelece a ordem de criação como
a ordem de entrada. Contudo, à vezes, em função da posição na grade, ou mesmo quando se utilizam recursos de
copiar e colar, a ordem de entrada pode variar. Nestes casos, antes de se efetuar a entrada de dados, é importante
checar a ordem de entrada clicando em “Edit” e, em seguida em “Order of Field Entry (Taborder)”. A caixa de diálogo
mostrará o conjunto de campos e a sua seqüência. Para mudar para a seqüência desejada, basta marcar o campo e
usar as opções “Up” e “Down” nos botões à direita (Figura 12).
Figura 12. Caixa de diálogo da ordenação da entrada dos campos.
Finalmente, o módulo de entrada de dados do Epi-Info tem uma ferramenta adicional para a criação de
páginas. Em alguns casos, um mesmo questionário pode ter várias partes ou uma pesquisa pode utilizar
questionários diferentes, e pode ser desejável o armazenamento de todos os dados em um único banco. Na janela à
esquerda do modo de edição de questionário (vide Figura 10), estão disponíveis as opções para o gerenciamento de
páginas. Clicando em “Add page” uma nova página será criada e, a partir daí procede-se da mesma forma. Tendo
concluído o delineamento do questionário, procede-se à entrada dos dados por intermédio do módulo “Enter”. No
próprio modo de edição, escolhe-se a opção “File” e “Enter data”.
Para usuários do Epi-Info 6.04 para DOS
Usuários tradicionais do Epi-Info em sua versão para MS-DOS (a última foi a 6.04d, janeiro de 2001) podem
encontrar dificuldades de adaptação à versão para Windows. Isso pode ser devido ao fato de as mudanças terem se
dado não apenas no aspecto da plataforma, mas também em sua concepção.
O Epi-Info para DOS trabalhava com a idéia de questionários individualizados específicos para cada tipo
de pesquisa e com um modelo de banco de dados estático. Na versão Windows, a lógica da organização passa pela
concepção de projetos e de bancos de dados dinâmicos, podendo-se criar várias tabelas de dados em um mesmo
arquivo. Contudo, seus mecanismos de entrada e processamento de dados ficaram infinitamente melhores e mais
seguros. A validação de entrada, em substituição à criação e arquivos com extensão CHK da versão DOS resultou
mais fácil e rápida. É desnecessário sublinhar os ganhos em termos de uma interface mais amigável e uma
qualidade estética superior.
Criação de Bancos de Dados 410
Apesar de a nova versão permitir o gerenciamento de bancos de dados criados com as versões anteriores, o
novo padrão de arquivo (extensão MDB), o qual é semelhante ao produzido pelo Microsoft Access®, pode
apresentar incompatibilidades com arquivos gravados em formato da versão para DOS (extensão REC). Do mesmo
modo, a importação de questionários da versão antiga (extensão QES) é trabalhosa, em especial quando os
questionários foram elaborados de forma complexa.
Referências Bibligráficas
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 2. ed. São Paulo: EPU, 1981.
BRASIL. Ministério da Saúde. Projeto SBBrasil 2003. Brasília, 2004. Capturado na Internet: www.sbbrasil.cjb.net.
Dean AG et al. Epi Info. Database and statistics software for public health professionals. Atlanta, EUA: Center
for Disease Control and Prevention. versão 3.2.2, 2004.
Dean AG. Microcomputers and the future of epidemiology. Public Health Reports 1994;109(3):439-41.
Center for Disease Control and Prevention. Epidemiology Program Office. Epi Info users' manual. Atlanta: CDC,
2002.
SPSS. Statistical Package for the Social Sciences. Chicago, 2004. Capturado na Intenet: www.spss.com.

Mais conteúdo relacionado

Semelhante a Criação de Bancos de Dados Epidemiológicos

Aula 3 chagas 2000 - questionário na pesquisa científica
Aula 3   chagas 2000 - questionário na pesquisa científicaAula 3   chagas 2000 - questionário na pesquisa científica
Aula 3 chagas 2000 - questionário na pesquisa científicaAndréa Thees
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Mauricio Cesar Santos da Purificação
 
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdfHAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdfLucimari Pereira
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimGetulio Valentim
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisRaquel Camargo
 
Novo microsoft office power point presentation
Novo microsoft office power point presentationNovo microsoft office power point presentation
Novo microsoft office power point presentationmachadocarla
 
Banco de dados
Banco de dadosBanco de dados
Banco de dadospadinho
 
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfLinaKelly2
 
Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUEstratégia Concursos
 
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria IztaccihuatlProposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatlsusilene Barbosa
 
aula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfaula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfritaporfrio
 

Semelhante a Criação de Bancos de Dados Epidemiológicos (20)

Aula 3 chagas 2000 - questionário na pesquisa científica
Aula 3   chagas 2000 - questionário na pesquisa científicaAula 3   chagas 2000 - questionário na pesquisa científica
Aula 3 chagas 2000 - questionário na pesquisa científica
 
Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)Extrator Lattes CNPq (Versão SBSI)
Extrator Lattes CNPq (Versão SBSI)
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
 
Estatistica completo revisado
Estatistica completo revisadoEstatistica completo revisado
Estatistica completo revisado
 
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdfHAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
HAIR et al. - ANÁLISE MULTIVARIADA DE DADOS 5ED..pdf
 
Análise de dados.pdf
Análise de dados.pdfAnálise de dados.pdf
Análise de dados.pdf
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
 
Atps estatatistica
Atps estatatisticaAtps estatatistica
Atps estatatistica
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
CIF e TabWin
CIF e TabWinCIF e TabWin
CIF e TabWin
 
Wperformance 2015 (2)
Wperformance   2015 (2)Wperformance   2015 (2)
Wperformance 2015 (2)
 
Spss tutorial
Spss tutorialSpss tutorial
Spss tutorial
 
Novo microsoft office power point presentation
Novo microsoft office power point presentationNovo microsoft office power point presentation
Novo microsoft office power point presentation
 
Banco de dados
Banco de dadosBanco de dados
Banco de dados
 
Apostila de bd
Apostila de bdApostila de bd
Apostila de bd
 
Estatistica completo revisado
Estatistica completo revisadoEstatistica completo revisado
Estatistica completo revisado
 
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
 
Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCU
 
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria IztaccihuatlProposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
Proposta de projeto: Aplicando Ciência de Dados a livraria Iztaccihuatl
 
aula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdfaula de sistema gerenciador de banco de Dados ACCESS.pdf
aula de sistema gerenciador de banco de Dados ACCESS.pdf
 

Criação de Bancos de Dados Epidemiológicos

  • 1. CapítuloCapítulo Criação de Bancos de Dados Angelo Giuseppe Roncalli da Costa Oliveira INTRODUÇÃO As pesquisas epidemiológicas, assim como todas as pesquisas de caráter quantitativo, pressupõem uma seqüência de etapas que vão do planejamento da pesquisa até a elaboração do relatório final, passando pela coleta e processamento dos dados. Uma atribuição precípua da estatística aplicada aos estudos epidemiológicos é a consolidação de dados obtidos de amostras ou populações de modo que estes possam ser lidos e interpretados em seu conjunto. Desse modo, a etapa subseqüente à coleta de dados é a construção de um banco em que tais dados sejam organizados de forma a facilitar as tarefas de análise. Este capítulo abordará as estratégias necessárias para a construção de bancos de dados em pesquisas epidemiológicas, dando especial destaque à tabulação eletrônica a partir dos principais programas de gerenciamento de dados. ENTENDENDO AS VARIÁVEIS As pesquisas epidemiológicas envolvem o estudo de características que não são distribuídas de modo uniforme na população. O conceito de “variável” refere-se justamente a estas características populacionais não uniformes, que se propõe descrever e analisar no âmbito das pesquisas epidemiológicas. Grosso modo, “variável” pode ser definida como a expressão numérica de qualquer evento da natureza. É tudo aquilo que se deseja estudar e que pode ser traduzido em números, seja através de contagem, mensuração ou classificação. As variáveis, portanto, estão associadas a eventos contábeis, mensuráveis ou classificáveis; e, considerando a natureza complexa dos objetos de estudo da epidemiologia, possuem limitações diretamente proporcionais à subjetividade do evento. Ao contarmos uma certa quantidade de eventos ou medirmos alguns deles, geramos variáveis ditas quantitativas; ao classificamos os eventos obtemos variáveis do tipo categóricas. Peso, altura, CPO, glicemia são exemplos de variáveis quantitativas e sexo, etnia, grau de instrução e moradia são exemplos de variáveis categóricas (Berquó, 1981). PRINCÍPIOS GERAIS PARA A CRIAÇÃO DE BANCOS DE DADOS Com os recursos tecnológicos atualmente disponíveis, não se admite mais que os dados envolvidos em pesquisas epidemiológicas sejam tabulados manualmente. Além de demorada, desgastante e limitada, a tabulação manual submete o estudo a um risco elevado de erros. Com o advento e a disseminação da informática, a tabulação eletrônica tornou a análise de dados epidemiológicos muito mais rápida, eficiente e segura. Com isso, a descrição e a análise dependem, fundamentalmente, de uma cuidadosa elaboração do banco de dados da pesquisa. A correspondência entre o banco de dados e o instrumento da coleta de dados na pesquisa facilita a digitação e, posteriormente, a análise dos dados. Outras recomendações importantes são: 1. Estabelecimento de códigos para as variáveis categóricas. A codificação das variáveis pode ser efetuada durante a construção do instrumento de coleta de dados. Caso isso não tenha sido feito, a codificação poderá ser realizada por ocasião da entrada dos dados em uma base eletrônica. Os códigos devem ser, preferencialmente, numéricos e com um único dígito, a não ser, obviamente, quando se trabalha com variáveis quantitativas que demandam outras escalas de medida. Podem ser usadas letras como códigos, quando o número de categorias passa de 10, ou quando é necessário estabelecer uma diferenciação entre as categorias, como é o caso dos registros de condição dentária, em que os códigos numéricos dizem respeito aos dentes permanentes e as letras correspondem aos dentes decíduos. A utilização de códigos numéricos facilita bastante a digitação, pelo fato de permitirem
  • 2. Criação de Bancos de Dados 399 efetuar a digitação exclusivamente através do teclado numérico do computador, uma estratégia muito utilizada por digitadores profissionais. 2. Criação de códigos de exclusão. Embora alguns programas de bancos de dados ignorem as células deixadas em branco na análise, recomenda-se evitar deixar a variável sem preenchimento, para evitar confusão. A maioria dos programas permite que um determinado código, por exemplo o algarismo 9, seja interpretado como informação não disponível (missing), o que facilita bastante a análise. 3. Utilização de dados quantitativos brutos. Na medida do possível, o dado deve ser captado em sua expressão numérica primária, evitando categorias estabelecidas a priori. Esta recomendação é útil tanto na construção do instrumento de coleta de dados, como na criação do banco informatizado. Ao se avaliar a renda mensal familiar, por exemplo, é mais prático captar a renda em reais para, somente durante a análise estabelecer as faixas de renda ou transformação em outra unidade, como salários mínimos. Ao se obter a informação já incluída em faixas pré-estabelecidas, perde-se a informação original, além de haver o risco de uma distribuição heterogênea da variável entre os elementos amostrais. A classificação de faixas de renda (por exemplo, menos de um salário mínimo, de um a dois e dois ou mais salários mínimos) pode ser muito útil para pesquisas envolvendo população de baixa renda, mas teria pouca utilidade em bairros de classe média alta. Outro exemplo diz respeito à escolaridade, que pode ser expressa em número de anos de estudo, evitando a obtenção da informação por graus (ensino fundamental, médio e superior). 4. Critérios de validação de entrada. Os programas de bancos de dados permitem a criação de critérios de validação de entrada de dados. Isso é particularmente importante quando diferentes digitadores contribuem para a informatização dos dados e diminui consideravelmente os erros de digitação. 5. Verificação de erros de digitação. O cumprimento da recomendação anterior reduz o risco de erros de digitação. Mesmo assim, podem ocorrer erros quando se digitam dados válidos porém não correspondentes ao registro que consta na ficha de coleta. Em alguns casos, recomenda-se a digitação dupla ou mesmo tripla para minimizar o risco de erros. Após o banco pronto, ainda deve ser realizada uma avaliação, por amostragem, do percentual de erros de digitação. A simples verificação da distribuição de freqüência das variáveis em estudo possibilita a identificação de valores aberrantes, possivelmente fruto de erros de digitação ou anotação, permitindo assim sua correção. 6. Criação de página de códigos. Em função das recomendações anteriores, é importante criar uma tabela em que sejam explicitadas as informações relativas ao banco de dados, particularmente os códigos empregados. Em alguns programas, como o SPSS ou o Microsoft Excel, essa informação faz parte da estrutura do banco. Quando for necessário disponibilizar o banco de dados em uma linguagem de uso comum para diferentes programas de informática, como os arquivos de extensão DBF, é necessário apresentar em anexo a tabela de códigos correspondente, como exemplificado no Quadro 1. Criando um banco de dados Há uma quantidade considerável de programas de bancos de dados. Alguns são mais sofisticados e exigem conhecimentos de programação, sendo mais aplicáveis às áreas comercial e financeira. Especificamente para pesquisas epidemiológicas, existem bons programas que permitem a construção do banco de dados e sua posterior análise. A despeito de cada um deles possuir suas especificidades, a lógica de criação dos bancos de dados é muito semelhante entre eles, bastando, na maioria dos casos, seguir as recomendações anteriores. Descreveremos aqui as informações mais importantes para a criação de bancos em três dos mais populares programas disponíveis, o Microsoft Excel®, o SPSS (Statistical Package for Social Science) e o Epi-Info. Utilizando o Microsoft Excel® O Microsoft Excel® é uma conhecida planilha eletrônica integrada ao pacote de aplicativos de “escritório” mais utilizado em computadores pessoais no Brasil, o Microsoft Office. Na verdade, o Excel não é um programa de banco de dados e, em princípio poderia não ser o aplicativo mais adequado para trabalhar com dados epidemiológicos. Contudo, a facilidade de seu uso, sua versatilidade e popularidade permitem a construção de bancos de dados relativamente simples, quando se trabalha com dados numéricos e / ou categóricos. Para questionários mais complexos, com campos descritivos, recomenda-se utilizar programas específicos para questionários, como o Epi-Info ou, caso se tenha em mente alguma análise de caráter qualitativo, há outras opções como o Evoc ou Alcest. Mas, para estudos envolvendo o cálculo de medidas de tendência central e de dispersão, bem como freqüências absolutas e percentuais, o Excel é uma boa opção, embora não contemple recursos para análises de inferência.
  • 3. Criação de Bancos de Dados 400 QUADRO 4.1 Descrição das variáveis constantes em um banco de dados Variável Descrição Tipo Categorias UF Unidade da Federação Categórica Nominal Código do IBGE FLUOR Presença de Água Fluoretada Categórica Nominal 1- Fluoretado 2- Não-Fluoretado 9- Sem Informação ESCOLA Tipo de Escola Categórica Nominal 1- Pública 2- Privada 9- Sem Informação IDADE Idade em anos Quantitativa Discreta Dado numérico SEXO Sexo Categórica Nominal 1- Masculino 2- Feminino 9- Sem Informação DENTAL16 Código CPO para dente 16 Categórica Nominal 0- Hígido 1- Cariado 2- Restaurado com cárie 3- Restaurado sem cárie 4- Extraído por cárie 5- Extraído por outras razões 9- Não examinado Fonte: Exemplo retirado do banco de dados do Projeto SBBrasil 2003 (Brasil, 2004). Outra vantagem do Excel é que o formato XLS de seus arquivos é passível de leitura direta por boa parte dos programas estatísticos, como o SPSS, o S+ ou o Statistica®. Além disso, pode exportar para outros formatos, como o Dbase (DBF - Data Base File) um padrão quase universal de bancos de dados. Ademais, em geral, seus arquivos não são muito grandes (a não ser quando se exagera nas formatações de cores e linhas), o que facilita a troca de informações em meio virtual. O Excel tem uma capacidade razoável de armazenamento de dados, e serve bem a muitas finalidades das pesquisas epidemiológicas. O limite de linhas em uma planilha é de 65.536; o que significa que pesquisas com um número de unidades amostrais superior a este limite terão que recorrer a outros programas. Sua capacidade de armazenamento para variáveis é bastante considerável, permitindo o uso de até 256 colunas. ETAPAS PARA A CONSTRUÇÃO DE BANCOS NO EXCEL Considera-se que o leitor possua conhecimentos básicos sobre o funcionamento de planilhas eletrônicas(*), como as operações comuns aos programas do pacote Microsoft Office, como salvamento de arquivos, impressão, formatação, entre outras. Considerações mais complexas, relativas à (*) Foi utilizada, para os exemplos deste capítulo, a versão 2002 para Windows XP. Versões anteriores para Windows 98 ou da família do Office 2000 podem apresentar ligeiras diferenças na apresentação visual e nas funções. análise de dados e à construção de tabelas e gráficos, não serão tratadas neste capítulo. 1. Definição das variáveis Em primeiro lugar, devem ser definidas as variáveis que constituirão o banco de dados, com suas respectivas codificações, conforme indicado anteriormente. Essas variáveis preencherão toda a primeira linha da planilha, sendo cada linha subseqüente reservada para o preenchimento das informações relativas a cada elemento da amostra. É importante observar que, embora o programa aceite nomes com tamanho ilimitado, recomenda-se algumas precauções ao nomear as variáveis. Entre essas precauções, sugere-se não exceder oito caracteres, bem como evitar o uso de cedilha, acentos, traços (a não ser o traço subscrito ou “underline”) e espaços. Isso se justifica para facilitar o processo de exportação do arquivo para outras plataformas, as quais solicitam essas restrições. O SPSS, por exemplo, apenas aceita os primeiros oitos caracteres registrados para os nomes de variáveis, e o Epi-Info aceita até 10 caracteres. Do mesmo modo, ao se utilizar o Epi-Info em sua versão 6.04 em MS-DOS†, somente caracteres padrão serão aceitos. Além disso, ao serem criadas variáveis com nomes de extensão reduzida, o banco fica menor e mais fácil de ser utilizado. (†) O MS-DOS (Microsoft Disk Operating System), foi um dos primeiros Sistemas Operacionais a serem utilizados em computadores pessoais. Tinha uma interface ainda pouco amigável e hoje está praticamente em desuso com o advento do Sistema Windows.
  • 4. FIG. 4.1. Exemplo de banco de dados no Excel. O banco de dados apresentado como exemplo, a seguir, é o produto de um formato de pesquisa muito comum em Epidemiologia em Saúde Bucal, o levantamento epidemiológico. As variáveis que constam no arquivo advêm da ficha básica proposta pela OMS e adaptada recentemente para o Projeto SBBrasil 2003 (vide o capítulo 3 da primeira parte). Observe que, na planilha, foram incluídas as variáveis na primeira linha com o cuidado de criar uma variável IDENT (Identificação), onde os elementos amostrais são devidamente numerados. 2. Validando a entrada de dados Após criar a estrutura do banco de dados e antes de começar a digitação, é importante acrescentar alguns aperfeiçoamentos disponibilizados pelas ferramentas do Excel. Em primeiro lugar, como em qualquer banco de dados, podem ser criadas regras de validação para a entrada dos dados, o que agiliza o processo e evita erros de digitação. Para criar estas regras, marca-se a coluna da variável, clica-se em “Dados” e escolhe-se a opção “Validação”. Em seguida abre-se uma caixa de diálogo como a ilustrada a seguir, que exemplifica a validação da variável “Tipo de Escola”. Na primeira interface de diálogo que se abre (usualmente denominada “orelha”) o item “Configurações” permite que se informe que códigos podem ser aceitos para aquela variável. Há diversas opções para se realizar esta operação, como escolher uma lista, estabelecer um intervalo numérico, entre outras. Para o caso em que se trabalha com listas de códigos, deve-se colocar esta lista de códigos em outro ponto da planilha e informar, na caixa de diálogo, onde se encontra essa informação. FIG. 4.2 Caixa de diálogo das funções para validação da entrada de dados no Excel.
  • 5. Criação de Bancos de Dados 402 FIG. 4.3 Aspecto da planilha após a validação, quando a célula é selecionada. Na orelha “Mensagem de entrada” pode-se optar pela visualização de uma mensagem de ajuda informando os códigos válidos, que aparece quando o cursor passa pela célula. Este recurso é particularmente útil em bancos um pouco mais complexos e que serão trabalhados por digitadores externos. Finalmente, a orelha “Alerta de erro” permite que se customize a mensagem que surgirá quando da tentativa de entrada de um dado que não seja válido (veja nas Figura 4.2 e 4.3). 3. Criando painéis e agilizando o processo de digitação A seguir, a “criação de painéis” é outro importante recurso de formatação da planilha, que facilita a digitação. Como a primeira linha da planilha corresponde ao nome das variáveis, é interessante que esta primeira linha esteja sempre visível durante a navegação, o que geralmente não acontece quando se tem um banco de dados com mais de 30 elementos amostrais. O mesmo vale para a primeira coluna, a qual é sempre destinada para os códigos de identificação. Um recurso para manter linhas e colunas sempre visíveis é a criação e o congelamento de painéis. Para esta finalidade, seleciona-se a célula que limita a linha e coluna (em geral a B2) e, no menu “Janela”, escolhe-se a opção “Congelar painéis”. Como resposta, o programa cria uma demarcação abaixo da primeira linha e à direita da primeira coluna (veja Figura 4). 4. Utilização da ferramenta “Formulários” Outra opção que facilita a digitação no Excel é oferecida pelo recurso de “Formulários”. Clicando em “Dados” e em seguida em “Formulários”, aparece uma janela como ilustrada na Figura 5. Todas as células da primeira linha são identificadas como variáveis e os dados podem ser digitados como num programa de banco de dados. Dentre as desvantagens desta opção, está o fato de que ela só permite trabalhar com no máximo 25 variáveis. Para bancos com maior número de variáveis, os dados deverão ser digitados diretamente na planilha. Além disso, ao se utilizar o modo formulário, perdem-se as informações de validação.
  • 6. Criação de Bancos de Dados 403 FIG. 4.4 Passos para a criação e congelamento de painéis. FIG. 5.5 Janela de entrada de dados da opção “Formulários”.
  • 7. Criação de Bancos de Dados 404 Utilizando o SPSS® O SPSS (Statistical Package for the Social Sciences) é um dos principais produtos da SPSS Inc. uma empresa de software sediada em Chicago e com atividades na área de sistemas de informática desde o fim da década de 1960 (SPSS, 2004). Trata-se de um programa bastante utilizado na área acadêmica para análises estatísticas, ao lado do SAS® (Statistical Analysis System) e do Statistica®. O SPSS tem uma interface parecida com a do Excel, e permite a entrada de dados visualizando o banco de dados como um todo. Contudo, por se tratar de um programa específico para análise de dados, possui inúmeras outras potencialidades. Dentre as facilidades para operações com arquivos, suas versões mais recentes permitem ler arquivos de praticamente todos os programas mais importantes, como o próprio Excel e outras planilhas eletrônicas como Lotus, além do formato Dbase (.dbf). Sua grande desvantagem é o preço muito elevado, fator que, na maioria dos casos, restringe sua aplicação para usuários corporativos. Etapas para a construção de bancos no SPSS Uma das vantagens de programas específicos de bancos de dados é facilitar a definição de variáveis. Neste sentido, a primeira medida a se tomar é definir as variáveis. A tela de abertura do SPSS, quando se opta pela abertura de um banco de dados novo, tem duas modalidades de exibição (ou views): a visualização dos dados (Data View) e das variáveis (Variable View). O exemplo a seguir advém do mesmo banco ilustrado no item anterior quando discutimos o Excel. Pode-se observar que, no Variable View, cada variável é definida a partir dos seguintes parâmetros (veja na Figura 6): Name: Nome da variável. Conforme discutimos anteriormente, deve-se limitar a oito caracteres, sem utilização de cedilhas, acentos e espaços. Type: Tipo de variável. Existem diversos tipos disponíveis, porém os mais utilizados são o formato String, para variáveis categóricas, e o Numeric, para dados quantitativos, além de diferentes opções para o registro de datas. Trata-se de uma propriedade importantes, pois irá definir a forma como o programa interpretará o dado. Uma variável do tipo String, por exemplo não permite operações matemáticas nem a obtenção de medidas de tendência central e de variabilidade; para sua análise, só poderão ser obtidas freqüências. Width: Tamanho do campo. Deve ser informado com quantos caracteres é formada cada categoria da variável. Por exemplo, se estamos trabalhando com renda e o máximo encontrado foi de 20 mil reais, então o campo deverá ter 5 algarismos. Embora colocar um tamanho maior que o necessário não atrapalhe a análise, é importante se ater ao número correto, pois isso irá economizar “bytes”, gerando um banco de dados menor e, conseqüentemente, de mais fácil manuseio. Decimals: Número de casas decimais. Aplicável somente para as variáveis numéricas, é um complemento da especificação anterior. Label: Rótulo da variável. Deve-se colocar o nome que descreve a variável e que deverá aparecer quando as análises forem solicitadas. Caso não seja informado, aparecerá o nome da variável. Values: Valores atribuídos aos dados. Aplica-se às variáveis categóricas, e é muito importante na hora da geração dos relatórios. A Figura 7 mostra um exemplo de codificação para a variável “Tipo de Escola”. Missing: Informação não disponível. Quando, por algum motivo, não se tem o dado disponível, deve-se entrar com um valor que indique a ausência de informação. É importante que seja informado, neste item, qual o valor que referencia esta condição, para que o programa o exclua dos cálculos. Measure: Escala de medida. Trata-se de um complemento do tipo de variável. Há as opções Scale, quando os dados advém de medidas quantitativas, Nominal, para dados categóricos nominais e Ordinal, para variáveis categóricas do tipo ordinal. Uma vez finalizado o processo de definição das variáveis, pode-se prosseguir com a entrada dos dados.
  • 8. Criação de Bancos de Dados 405 Figura 6. Tela do Variable View do SPSS. Figura 7. Caixa de diálogo para atribuição dos valores das categorias da variável “Tipo de Escola”. Algumas diferenças entre o SPSS e Excel Uma diferença importante que existe na elaboração de bancos no Excel e no SPSS diz respeito às ocasiões em que se pretende avaliar a associação entre dados das variáveis dependentes e independentes. Para o SPSS, as categorias da variável independente (grupos de estudo, por exemplo) devem ser identificadas como variáveis específicas; enquanto no Excel, cada cruzamento da variável dependente com a independente deve ser codificado como uma variável específica no banco. Para ficar mais claro, vamos utilizar o seguinte exemplo: um pesquisador deseja verificar o efeito de bochechos com diferentes substâncias sobre o índice de sangramento gengival em três momentos distintos (antes do uso, imediatamente após e um mês depois do uso). Neste caso, temos, como variável dependente, os valores do índice de sangramento gengival e, como independentes, o grupo (as três diferentes substâncias) e o tempo (antes, logo após e um mês depois). O banco de dados desta pesquisa construído no Excel teria a estrutura mostrada na Figura 8 a seguir.
  • 9. Criação de Bancos de Dados 406 Figura 8. Modelo de entrada de dados para o Excel. Pode-se observar que são criadas nove variáveis oriundas de todos os cruzamentos da variável dependente com as duas independentes, gerando nove combinações possíveis (ROMA_LB = Romã na linha-base, CLOREX_LB = Clorexidina na linha-base, PLAC_LB = Placebo na linha-base, ROMA_AP = Romã imediatamente após e assim por diante). Desse modo, as estatísticas descritivas poderão ser obtidas colocando-se as fórmulas abaixo do último valor (na linha 13). Do mesmo modo, as análises estatísticas podem ser realizadas informando as colunas em que se encontram os dados que se deseja testar. Este mesmo banco teria que ser estruturado no SPSS de uma forma diferente, para considerar tempo e grupo como variáveis. Neste caso, ele ficaria com o formato ilustrado na Figura 9. Observe que, neste caso, apenas três variáveis são criadas, a dependente (Sangramento Gengival, ou sang) e as independentes (tempo e grupo). Os tempos foram codificados como 1 – Linha-Base, 2 – Imediatamente após e 3 – Um mês depois. Os grupos foram codificados como 1 – Romã, 2 – Clorexidina e 3 – Placebo. Esse procedimento é necessário pelo fato de a análise no SPSS exigir, como entrada, a especificação das variáveis dependente e independente, de modo diferente do Excel. Assim, é importante decidir qual programa será utilizado para a análise, e projetar o banco de dados de forma apropriada antes de começar a digitação.
  • 10. Criação de Bancos de Dados 407 Figura 9. Modelo de entrada de dados para o SPSS. Utilizando o Epi-Info O Epi-Info foi criado ainda em meados dos anos 1980s pelo Centers for Disease Control and Prevention (CDC) sediado em Atlanta, EUA. Foi desenvolvido por Andrew Dean e colaboradores com o objetivo de servir de suporte para entrada e processamento de dados epidemiológicos, para uso em Saúde Pública (Dean, 1994; Dean et al, 2004). É um programa de “domínio público”, ou seja, sua distribuição é livre e gratuita, podendo ser copiado de sítios da Internet em várias partes do mundo, sendo o principal deles o do próprio CDC (www.cdc.gov/epiinfo) Desde suas versões iniciais, ainda em ambiente MS-DOS, o Epi-Info foi adquirindo popularidade crescente, e é hoje usado em mais de 180 países. Segundo as últimas informações divulgadas no sítio do CDC, até 2003, cerca de 1 milhão de downloads haviam sido realizados e há registros da tradução de seu manual para 13 línguas diferentes. A partir do ano 2000, foi lançada uma versão para ambiente Windows, a qual não agradou muito no início, em função de falhas ainda presentes. Uma versão aperfeiçoada foi lançada em 2002, a qual ficou conhecida como Epi-Info 2002. A versão mais recente é a 3.3, disponível no CDC desde outubro de 2004. A lógica da construção de bancos no Epi-Info é semelhante à de outros programas, como o SPSS, e também está sujeita às recomendações relativas à estruturação e codificação das variáveis. Contudo, um grande diferencial é a interface do Epi-Info para a entrada de dados. Ao contrário dos programas em que o nome das variáveis é informado na primeira linha e os dados são digitados diretamente na planilha, o Epi-Info permite que se construa um formulário com o mesmo aspecto da ficha utilizada para a coleta dos dados, o que facilita bastante o processo de digitação (CDC, 2002). Construindo bancos de dados no Epi-Info O exemplo a seguir tomou como base o modelo de coleta de dados do Projeto SBBrasil, em que o instrumento de coleta era composto por uma ficha de exame com os dados de saúde bucal e um questionário socioeconômico e de acesso a serviços (Brasil, 2004). O Epi-Info, em sua versão para ambiente Windows, trabalha com o conceito de “projetos”; ou seja, é possível manter, em um único arquivo, diversos modelos de questionário, denominados “views”. No nosso exemplo, o projeto deu origem ao nome do arquivo (SBBrasil_Exemplo) e o primeiro “view” foi denominado “FichaExame”. Esta é uma vantagem interessante, pois cada questionário pode ser gravado em uma tabela de dados distinta, porém todos são mantidos em um mesmo arquivo, o que pode ser útil quando se trabalha com pesquisas de caráter multicêntrico. Além disso, é possível criar diversas páginas em um mesmo questionário, de modo a organizar melhor a entrada de dados. A Figura 10 exemplifica o início da construção do modelo de entrada de dados. Na tela de abertura do Epi- Info, escolhe-se a opção “Make view”. Clicando em “File – New” é solicitado o nome do Projeto, que será salvo como nome do arquivo. Em seguida, em uma nova janela, deve-se entrar com o nome do questionário (view). A partir daí, define-se cada campo de entrada, de acordo com a ficha da coleta de dados. Clicando com o botão direito do
  • 11. Criação de Bancos de Dados 408 mouse, abre-se uma janela em que as definições de campo podem ser especificadas (veja Figura 10). Seus principais elementos são os seguintes: Question of prompt: Rótulo do campo. Aqui deve ser colocada a denominação do campo da forma como desejamos que apareça no questionário. É possível, por intermédio do botão, à direita do campo (Font for Prompt) formatar a fonte, com relação ao tamanho e tipo, de acordo com os tipos de fonte disponíveis no computador. Field or Variable: Características da variável. De modo análogo ao SPSS, define-se aqui as características da variável (numérica, texto, data etc.), incluindo seu padrão de entrada (número de caracteres ou algarismos) e o tipo de fonte. Field name: Nome da variável. Coloca-se o nome como se deseja que a variável seja armazenada. Novamente, recomenda-se a utilização de caracteres-padrão em número máximo de 10. É este o nome que aparecerá na tabela de dados, quando da exportação do banco para outros formatos. Code Tables: Para variáveis codificadas em modo texto (Text), padrão utilizado para as variáveis categóricas, é possível definir os códigos válidos. Funciona do mesmo modo que a opção “Values” do SPSS e as opções de validação do Excel. Figura 10. Caixa de diálogo das definições dos campos de entrada no Epi-Info. Para melhor organizar o questionário, assemelhando-o à ficha de coleta, é possível criar grupos de campos. No caso do exemplo, a ficha original continha um cabeçalho, informações gerais, e campos específicos dos índices utilizados. Neste caso, os campos podem ser agrupados de modo a separá-los, de acordo com estas categorias. Para criar grupos, é preciso, primeiro, marcar o conjunto de campos que se deseja agrupar. Em seguida clica-se em “Insert” e depois em “Group”. Na caixa de diálogo que se abre, basta informar o nome do campo e definir algumas características de formatação como a cor do campo. A Figura 11 ilustra a forma final da tela de entrada de dados da primeira parte da ficha. Observa-se que é possível construir um questionário muito semelhante à ficha de coleta e com um padrão estético agradável.
  • 12. Criação de Bancos de Dados 409 Figura 11. Tela de entrada de dados após definição de campos e grupos. Ainda com relação à organização do questionário, é importante informar ao programa a ordem de entrada dos dados. De modo geral, à medida em que são criados os campos, o Epi-Info estabelece a ordem de criação como a ordem de entrada. Contudo, à vezes, em função da posição na grade, ou mesmo quando se utilizam recursos de copiar e colar, a ordem de entrada pode variar. Nestes casos, antes de se efetuar a entrada de dados, é importante checar a ordem de entrada clicando em “Edit” e, em seguida em “Order of Field Entry (Taborder)”. A caixa de diálogo mostrará o conjunto de campos e a sua seqüência. Para mudar para a seqüência desejada, basta marcar o campo e usar as opções “Up” e “Down” nos botões à direita (Figura 12). Figura 12. Caixa de diálogo da ordenação da entrada dos campos. Finalmente, o módulo de entrada de dados do Epi-Info tem uma ferramenta adicional para a criação de páginas. Em alguns casos, um mesmo questionário pode ter várias partes ou uma pesquisa pode utilizar questionários diferentes, e pode ser desejável o armazenamento de todos os dados em um único banco. Na janela à esquerda do modo de edição de questionário (vide Figura 10), estão disponíveis as opções para o gerenciamento de páginas. Clicando em “Add page” uma nova página será criada e, a partir daí procede-se da mesma forma. Tendo concluído o delineamento do questionário, procede-se à entrada dos dados por intermédio do módulo “Enter”. No próprio modo de edição, escolhe-se a opção “File” e “Enter data”. Para usuários do Epi-Info 6.04 para DOS Usuários tradicionais do Epi-Info em sua versão para MS-DOS (a última foi a 6.04d, janeiro de 2001) podem encontrar dificuldades de adaptação à versão para Windows. Isso pode ser devido ao fato de as mudanças terem se dado não apenas no aspecto da plataforma, mas também em sua concepção. O Epi-Info para DOS trabalhava com a idéia de questionários individualizados específicos para cada tipo de pesquisa e com um modelo de banco de dados estático. Na versão Windows, a lógica da organização passa pela concepção de projetos e de bancos de dados dinâmicos, podendo-se criar várias tabelas de dados em um mesmo arquivo. Contudo, seus mecanismos de entrada e processamento de dados ficaram infinitamente melhores e mais seguros. A validação de entrada, em substituição à criação e arquivos com extensão CHK da versão DOS resultou mais fácil e rápida. É desnecessário sublinhar os ganhos em termos de uma interface mais amigável e uma qualidade estética superior.
  • 13. Criação de Bancos de Dados 410 Apesar de a nova versão permitir o gerenciamento de bancos de dados criados com as versões anteriores, o novo padrão de arquivo (extensão MDB), o qual é semelhante ao produzido pelo Microsoft Access®, pode apresentar incompatibilidades com arquivos gravados em formato da versão para DOS (extensão REC). Do mesmo modo, a importação de questionários da versão antiga (extensão QES) é trabalhosa, em especial quando os questionários foram elaborados de forma complexa. Referências Bibligráficas Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 2. ed. São Paulo: EPU, 1981. BRASIL. Ministério da Saúde. Projeto SBBrasil 2003. Brasília, 2004. Capturado na Internet: www.sbbrasil.cjb.net. Dean AG et al. Epi Info. Database and statistics software for public health professionals. Atlanta, EUA: Center for Disease Control and Prevention. versão 3.2.2, 2004. Dean AG. Microcomputers and the future of epidemiology. Public Health Reports 1994;109(3):439-41. Center for Disease Control and Prevention. Epidemiology Program Office. Epi Info users' manual. Atlanta: CDC, 2002. SPSS. Statistical Package for the Social Sciences. Chicago, 2004. Capturado na Intenet: www.spss.com.