Spss tutorial

Proibida a cópia ou reprodução sem autorização expressa dos autores.

Sumário
Apresentação ..................................................................... 03
Sobre os autores ................................................................ 04
Prefácio .............................................................................. 05
Histórico ............................................................................ 06
Funcionamento básico ....................................................... 07
Requisitos do sistema ......................................................... 09
Menus e botões ................................................................. 10
IT 1 – Janela de abertura ........................................... 10
IT 2 – Interface básica ................................................ 11
IT 3 – Arquivo ............................................................ 12
IT 4 – Editar ............................................................... 13
IT 5 – Visualizar ......................................................... 14
IT 6 – Dados ............................................................... 15
IT 7 – Transformar ..................................................... 16
IT 8 – Analisar ............................................................ 17
IT 9 – Marketing direto .............................................. 18
IT 10 – Gráficos .......................................................... 18
IT 11 – Utilitários ....................................................... 18
IT 12 – Janela ............................................................. 18
IT 13 – Ajuda ............................................................. 18
IT 14 – Botões rápidos da visualização de dados ........ 19
IT 15 – Saída .............................................................. 19
Variáveis ............................................................................ 20
Base de dados .................................................................... 23
Categorização de variáveis ................................................. 29
Transformar variáveis quantitativas ................................... 31
Dados perdidos .................................................................. 32
Observações atípicas .......................................................... 35
Normalidade ...................................................................... 37
Medidas de Centro e Dispersão .......................................... 41
Tabelas Cruzadas ................................................................ 42
Gráficos .............................................................................. 43
Gráfico de barras ....................................................... 46
Gráfico de pizza ......................................................... 50
Gráfico de pontos ...................................................... 51
Histograma ................................................................ 52
Boxplot ..................................................................... 53
Referências bibliográficas ................................................... 55

Apresentação
A ideia de escrever este tutorial nasceu da necessidade de um texto que fosse
adequado ao ensino de princípios básicos de bioestatística utilizando-se a ferramenta
computacional para todos aqueles que trabalham direta ou indiretamente com as
ciências da saúde.
O tutorial está estruturado de forma a oferecer um aprendizado rápido de
conceitos e comandos práticos para uma criação de base de dados e análise estatística
apropriada. É uma obra básica, introdutória e que objetiva apresentar os recursos
diversos do IBM® SPSS® Statistics 20 para uso em bioestatística. Apesar de caro, o
software trás uma infinidade de recursos importantes para o dia-a-dia do pesquisador
que desejar realizar testes estatísticos com rapidez e eficiência. Uma dica é testar o
programa antes de adquiri-lo através de uma versão IBM® SPSS® 14-Day Trial1
.
Esperamos que a compreensão dos métodos e princípios gerais do IBM® SPSS®
Statistics 20 seja apreendida de maneira a tornar mais fácil as criações e análises de
dados em pesquisas voltadas às ciências da saúde e, consequentemente, colaborar na
formação crítica da interpretação da vasta quantidade de informações difundidas
mundialmente.
Autores
1
Acesso ao endereço destinado ao download para versão de teste por 14 dias do programa IBM® SPSS® Statistics 20:
http://www14.software.ibm.com/download/data/web/en_US/trialprograms/W110742E06714B29.html?S_CMP=rnav

Sobre os autores
Angelo Giuseppe Roncalli da Costa Oliveira
Possui Graduação em Odontologia pela Universidade Federal do Rio Grande do Norte (1988), Mestrado
em Odontologia Social pela Universidade Federal do Rio Grande do Norte (1993) e Doutorado em
Odontologia Preventiva e Social pela Universidade Estadual Paulista Júlio de Mesquita Filho (2000).
Atualmente é professor Associado da Universidade Federal do Rio Grande do Norte. Tem experiência na
área de Odontologia, com ênfase em Saúde Bucal Coletiva, atuando principalmente nos seguintes
temas: Epidemiologia, Saúde Coletiva e Políticas Públicas de Saúde.
André Luiz Barbosa de Lima
Possui graduação em Medicina Veterinária pela Universidade Federal Rural do Semiárido - UFERSA
(2004). Tem experiência na área de Medicina Veterinária, com ênfase em Clínica e Cirurgia Animal, bem
como em Vigilância Sanitária de Alimentos, atuando principalmente nos seguintes temas: Vigilância
Sanitária, Saúde Coletiva e Políticas Públicas de Saúde.
Kenio Costa de Lima
O professor possui graduação em Odontologia pela Universidade Federal do Rio Grande do Norte,
mestrado em Odontologia Social pela Universidade Federal do Rio Grande do Norte, doutorado em
Ciências (Microbiologia Médica) pela Universidade Federal do Rio de Janeiro e pós-doutorado pela
Agência de Saúde Pública de Barcelona. Atualmente, é professor associado I da Universidade Federal do
Rio Grande do Norte, dos Programas de Pós-graduação em Saúde Coletiva e em Ciências da Saúde desta
mesma universidade e bolsista de produtividade do CNPq . É o atual coordenador do Programa de Pós-
graduação em Saúde Coletiva da Universidade Federal do Rio Grande do Norte. Tem experiência na área
de Odontologia, Saúde Coletiva e das Ciências da Saúde de um modo geral, com ênfase em estudos
experimentais e epidemiológicos. Trabalha, principalmente, os seguintes temas: Envelhecimento e
Saúde, Doenças infecciosas, Microbiologia aplicada e Epidemiologia aplicada à pesquisa em Saúde.

Prefácio
As pesquisas de caráter quantitativo em ciências da saúde pressupõem uma
sequência de etapas relativamente simples que vão do planejamento da pesquisa até a
elaboração do relatório final, passando pela coleta e processamento dos dados. Uma
atribuição precípua da estatística aplicada aos estudos epidemiológicos, por exemplo,
é a consolidação de dados obtidos de amostras ou populações, de modo que estes
possam ser lidos e interpretados em seu conjunto. Desse modo, a etapa subsequente à
coleta de dados é a construção de uma base em que tais dados sejam organizados de
forma a facilitar as tarefas de análise.
Existem diversos programas de computador em que esta tarefa pode ser
realizada, alguns mais sofisticados e outros menos, outros mais caros e outros
gratuitos. No Brasil, dentre os mais utilizados pelas universidades e institutos de
pesquisa, temos o IBM® SPSS® Statistics 20 e o STATA® 12 como representantes dos
softwares pagos. Dentre os gratuitos há os que funcionam em “modo Web”, ou seja, é
possível realizar alguns cálculos estatísticos a partir de um aplicativo que roda em uma
página na Internet, geralmente vinculada a alguma instituição, e os que funcionam em
modo Desktop (no próprio computador), um dos mais populares é o Epi InfoTM
7,
programa em versão mais atual que foi criado ainda na década de 80 pelo Centers for
Disease Control and Prevention (CDC) sediado em Atlanta, EUA. Ele foi desenvolvido
com o objetivo de servir de suporte para entrada e processamento de dados
epidemiológicos, para uso em Saúde Pública e é um programa de “domínio público”,
ou seja, sua distribuição é livre e gratuita, podendo ser copiado de sítios da Internet
em várias partes do mundo, sendo o principal deles o do próprio CDC.
No campo da estatística, o programa “R” tem sido bastante utilizado por
universidades, porém sofre com as constantes reclamações de novos usuários que não
se adaptam à sua interface relativamente complexa. Mais recentemente, foi
disponibilizado, pela mesma empresa ligada a Free Software Fundation que elaborou o
“R”, um equivalente ao IBM® SPSS® Statistics 20, denominado PSPP Gnu 0.7.8 (11-11-
2011), que possui uma interface semelhante, além de apresentar praticamente os
mesmos comandos e também a capacidade de ler e gravar os arquivos no mesmo
formato (.SAV). Já existe a versão em língua portuguesa.
Este tutorial abordará as estratégias necessárias para a construção da base de
dados para pesquisas na área das ciências da saúde, dando especial destaque à
tabulação eletrônica e análise descritiva dos dados a partir do IBM® SPSS® Statistics 20.

Histórico
O SPSS é provavelmente mais velho que você. Em 2011 completou 42 anos e a
média de idade do brasileiro é 32 anos. Na Universidade de Stanford na década de 60,
Norman H. Nie, C. Hadlai (Tex) Hull e Dale H. Bent desenvolveram o sistema original
chamado Statistical Package of the Social Sciences (SPSS). Eles necessitavam analisar
uma grande quantidade de dados em ciências sociais e resolveram criar um software
que fizesse isso. Na década de 70, a popularidade ganhou grandes dimensões quando
produziram o primeiro manual. A popularidade se estendeu das universidades para
outras áreas do governo e ganhou popularidade na iniciativa privada. Na década de 80,
uma versão do software foi transferida para o computador pessoal. Em 2008, o nome
foi alterado para Predictive Analysis Software (PASW). Em 2009, o SPSS Inc. foi
adquirido pela IBM Corporation e o nome do produto voltou ao mais familiar SPSS. O
nome oficial do software hoje é IBM® SPSS® Statistics 20. O software está disponível
em diversas edições – Standard Edition, Professional Edition e Premium Edition,
conforme se resume na Tabela 01. O software também apresenta certo número de
add-ons com propósitos especiais disponíveis.
Tabela 01 – Edições do software IBM® SPSS® Statistics.
Edição Recursos
Standard Estatísticas básicas
Modelos lineares
Modelos não lineares
Tabelas personalizadas
Professional Preparação de dados
Validação de dados e valores ausentes
Dados categóricos
Árvores de decisão
Previsão
Premium Modelagem de equação estrutural
Bootstrapping
2
Avaliação e teste de amostragem complexa
Procedimentos para marketing direto e tomada de decisão de produtos
Gráficos e tabelas de alta qualidade
2
É uma abordagem para validar um modelo multivariado extraindo-se um grande número de sub-amostras e
estimando modelos para cada uma delas. Estimativas a partir de todas as sub-amostras são combinadas em
seguida, fornecendo não apenas os melhores coeficientes estimados, mas também sua variabilidade esperada e,
assim, sua probabilidade de diferenciar do zero; ou seja, os coeficientes estimados são estatisticamente diferentes
de zero? Essa abordagem não depende de suposições estatísticas sobre a população para avaliar significância
estatística, mas, ao invés disso, faz sua avaliação baseada somente nos dados amostrais.

Funcionamento Básico
Os desenvolvedores do IBM® SPSS® Statistics 20 fizeram um esforço para
chegar a um software fácil de usar. Tudo isso para prevenir o usuário dos erros. Claro
que isto não torna impossível de se fazer algo errado, mas o software IBM® SPSS®
Statistics 20 trabalha de forma a minimizar isso. Sempre se define um conjunto de
variáveis, então se entra com os dados para estas variáveis para se criar um número de
casos. Por exemplo, se queremos fazer uma análise de automóveis, cada carro em
nosso estudo será um caso. As variáveis que definem os casos poderiam ser coisas
como ano de fabricação, potência e centímetros cúbicos de deslocamento. Cada carro
no estudo é definido como um simples caso e cada um deles é definido como um
conjunto de valores atribuídos ao conjunto de variáveis. Cada caso tem um valor para
cada variável (bem, podemos ter um missing value ou valor ausente, mas esta é uma
situação especial descrita mais a frente).
Cada variável é um tipo específico. Isto é, cada variável é definida como
contendo certo tipo de número. Por exemplo, uma variável escalar é uma medida
numérica, tal como peso ou quilômetros por litro. Uma variável qualitativa contém
valores que definem uma categoria; por exemplo, uma variável chamada gênero
poderia ser uma variável qualitativa definida por conter somente valores 1 para
feminino e 2 para masculino. Coisas que somente fazem sentido para um tipo de
variável não necessariamente fazem sentido para outra. Por exemplo, faz sentido
calcular a média de quilômetros por litro, mas não a média de gênero.
Após inserir os dados no IBM® SPSS® Statistics 20 – os casos estiverem todos
definidos por valores registrados nas variáveis – podemos facilmente executar uma
análise. Já terminamos a parte mais difícil. Executar a análise dos dados é simples se
comparada com a entrada de dados. Para rodar uma análise, seleciona-se um tipo de
análise no menu, seleciona-se as variáveis apropriadas e clica no botão OK. O SPSS lê
todos os casos, realiza a análise e apresenta o output (saída de dados) como tabelas e
gráficos.
Podemos instruir o IBM® SPSS® Statistics 20 a criar gráficos e tabelas
diretamente dos nossos dados da mesma forma como fazemos uma análise. Quando
estamos preparando o IBM® SPSS® Statistics 20 para executar uma análise ou criar um
gráfico, o botão OK fica indisponível até que façamos todas as escolhas necessárias
para produzir o output. Não somente requer que nós selecionemos um número
suficiente de variáveis para produzir o output, mas também requer que escolhemos os
tipos certos de variáveis. Se uma variável qualitativa é necessária para uma certa
abertura, o IBM® SPSS® Statistics 20 não permitirá que escolhemos qualquer outro

tipo. Todo output do IBM® SPSS® Statistics 20 vai pro mesmo lugar – uma caixa de
diálogo chamada Saída. Ela se abre para exibir os resultados de tudo o que fizemos.
Após termos produzido o output, se realizarmos alguma ação que produza mais
output, o novo output é exibido na mesma caixa de diálogo. E quase tudo que fazemos
produz output.

Requisitos do Sistema
IBM® SPSS® Statistics 20 para Windows
Sistema Operacional
Microsoft Windows XP (Professional, 32-bit), Vista® (Home, Business, 32- ou 64-bit) ou
Windows 7 (32- ou 64-bit).
Hardware
• Processador: Intel® ou AMD x86 executando 1GHz, maior é recomendado
• Memória: 1GB de RAM, mais é recomendado
• Mínimo de espaço livre em disco: 800MB
• Drive de DVD
• Monitor XGA (1024x768) ou resolução maior
• Para conectar com o IBM SPSS Statistics Server, um adaptador de rede rodando
protocolo de rede TCP/IP.
IBM® SPSS® Statistics 20 para Mac OS X
Sistema Operacional
Apple Mac OS 10.5 (Leopard) e 10.6 (Snow Leopard), (versões 32-bit e 64-bit)
Hardware
• Processador Intel
• Drive de DVD
• Monitor Super VGA (800x600) ou resolução maior
IBM® SPSS® Statistics 20 para Linux
Sistema Operacional
O SPSS Statistics foi testado e é suportado apenas no Red Hat Enterprise Linux 5 e 6 e
Debian 6. Nenhum problema com distribuições derivadas de Red Hat e Debian é
esperado, mas elas não foram testadas nem são suportadas.
Hardware
• Processador: Intel ou AMD x86 executando 1GHz, maior é recomendado
• Drive de DVD
• Monitor XGA (1024x768) ou resolução maior

Menus e Botões
Instrução de Trabalho – IT 1 – Janela de Abertura
A janela de abertura do IBM® SPSS® Statistics 20 é apresentada logo quando
abrimos o programa. Ela disponibiliza as opções de abertura de arquivos de forma
prática e rápida, mas o usuário pode optar por não tê-la numa inicialização futura.
Nela também podemos executar um tutorial básico bastante útil e objetivo que se
abrirá no browser padrão do seu sistema operacional (p.ex. Windows Internet
Explorer, Google Chrome, Firefox). Neste tutorial está disponível recursos de ajuda
(Help), tutorial propriamente dito (Tutorial), estudo de casos (Case Studies), orientador
estatístico (Statistics Coach) e add-ons (Add-ons).
Nesta opção está o
histórico de bases
abertas
recentemente
Mas, quaisquer
outra base de dados
mais antiga pode ser
aberta nesta opção.
Há um tutorial bem
simples para dúvidas
rápidas.
Inserir dados em
nova base de dados.
Pouco usada, esta
opção serve para
consultar arquivo
Database Query (*.spq).
Pouco usada, esta
opção serve para criar
consultas baseadas nos
arquivos de extensão
como .xls e .dbf
Opção OK para
executar as opções
escolhidas.
Quando marcada
esta opção, o SPSS
não mostrará esta
janela introdutória
na inicialização.

IT 2 – Interface Básica
A interface é composta por um menu onde estão basicamente todos os
comandos necessários para as análises e criações de gráficos e tabelas, botões de fácil
acesso (atalhos), abas de visualização de dados e variáveis, campo de apresentação de
valores, e as linhas e colunas para inserção de dados.
Obviamente que a lógica de acesso as funcionalidades do menu é semelhante
aquela utilizada nos programas mais conhecidos como Microsoft® Office® Excel® ou
Epi InfoTM
7 e será apresenta em tópico posterior com mais detalhes. Como
mencionado anteriormente, na parte inferior esquerda da tela são apresentadas duas
abas para visualização de dados (tela apresentada abaixo) e visualização de variáveis. A
primeira serve para inserir todos os dados referentes aos casos e variáveis
apresentados e a última é onde são listadas todas as variáveis existentes. Nesta aba de
variáveis podemos modificar seu nome, tipo e rótulo, por exemplo. É muito
importante o usuário entender como estão classificadas as variáveis dependentes e
independentes de seu estudo para facilitar as alterações necessárias nesta aba. Neste
sentido, veremos em detalhes no tópico relacionado.
Menu onde se
encontram os comandos
básicos do programa
Linhas Numeradas Colunas de variáveis
Informação sobre o estado de
funcionamento do processador.
Botões Rápidos
Neste campo aparece o
valor apresentado na linha
e coluna selecionadas
Número de variáveis
visíveis do total de
variáveis
Abas para visualização
de dados ou variáveis

IT 3 – Arquivo
No menu Arquivo está disponibilizado os comandos para criar, abrir, salvar,
visualizar impressão e imprimir um determinado arquivo. A extensão padrão do
arquivo no IBM® SPSS® Statistics 20 é o .SAV, mas podemos salvar nos principais tipos
de arquivos de dados para ser trabalhado em outros programas do gênero conhecidos
como Microsoft® Office® Excel®, Epi InfoTM
7 ou STATA® 12.
Use para abrir um novo arquivo de dados.
Use para abrir um arquivo de dados já criado.
Use para abrir um banco de dados. Por
exemplo, pode-se abrir a base DBF de um dos
agravos do Sistema de Informação de Agravos
de Notificação (SINAN).
Use para salvar os dados inseridos. Podemos
salvar em várias extensões para poder ser
rodado em outros programas como Excel,
Stata, Epi Info, SAS.
Use para salvar os dados.
Use para visualizar a impressão da
planilha de dados.
Use para imprimir os dados
visualizados no módulo de visualização.

IT 4 – Editar
No menu Editar está disponibilizado os comandos para desfazer ou refazer
determinado passo executado dentro do histórico; cortar, copiar, colar, inserir ou
eliminar linha(s) (casos) ou coluna(s) (variáveis) selecionada(s). Também é possível
através deste menu localizar quaisquer valores dentro dos casos e variáveis, bem como
podemos localizar um determinado valor e substituí-lo logo em seguida. Há dois
comandos básicos para procurar um caso ou uma variável especificada. O comando de
Opções é a parte organizacional do IBM® SPSS® Statistics 20. Nele podemos
determinar o tipo, a cor e o tamanho de fonte utilizados para melhor visualizar os
dados bem como o número de casas decimais das variáveis numéricas. Ainda podemos
modificar as tabelas dinâmicas de forma a torna-las um padrão acadêmico, por
exemplo, como os modelos determinados pelo Instituto Brasileiro de Geografia e
Estatística (IBGE) que dispensam as linhas colunares.
Use para recortar qualquer valor, linha
ou coluna que desejar.
Use para copiar qualquer valor, linha
Use para eliminar qualquer valor, linha
Use para selecionar opções capazes de
tornar seus dados mais organizados.
Use para localizar quaisquer valores
dentro das linhas e colunas
Use para localizar quaisquer valores dentro das linhas
e colunas e substituir por outro qualquer.

IT 5 – Visualizar
O menu Visualizar é o mais básico de todos. Raramente iremos necessitar de
seu uso prático. Mas, há um comando interessante que pode ser acionado: Rótulos de
valor. Este comando torna todos os valores categóricos codificados em valores
numéricos que estão nas linhas e colunas nas respectivas categorias, tornando-se
melhor a visualização dos dados numa impressão, por exemplo.
Use para transformar os valores
categóricos codificados em valores
numéricos nas respectivas categorias.
Use para ir para Visualização de
Variáveis.
Use para retirar as linhas das grades.
Toda planilha ficará em branco,
apresentando apenas os valores.

IT 6 – Dados
O menu Dados é muito importante, mas bastante complexo nas atribuições.
Nele poderemos definir as propriedades ou o nível de medida para uma variável,
identificar dados duplicados ou incomuns, classificar casos ou variáveis, dividir arquivo
ou selecionar casos (para encontrar outliers, por exemplo).
Use para identificar
casos duplicados.
Principalmente
quando há um
rastreador como o
número de
identidade ou um
soundex.
Use para classificar casos. Por exemplo,
podemos organizar os dados por
gênero. O programa separará homens e
mulheres por ordem.
Use para classificar variáveis. Por
exemplo, podemos colocar em
ordem alfabética de A a Z.
Use para mudar os valores de uma
variável para outra. Raramente se usa.
Use para dividir um
arquivo por grupo e
agrupando variáveis.
Quando desejar
separar uma análise
por gênero, p.ex. Use para encontrar
outliers (valores
discrepantes)
usando critérios de
seleção.

IT 7 – Transformar
O menu Transformar é tão importante quanto o menu Dados. Nele poderemos
calcular uma variável, fornecendo equações capazes de padronizar ou mesmo
converter valores, criar indicadores ou índices. Também podemos recodificar uma
variável numérica em uma variável qualitativa. Por exemplo, podemos transformar a
variável de idade numa variável de faixa etária, usando-se os intervalos de valores e
códigos específicos para cada faixa. O Assistente de Data e Hora é capaz de
transformar algumas variáveis que apresentam dados segregados de dias, mês e ano,
em uma única variável de data, por exemplo. Podemos também substituir valores
ausentes (missing) de uma variável ou caso através da geração de novos valores
baseados numa média da série ou de pontos próximos.
Use para encontrar
outliers (valores
discrepantes)
usando critérios de
seleção.
Use para recodificar na mesma
variável. P.ex., categorizar uma
variável idade, transformando-a
em faixa etária, mas a variável
idade assumirá os novos valores
da faixa etária.
Use para recodificar noutra
variável. P.ex., categorizar uma
variável de idade,
transformando-a em faixa
etária. Será criada uma variável
nova: faixa etária.
Use para transformar
variáveis em datas.
P.ex. variáveis Dia,
Mês e Ano, podem
transforma-se em
data.
Use para criar valores para as
células vazias nas variáveis. É útil
quando há poucos missing e cria-
se através de vários métodos.

IT 8 – Analisar
O menu Analisar é o mais importante de todos, porque é o cérebro dos testes
estatísticos disponibilizados no IBM® SPSS® Statistics 20. Para ele será dado um
capítulo especial.

IT 9 – Marketing direto
O menu Marketing direto é usado por empresas para estratégias de marketing
com clientes. Portanto, não será explorado.
IT 10 – Gráficos
O menu Gráficos é usado para criar gráficos de maneira bastante rápida e fácil.
Há diversos gráficos disponíveis e funções capazes de torna-los mais adequados a
nossa preferência.
IT 11 – Utilitários
O menu Utilitários não é usado com frequência no IBM® SPSS® Statistics 20.
Portanto, não será explorado.
IT 12 – Janela
O menu Janela apresenta as opções mutuamente excludentes e exaustivas de
visualização das janelas abertas no IBM® SPSS® Statistics 20.
IT 13 – Ajuda
O menu Ajuda não é relevante para ser explorado. Mas, contém os itens já
apresentados no IT 1 de tutorial, estudos de casos e orientador de estatísticas.
Use para criar
gráficos de maneira
fácil e bastante
intuitiva.
Use para criar gráficos através de
sugestões dadas pelo próprio
programa que se baseia no tipo de
variável trabalhada.
Use modelos diretos para a
construção de gráficos.

IT 14 – Botões Rápidos da Visualização de Dados
Os botões rápidos dão acesso prático e fácil aos principais comandos para
organização dos dados. Podemos salvar ou abrir um arquivo, ver qual foi o último
comando realizado e então determinar por retornar ao estado anterior, observar o
perfil de cada variável, inserir ou selecionar casos e variáveis. Na prática são bastante
úteis porque facilitam demais o acesso do usuário aos comandos básicos do programa.
IT 15 – Saída
O output é a saída de dados quando realizamos quaisquer mudanças
importantes, fazemos uma análise ou criamos uma tabela ou gráfico. Nele são
representados de forma bastante prática todas as tabelas relacionadas aos testes
estatísticos realizados, por exemplo. A cada nova rodada de testes não abrirá um novo
output. Os dados gerados a cada rodada de testes ficaram no mesmo output seguindo
a ordem de execução.
Abrir
arquivo
Salvar
arquivo
Imprimir
arquivo
Comandos
usados
recentemente
Ir para o
caso
Ir para a
variável
Perfil das
variáveis
Localizar
valores
Inserir
casos
Inserir
variáveis
Dividir
arquivo
Ponderar
casos
Selecionar
casos
Usar
conjunto
de variáveis
Rótulos de
valor
Tabelas podem
ser padronizadas
Histórico das
saídas

Variáveis
A maioria das tarefas de investigação
exige que seja realizada uma fase de coleta
dos dados. Estes dados são a matéria-prima
da Bioestatística. Os dados se resumem
mediante uma série de números que se
calculam a partir dos dados iniciais. A estes
novos números, que, de algum modo,
extraem a informação importante que estão
nos dados, se denomina índices estatísticos.
As qualidades ou quantidades reconhecidas
de cada indivíduo se chamam variáveis,
porque variam de um sujeito a outro.
Grosso modo, “variável” pode ser definida
como a expressão numérica de qualquer
evento da natureza. É tudo aquilo que se
deseja estudar e que pode ser traduzido em números, seja através de contagem,
mensuração ou classificação. As variáveis, portanto, estão associadas a eventos
contábeis, mensuráveis ou classificáveis; e, considerando a natureza complexa dos
objetos de estudo da epidemiologia, possuem limitações diretamente proporcionais à
subjetividade do evento. Ao contarmos uma certa quantidade de eventos ou
medirmos alguns deles, geramos variáveis ditas quantitativas; ao classificamos os
eventos obtemos variáveis do tipo qualitativas (Tabela 02). Peso, altura, temperatura,
glicemia são exemplos de variáveis quantitativas e sexo, etnia, grau de instrução e
moradia são exemplos de variáveis qualitativas.
Tabela 02 – Classificação das variáveis.
Função Natureza Tipo
Escala de
mensuração
Hipótese Utilidade
Dependente
ou
Independente
Qualitativa
Nominal Nominal Categorias com nome Classificar
Ordinal Ordinal
Como as nominais + categorias
ordenadas
Hierarquizar
Quantitativa
Discreta Intervalar
Como as ordinais + intervalos
iguais
Medir
Contínua Razão
Como as intervalares + zero
significativo
Contar
PARA LEMBRAR
Primeiro, os valores de uma variável
devem ser mutuamente excludentes. Isso
significa que uma e só uma categoria da
mesma classe (um valor da mesma
variável) pode ser atribuída a cada um
dos indivíduos em estudo.
Segundo, o conjunto dos valores possíveis
deve ser exaustivo, o que significa que
todas as possibilidades empíricas devem
ser incluídas no conjunto.

Com os recursos tecnológicos atualmente disponíveis, não se admite mais que
os dados envolvidos em pesquisas sejam tabulados manualmente. Além de demorada,
desgastante e limitada, a tabulação manual submete o estudo a um risco elevado de
erros. Com o advento e a disseminação da informática, a tabulação eletrônica tornou a
análise de dados muito mais rápida, eficiente e segura. Com isso, a descrição e a
análise dependem, fundamentalmente, de uma cuidadosa elaboração do banco de
dados da pesquisa. A correspondência entre o banco de dados e o instrumento da
coleta de dados na pesquisa facilita a digitação e, posteriormente, a análise dos dados.
Portanto, é fundamental que o usuário do IBM® SPSS® Statistics 20 crie um quadro em
que sejam explicitadas as informações relativas ao banco de dados, particularmente os
códigos empregados (Tabela 03).
Tabela 03 – Descrição de variáveis em um banco de dados.
Variável Descrição Tipo Categorias/Escala de medida
sexo Sexo Qualitativa Nominal 1- Masculino
2- Feminino
9- Sem Informação
raca Cor ou Raça Qualitativa Nominal 1-Branca
2-Preta
3-Amarela
4-Parda
5-Indígena
9-sem Informação
pessoas Número de moradores Quantitativa Discreta Total de pessoas
comodos Número de cômodos Quantitativa Discreta Total de cômodos
renda Renda Familiar Mensal Qualitativa Nominal 1-Até 500 reais
2-De 501 a 1.500 reais
3-De 1.501 a 2.500
4-Mais de 2.500 reais
9-Não sabe/Não respondeu
anos_est Anos de estudo Quantitativa discreta Número de anos completados
desde o ensino fundamental
consulta Consulta ao Dentista Qualitativa Nominal 0-Não
1-Sim
9-Não sabe/não respondeu
frequencia Qualitativa Nominal 1-Menos de 1 ano
2-De 1 a 2 anos
3-3 ou mais anos
8-Não se aplica
9-Não sabe/não respondeu
Na área de Visualização de variáveis do IBM® SPSS® Statistics 20, deve-se
observar que a primeira coluna (Nome) deve conter os nomes das variáveis escritos
em minúsculo, sem caracteres especiais ou símbolos (semelhantemente ao que se faz
quando criamos um e-mail), em formato alfanumérico (não pode começar com
números) e limitado ao máximo de 64 caracteres. Claramente não é interessante

colocar nomes de variáveis com mais de 10 caracteres, porque torna-se uma
informação completamente poluída e influenciará no processamento dos dados por
questões óbvias. Já a descrição (Rótulo) da variável determina o texto que será
apresentado na saída (output) ao invés do nome da variável. Caso não haja nenhuma
descrição, o IBM® SPSS® Statistics 20 entenderá o nome da variável como a descrição
mais próxima. O quadro exemplificado na Tabela 03 ajudará nas definições de variáveis
disponibilizada pelo IBM® SPSS® Statistics 20.

Base de Dados
A base de dados deve ser construída primeiramente pela criação das variáveis.
Portanto, a tabela de classificação das variáveis, já discutida anteriormente, deverá ser
utilizada para o preenchimento dos campos na Visualização de variáveis. Nesta área há
11 colunas a serem preenchidas para a qualificação ou definição das variáveis. Pode-se
observar que, na Visualização de variáveis, cada variável é definida a partir dos
seguintes parâmetros:
Nome: Nome da variável. Conforme discutimos anteriormente, deve-se usar,
preferencialmente, até dez caracteres, sem utilização de cedilhas, acentos e espaços.
Tipo: Tipo de variável. Existem diversos tipos disponíveis, porém os mais utilizados são
o formato Sequência, para variáveis qualitativas, e o Numérico, para dados
quantitativos, além de diferentes opções para o registro de datas. Trata-se de uma
propriedade importante, pois irá definir a forma como o programa interpretará o
dado. Uma variável do tipo Sequência, por exemplo, não permite operações
matemáticas nem a obtenção de medidas de tendência central e de variabilidade; para
sua análise, só poderão ser obtidas frequências.
Largura: Tamanho do campo. Deve ser informado com quantos caracteres é formada
cada categoria da variável. Por exemplo, se estamos trabalhando com renda e o
máximo encontrado foi de 20 mil reais, então o campo deverá ter 5 algarismos.
Embora colocar um tamanho maior que o necessário não atrapalhe a análise, é
importante se ater ao número correto, pois isso irá economizar “bytes”, gerando um
banco de dados menor e, consequentemente, de mais fácil manuseio.
Decimais: Número de casas decimais. Aplicável somente para as variáveis numéricas. É
um complemento da especificação anterior.
Rótulo: Rótulo da variável. Deve-se colocar o nome que descreve a variável e que
deverá aparecer quando as análises forem solicitadas. Caso não seja informado,
aparecerá o nome da variável.
Valores: Valores atribuídos aos dados. Aplica-se às variáveis qualitativas, e é muito
importante na hora da geração dos relatórios.
Ausente: Informação não disponível. Quando, por algum motivo, não se tem o dado
disponível, deve-se entrar com um valor que indique a ausência de informação. É
importante que seja informado, neste item, qual o valor que referencia esta condição,
para que o programa o exclua dos cálculos.

Medir: Escala de medida. Trata-se de um complemento do tipo de variável. Há as
opções Escala, quando os dados advêm de medidas quantitativas, Nominal, para dados
categóricos nominais, e Ordinal, para variáveis qualitativas do tipo ordinal.
❻ Decida como o
programa avaliará um
valor ausente. Use 9, 99
ou 999, por exemplo.
❶ Selecione a aba
Visualização de variável
❷ Coloque o nome da primeira variável,
conforme representado na tabela de
classificação que construímos.
❸ Escolha o tipo de variável a ser trabalhada.
Neste campo, usamos Numérico para variáveis
numéricas, Sequência para variáveis qualitativas e
Data para variáveis contendo datas.
❹ Coloque a descrição da primeira variável,
conforme representado na tabela de classificação
que construímos. Aqui se permite mais de 1000
caracteres, porém dificilmente utilizaremos essa
quantidade para descrever uma variável.
❺ Os Rótulos de valor são dados de acordo
com os códigos estabelecidos na tabela que
construímos. Por exemplo, 1 (Valor) para
codificar o gênero Feminino (Rótulo) e 2 para
Masculino.
❼ Escolha qual tipo de
mensuração melhor
caracteriza a variável.

Quando todas as variáveis estiverem descritas no IBM® SPSS® Statistics 20, a
área de Visualização de variáveis terá esta aparência a seguir:
É importante observar que idealmente
todos os campos necessitam estar preenchidos
para melhor qualidade dos dados processados
pelo IBM® SPSS® Statistics 20 e também para
facilitar o entendimento destes dados gerados
a partir da execução de qualquer teste
estatístico.
Depois de criarmos as variáveis e suas
definições, devemos agora partir para a
digitação dos dados (casos) nas respectivas
variáveis criadas. Para isso, temos que sair da
Visualização de variáveis e entrar na
Visualização de dados. Nesta área, os casos são
apresentados nas linhas e as variáveis são
distribuídas nas colunas. O cruzamento entre
as linhas e colunas dão os valores de cada
célula ou casela. À medida que digitamos os
casos estamos propensos a cometer erros.
Estes erros podem vir na forma de dados
ausentes, aberrantes ou mesmo de codificação
diferente daquela estabelecida para
determinada variável. Portanto, é importante
que façamos uma releitura de todos os dados
para minimizar ou eliminar os erros de digitação. Podemos criar inclusive critérios de
validação de entrada de dados. Isso é particularmente importante quando diferentes
digitadores contribuem para a informatização dos dados e diminui consideravelmente
os erros de digitação. Em alguns casos, por exemplo, se recomenda a digitação dupla
ou tripla para minimizar o risco de erros.
Após a base de dados está pronta, ainda deve ser realizada uma avaliação, por
amostragem, do percentual de erros de digitação. A simples verificação da distribuição
de frequência das variáveis em estudo possibilita a identificação de valores aberrantes,
IMPORTANTE
A codificação das variáveis pode ser
efetuada durante a construção do
instrumento de coleta de dados.
Caso isso não tenha sido feito, a
codificação poderá ser realizada por
ocasião da entrada dos dados em
uma base eletrônica. Os códigos
devem ser, preferencialmente,
numéricos e com um único dígito, a
não ser, obviamente, quando se
trabalha com variáveis quantitativas
que demandam outras escalas de
medida. Podem ser usadas letras
como códigos, quando o número de
categorias passa de 10. A utilização
de códigos numéricos facilita
bastante a digitação, pelo fato de
permitirem efetuá-la
exclusivamente através do teclado
numérico do computador, uma
estratégia muito utilizada por
digitadores profissionais.

possivelmente fruto de erros de digitação ou anotação, permitindo assim sua correção.
Por exemplo, se a variável “Acesso ao Serviço de Urgência” foi categorizada em “Sim”
como código 1, “Não” como código 2 e “Não Informado” como código 9, apenas estas
três possibilidades devem constar quando da saída da distribuição de frequência.
Outros valores configuram erros de digitação ou anotação e são passíveis de serem
identificados.
Embora o IBM® SPSS® Statistics 20 ignore as células deixadas em branco na
análise, recomenda-se evitar deixar a variável sem preenchimento para evitar
confusão. O IBM® SPSS® Statistics 20 também permite que um determinado código,
por exemplo, os números 9, 99 ou 999 sejam interpretados como informação não
disponível (missing), o que facilita bastante a análise.
Recomendamos que o dado seja captado em sua expressão numérica primária,
evitando categorias estabelecidas a priori. Esta recomendação é útil tanto na
construção do instrumento de coleta de dados, como na criação do banco
informatizado. Ao se avaliar a renda mensal familiar, por exemplo, é mais prático
captar a renda em reais para, somente durante a análise estabelecer as faixas de renda
ou transformação em outra unidade, como salários mínimos. Ao se obter a informação
já incluída em faixas pré-estabelecidas, perde-se a informação original, além de haver
o risco de uma distribuição heterogênea da variável entre os elementos amostrais. A
classificação de faixas de renda (por exemplo, “menos de um salário mínimo”, “de um
a dois” e “dois ou mais salários mínimos”) pode ser muito útil para pesquisas
envolvendo população de baixa renda, mas teria pouca utilidade em bairros de classe
média alta. Outro exemplo diz respeito à escolaridade, que pode ser expressa em
número de anos de estudo, evitando a obtenção da informação por graus (ensino
fundamental, médio e superior).
Uma vez que os dados foram digitados e conferidos, duas operações
importantes podem ser feitas, a manipulação das variáveis e a análise dos dados. Caso
não seja preciso criar ou modificar nenhuma variável, pode-se passar diretamente para
a análise.
De qualquer modo, independentemente da complexidade do estudo, é
importante que seja traçado um plano de análise, o qual deve ser coerente com a
hipótese do estudo. Para o exemplo que utilizaremos nesse texto, está sendo buscada
uma relação entre uma variável dependente (diabetes) e uma ou mais variáveis
independentes (renda, obesidade, sexo, dentre outras) (Figura 01).
Em se tratando de variáveis quantitativas, inicialmente temos que observar a
adequação dos nossos dados à distribuição normal, levando em consideração três
critérios básicos:

 A média mais três desvios padrões e média menos três desvios padrões.
Os valores mínimo e máximo devem estar contidos nesse intervalo.
 A curtose deve ser menor que duas vezes seu erro padrão. O mesmo
deve ser utilizado para a medida de assimetria.
 Um ponto a ser destacado é que em amostras muito pequenas (menor
que 15), a melhor maneira de verificar a existência de distribuição
normal é observar a distribuição de frequência dos seus dados para
aquelas variáveis através da construção de um histograma.
Figura 01 – Variáveis associadas com a relação entre obesidade e diabetes.
Neste caso, a variável dependente (diabetes) deve ser analisada em função de
todas as variáveis independentes. Pelo fato das variáveis terem características
diferentes (qualitativas e quantitativas) devem passar por procedimentos específicos
para cada tipo, conforme descrito na Tabela 04.
Variáveis Independentes
de Confusão
Variável Dependente
Variável Independente Obesidade
Diabetes
Sexo Raça
Anos de
estudo
Renda Idade

Tabela 04 – Procedimentos e rotinas computacionais de acordo com a natureza das
variáveis dependentes e independentes.
Variável
Dependente
Variável
Independente
Procedimento
Estatístico
Rotina do SPSS Informações adicionais
Quantitativa Qualitativa Comparação de
Médias e/ou outras
medidas de tendência
central de caráter
eminentemente
descritivo
Analisar > Comparar
média > Médias...
Lista dependente: inserir
a(s) variável(eis) de
natureza quantitativa
Lista independente:
inserir a(s) variável(eis) de
natureza qualitativa
Opções: escolher quais as
medidas que se deseja
calcular
Camada: Possibilidade de
incluir mais de uma
variável independente ao
mesmo tempo
Comparação de
Médias e/ou outras
medidas de tendência
central de caráter
inferencial
Analisar > Estatísticas
descritivas > Explorar
Lista dependente: inserir
a(s) variável(eis) de
natureza quantitativa
Lista de fator: inserir a(s)
variável(eis) de natureza
qualitativa
Estatísticas: escolher
quais as medidas que se
deseja calcular
incluir mais de uma
mesmo tempo
Qualitativa Qualitativa Comparação de
frequências a partir de
tabelas de
contingência
Analisar > Estatísticas
descritivas > Tabela
de referência
cruzada...
Células: informar qual o
critério para ilustrar a
frequência percentual
(linhas ou colunas)
Estatísticas: informar os
testes estatísticos a serem
aplicados
incluir mais de uma
mesmo tempo
Quantitativa Quantitativa Análise de correlação
bivariada
Analisar >
Correlacionar >
Bivariável...
Variáveis: informar as
variáveis a serem incluídas
na correlação
Coeficientes de
correlação: escolher os
coeficientes a serem
calculados

Categorização de Variáveis
A categorização de uma variável quantitativa pode seguir critérios teóricos ou
estatísticos. Por exemplo, o IMC (Índice de Massa Corporal) é uma variável
quantitativa, obtida a partir da divisão do peso em Kg pelo quadrado da altura em
metros. É possível, a partir da variável original do IMC, criar uma nova variável
considerando a classificação proposta para este índice, que toma como base as faixas:
até 18,5 (abaixo do peso); 18,5 a 24,9 (peso normal); 25,0 a 29,9 (sobrepeso) e assim
por diante. Em algumas situações, não existe uma proposição teórica para a
categorização e, nestes casos, o pesquisador pode optar por algum critério estatístico
como a dicotomização pela mediana ou a divisão em percentis. Vamos ver um
exemplo com a variável idade sendo transformada na variável faixa etária.
❶ Selecione Recodificar
em variáveis diferentes...
❷ Selecione uma
variável a ser categorizada
❸ Digite um nome sem
caracteres especiais ou símbolos
e um rótulo. Clique em Alterar.
❹ Clique em Valores
antigo e novo...
❺ Insira os valores do
intervalo. Por exemplo, a
segunda faixa etária será
de 13 a 22 anos de idade.
❻ Insira um código por
ordem numérica. P.ex. a
segunda faixa etária terá
código 2.
❼ Adicione a categoria
criada.
❽ Clique em Continuar.
❾ Clique em OK e abrirá
uma informação de saída.
Caso opte por Recodificar
nas mesmas variáveis
haverá substituição de
todos os valores da nova
variável pela antiga.

❿ Clique para adicionar
os Rótulos de valor
⓫ Adicione todos os
Rótulos relacionados aos
códigos de cada categoria
criada (p.ex. faixas etárias)
⓬ Clique OK

Transformar Variáveis Quantitativas
Em certas situações, o pesquisador necessita criar uma nova variável a partir de
alguma operação matemática entre duas variáveis quantitativas. Por exemplo, se
existir na base de dados as variáveis originais de peso e altura, o IMC poderá ser
calculado e armazenado em uma nova variável.
O comando utilizado para este tipo de operação é o “Transformar > Calcular
variável...”. Vamos exemplificar este procedimento com a criação da variável
“Aglomeração Domiciliar” que é obtida a partir de divisão do número de pessoas no
domicílio pelo número de cômodos existente na casa.
❶ Clique em Calcular
variável...
❷ Crie um nome para a nova
variável de destino. P.ex. aglomera
❹ Clique na barra de
divisão “/”
❸ Clique duas vezes sobre a
variável que ficará no numerador
para adicioná-la ao campo de
Expressão numérica.
❺ Clique duas vezes sobre
a variável que ficará no
denominador para adicioná-
la ao campo de Expressão
numérica.
❻ Clique OK. Abrirá uma
saída informando a criação da
nova variável.

Dados Perdidos
Os dados perdidos consistem de informação não disponível de um individuo (ou
caso) sobre o qual outra informação está disponível. Os dados perdidos
frequentemente ocorrem quando um respondente deixa de responder uma ou mais
questões em uma pesquisa. Os dados perdidos ignoráveis são aqueles explicitamente
inidentificáveis e/ou estão sob controle do pesquisador. Os dados perdidos ignoráveis
não demandam ações corretivas, pois os dados perdidos são explicitamente tratados
na técnica empregada. Mas, os dados censurados demandam atenção do pesquisador.
Estas observações incompletas de uma maneira sistemática e conhecida são exemplos
de dados perdidos ignoráveis. Um exemplo ocorre no estudo de causas de morte em
uma amostra na qual alguns indivíduos ainda estão vivos.
❶ Clique em Frequências...
❷ Selecione e adicione a
variável
❸ Clique OK. Abrirá uma
saída mostrando a tabela de
frequência.
❹ Observe pelos valores
ausentes (Missing). Neste
exemplo, tivemos 21 dados
perdidos (1,7%). Dados
perdidos abaixo de 10% para
um caso ou observação
individual podem geralmente
ser ignorados, exceto quando
não são perdas aleatórias.

Seguimos algumas regras práticas para eliminações baseadas em dados
perdidos:
 Variáveis com 15% de dados perdidos ou menos são candidatas para
eliminação, mas níveis mais elevados (20% a 30%) muitas vezes podem ser
remediados.
 Certifique-se de que a diminuição nos dados perdidos é grande o bastante para
justificar a eliminação de uma variável ou caso individual.
 Casos com dados perdidos para variáveis dependentes tipicamente são
eliminados para evitar qualquer aumento artificial em relações com variáveis
independentes.
 Quando eliminar uma variável, garanta que variáveis alternativas,
preferencialmente altamente correlacionadas, estão disponíveis para
representar a intenção da variável original.
 Sempre considere a possibilidade de executar a análise com e sem os casos ou
variáveis eliminados para identificar diferenças evidentes.
Podemos usar métodos de atribuição para substituir dados perdidos. Por
exemplo, podemos usar somente os dados válidos para representar uma amostra
inteira, ou seja, realizar uma abordagem de caso completo. Aqui na verdade não se
substitui valores, mas desconsideram-se os ausentes. O IBM® SPSS® Statistics 20
assume este método chamando-o de listwise (excluir casos por lista). É sabido que com
apenas 2% de dados perdidos aleatoriamente, mais de 18% dos casos terá algum dado
perdido. Assim, mesmo envolvendo quantias muito pequenas de dados perdidos, o
tamanho resultante da amostra é reduzido a algo inadequado quando tal abordagem é
utilizada. Outro método chamado pairwise (excluir casos por par) também usa
somente dados válidos e não substitui os dados perdidos, mas atribui as características
de distribuição (p.ex. médias) ou de relação (p.ex. correlações) a partir de cada valor
válido. É um método de disponibilidade total. Podemos também substituir
determinados valores ausentes por outros disponíveis de outros estudos externos ou
de variáveis de características semelhantes na própria base; por isso, o pesquisador
precisa estar certo de que o valor de substituição de uma fonte externa é mais válido
do que um valor gerado internamente. Alternativamente, podemos também substituir
valores ausentes pela média (com base em todas as respostas válidas), mas iremos
assim subestimar o valor da variância, comprimir a correlação observada e distorcer a
real distribuição de valores; ou podemos substituir por regressão, mas terá a
desvantagem de reforçar as relações já presentes nos dados, a variância será
subestimada, a amostra necessita ser grande e esse método pressupõe que a variável
de dados perdidos tem correlações substanciais com outras variáveis. Por isso, se as
variáveis não apresentarem correlações suficientes para produzir uma estimativa

significativa, então a substituição pela média é preferível. Vejamos um exemplo de
substituição com a variável idade no tópico a seguir.
❶ Observe que na variável
idade há 21 dados ausentes.
❷ Clique em Substituir
valores ausentes...
❸ Selecione e adicione a
variável com dados ausentes
no campo de Novas variáveis.
❹ Escolha o método de
substituição. Usamos
frequentemente a Média de série.
❺ Clique Ok. Aparecerá a
saída com a tabela de
variáveis resultantes.
❻ Os 21 valores ausentes
foram substituídos pela média
38,82.

Observações Atípicas
Na coleta de dados, há muitas possibilidades de erros acontecerem. O
pesquisador pode ler erroneamente o instrumento de medição, transpor números,
registrar dados no lugar errado, apresentar a condição ou instruções experimentais
erradas, e falhar em perceber que o equipamento está em mal funcionamento.
Frequentemente estes erros produzem valores que são indistinguíveis dos dados
corretos e continuam não detectados. Se adicionássemos uma pessoa de 250Kg numa
amostra de estudantes de bioestatística, saberíamos que alguma coisa saiu errada. Os
valores que são normalmente maiores ou menores relativos a outros valores são
chamados de observações atípicas ou outliers.
Os outliers podem afetar seriamente a integridade dos dodos e resultam em
conclusões imperfeitas e na estatística amostral enviesada ou distorcida. Alguns
outliers são óbvios, tais como um peso de 310Kg para uma pessoa. Mas, há outras
situações que as “áreas cinzas” prevalecem.
Alguns critérios foram sugeridos para identificar outliers óbvios e não óbvios:
 qualquer valor que caía fora do intervalo dado pela mediana mais ou
menos duas vezes a distância interquartílica.
 qualquer valor que caía fora do intervalo dado pela média mais ou
menos duas vezes e meia o desvio padrão.
Dos dois critérios, o primeiro é preferido porque a mediana, o , e o são
menos influenciados pelos valores extremos que a média e o desvio padrão. Uma regra
muito usada para detectar outliers é baseada no gráfico tipo boxplot. Outliers devem
ser cuidadosamente examinados. Sua presença sugere a possibilidade de alguma
forma de contaminação dos dados. Os dados que são obviamente errados devem ser
corrigidos ou descartados. No gráfico boxplot mostrado a seguir estão representados
os dados considerados atípicos através de pequenos circulos acima do bigode superior
(outlier superior). É importante observar neste boxplot que é completamente possível
uma pessoa ter 80 anos de idade e, portanto, não necessariamente o que se indica
como outlier é verdadeiro.

❶ Clique em Analizar >
Estatísticas descritivas >
Explorar...
❷ Adicione a variável a ser
avaliada para a apresença de
valores atípicos ❸ Clique em Estatísticas
❹ Marque os valores
discrepantes e clique em
Continuar
❺ Clique OK
❻ A saída apresentará a média (Mean), o
desvio padrão (Std. Deviation), mediana
(Median) e o intervalo interquartílico
(Interquartile Range) para os respectivos
cálculos de detecção de valores atípicos.
Qualquer valor que caía fora do intervalo dado
pela mediana mais ou menos duas vezes a
distância interquartílica ou qualquer valor que
caía fora do intervalo dado pela média mais ou
menos duas vezes e meia o desvio padrão.

Normalidade
A distribuição normal é uma das mais importantes distribuições da estatística,
conhecida também como Distribuição de Gauss ou Gaussiana. Ser normal é pertencer
a uma classe de características universais para uma determinada população
observada. É o que é comum, dada uma característica avaliada. Sua antítese, a
“anormalidade” é caracterizada pela não aceitação do comum e preconiza preconceito
de definição uma vez que as observações atípicas, ou minoritárias, não dispõem de
força suficiente para compor significativamente uma população. Para a estatística os
estudos das populações pressupõem na maioria das vezes que o comportamento delas
seja normal. Ou seja, poucos indivíduos com características divergentes e muitos
indivíduos com características semelhantes ou comuns. Assim, quando um
pesquisador colhe uma amostra de uma dada população para o estudo de seu
comportamento ele não precisará colher informações de um número elevado de
indivíduos, pois como a maioria demonstra características similares basta que ele
quantifique a similaridade e pegar alguns elementos deste grupo e avaliar o
comportamento de toda a população através de um grupo limitado de indivíduos.
Em geral, uma distribuição normal se caracteriza por apresentar-se
graficamente:
 Uma curva em forma de sino.
 Uma curva simétrica.
 Uma curva mesocúrtica
 Coincidir nela a média, mediana e moda.
 Ter aproximadamente 95% de seus valores dentro do intervalo
(média mais ou menos dois desvios padrões). Exatamente, 95% dos
indivíduos se encontram dentro do intervalo compreendido por
. Inclusive, podemos afirmar que quase 100% dos valores
estão dentro do intervalo .
 Ser a distribuição amostral que seguem os índices ou estimadores
estatísticos calculados numa amostra.
Em se tratando de variáveis quantitativas, inicialmente temos que observar a
adequação dos nossos dados à distribuição normal, levando em consideração alguns
critérios importantes:
 Obter a média mais três desvios padrões e a média menos três desvios
padrões. Os valores mínimo e máximo devem estar contidos nesse
intervalo.

 O módulo da curtose deve ser menor que duas vezes seu erro padrão. O
mesmo deve ser utilizado para a medida de assimetria.
 Um ponto a ser destacado é que em amostras muito pequenas (< 15), a
melhor maneira de verificar a existência de distribuição normal é
observar a distribuição de frequência dos seus dados para aquelas
variáveis através da construção de um histograma.
Existem diversos testes para comprovar se os valores de uma variével segurem
ou não a distribuição normal. Quando resultam significativos (valor de significância
estatística <0,05) se rejeita a hipótese de normalidade. Mas estes testes precisam ser
interpretados com cautela, sempre à luz do número de indivíduos que temos dado
sobre essa variável. Se o número de indivíduos da amostra base de dados for muito
grande, basta um pequeno desvio da normalidade para que o teste alcance um
resultado significativo e se rejeite a normalidade. Ao contrário, quando há poucos
dados, quase nunca se disporá de evidências para descartar a normalidade e os testes
não alcançam significância, apesar de existirem desvios importantes da normalidade.
Se o tamanho da amostra for muito grande terá falsos positivos, se o tamanho da
amostra for pequeno terá falsos negativos (interpretando “positivo” como teste
significativo).
Alguns testes desenhados para comprovar a normalidade são:
 Teste de Shapiro-Wilk W.
 Teste de Kolmogorov-Smirnov.
 Teste de Lilliefors.
Todos estes procedimentos são testes de hipóteses e dão como resultado final
um valor de probabilidade (valor ) ou de significância estatística. O pesquisador deve
sempre lembrar que os testes de significância são menos úteis em amostras pequenas
(menos que 30) e muito sensíveis em amostras grandes (mais que 1.000 observações).
Logo, o pesquisador deve usar sempre testes gráficos e estatísticos para avaliar o grau
real de desvio da normalidade.
Como se interpreta os testes estatísticos de normalidade? São provas que
calculam qual seria a probabilidade de encontrar esta distribuição dos dados (ou uma
mais longe da normalidade) se na população da qual procede a amostra essa variável
seguir uma distribuição normal perfeita. Para estes testes, a hipótese nula é a
normalidade. Portanto, se a probabilidade de encontrar estes dados supondo que a
distribuição segue uma normal perfeita (valor ) for alta, não há evidências
para rejeitar a hipótese nula e pode-se assumir que a amostra procede de uma
população que segue a normal. Mas quando o valor p de qualquer destes testes for
inferior a 0,05, é possível que existam dificuldades para assumir a normalidade. De
qualquer forma, quando temos uma mostra muito grande (n>60), com frequência se

pode assumir a normalidade para sua distribuição normal, embora estes testes
alcancem um valor p<0,05, já que os estimadores calculados em amostras grandes,
segundo se deriva do teorema central do limite, tendem a aproximar-se à distribuição
normal.
Para completar a descrição de uma distribuição, necessitamos de mais duas
estatísticas: Os índices de assimetria e curtose. A assimetria refere-se ao enviesamento
da distribuição e a curtose ao seu achatamento ou nivelamento. Vários índices de
assimetria foram desenvolvidos. Se uma distribuição for simétrica, ; se for
positivamente enviesada, ; e se for negativamente enviesada, . Se uma
distribuição é mais achatada (tem uma corcunda ampla e caudas espessas) que a
distribuição normal, é chamada platicúrtica, e . Se seu achatamento for o
mesmo que a distribuição normal, é mesocúrtica, . Se for mais pontiaguda
(tem uma corcunda estreita e caudas mais finas) que a distribuição normal, é
leptocúrtica, e .
Explorar...
❸ Clique em Diagramas
❺ Clique OK
❹ Marque Diagramas
de normalidade com
testes e Histograma e
clique Continuar
❻ A saída apresentará a média (Mean), o
desvio padrão (Std. Deviation), mediana
(Median) e o intervalo interquartílico
(Interquartile Range). Calcule a média ± 3
desvios padrões = 4,68 e 72,96 (não atende ao
primeiro pressuposto de normalidade, porque
os valores mínimo e máximo não estão contidos
neste intervalo).
❷Selecione a variável para
testar a normalidade.

❼ A saída apresentará a assimetria
(Skewness) e a curtose (Kurtosis) da
distribuição normal. A assimetria não é
menor que duas vezes o erro padrão
respectivo. Portanto, não atende ao
pressuposto de normalidade.
❽ A saída apresentará dois testes
estatísticos de normalidade: KS e SW.
Ambos foram significativos ao nível de
significância de 95%. Portanto, rejeita-se
a hipótese nula de normalidade.

Medidas de Centro e Dispersão
Frequências...
❷ Selecione a variável para
realizar a estatística
descritiva.
❸ Clique em Estatísticas.
❹ Marque todas as medidas
desejadas de Tendência central e
Dispersão, com os Valores de
percentil, assimetria e curtose.
Clique Continuar.
❻ Clique OK.
❺ Clique em Gráficos. Há uma
opção para a apresentação de
histograma com a curva normal
desenhada. Útil para avaliar
normalidade em amostras muito
pequenas.

Tabelas Cruzadas
❶ Clique Tabela de
referência cruzada...
❷ Selecione a variável
independente e coloque na
linha, depois selecione a
variável dependente e
coloque na coluna.
❸ Clique OK.
❹ Para os testes
estatísticos de associação ou
correlação, as caselas devem
apresentar mais de 5 casos,
preferencialmente.

Gráficos
As variáveis qualitativas podem ser representadas por:
 Gráfico de barras – mostra a quantidade de dados que pertencem a
cada categoria como uma área de tamanho proporcional retangular.
 Diagrama de Pareto – gráfico de barra com as barras distribuídas da
categoria mais numerosa para aquela menos numerosa. Inclui um
gráfico de linha exibindo as porcentagens e contagens acumuladas para
as barras;
 Gráfico de pizza ou setores – mostra a quantidade de dados que
pertencem a cada categoria, tal como uma parte proporcional de um
círculo.
As variáveis qualitativas podem ser representadas por:
 Histograma – um gráfico de barras que representa uma distribuição de
frequência de uma variável quantitativa. Porém, as barras são criadas
adjacentes a cada outra (sem intervalos). A escala horizontal representa
as classes de valores quantitativos e a escala vertical representa as
frequências. As alturas das barras correspondem aos valores de
frequência;
 Diagrama de caule-e-folha – mostra os dados de uma amostra usando
os dígitos reais que compõem os valores. Cada valor numérico é dividido
em duas partes: os primeiros dígitos tornam-se o caule e os dígitos finais
tornam-se a folha. Os caules são localizados ao longo do eixo principal e
uma folha para cada valor está localizada de forma a exibir a
distribuição dos dados.
 Polígono de frequência – envolve pontos médios de classes. Usa
segmentos de linhas conectadas a pontos localizados diretamente sobre
os valores médios de classes.
 Polígono de frequência acumulativo ou ogiva – é útil para determinar o
número de valores abaixo de um valor particular. É composto de um
gráfico de linha que descreve frequências acumulativas. Uma ogiva usa
limites de classes ao longo da escala horizontal e as frequências
acumuladas ao longo da escala vertical;
 Gráfico de caixa ou boxplot – usa as relações entre mediana, quartil
superior e quartil inferior para descrever a assimetria de uma
distribuição. Os quartis superior e inferior podem ser pensados como

percentis 75 e 25 da amostra – que são os pontos 3/4 e 1/4,
respectivamente, ao longo da amostra ordenada.
 Diagrama de Pontos ou dotplot – mostra os dados de uma amostra pela
representação de cada valor com um ponto posicionado ao longo da
escala (eixo das abscissas). Esta escala pode ser horizontal ou vertical. A
frequência dos valores é representada ao longo da outra escala (eixo
das coordenadas).
A descrição gráfica da relação entre duas variáveis pode ser dada por:
 Gráfico de dispersão – é um gráfico de dados quantitativos
emparelhados (x, y) com um eixo x horizontal e um eixo y vertical. O
eixo horizontal é usado para a primeira variável (x) e o eixo vertical é
usado para a segunda variável. O padrão dos pontos plotados é muito
útil para determinar se há relação entre as duas variáveis.
Tabela 05 – Tipos mais comuns de gráficos de acordo com a classificação das variáveis
dependente e independe.
Variável Dependente Variável Independente Tipo de Gráfico Exemplo
Quantitativa Discreta ou
Contínua
Categórica Mutuamente
Exclusiva
Barras
Histograma
Boxplot
Sexo x Faixa Etária
Renda x Região
Categórica Exaustiva
Exclusiva
Barras Opinião x Profissão
Exclusiva
Exclusiva
Barras
Barras Percentuais
Sexo x Etnia
Escola x Faixa Etária
Exclusiva
- Setores
Sexo
Etnia
Quantitativa Contínua ou
Discreta
Categórica Ordinal
Quantitativa Contínua ou
Discreta
Categórica Ordinal
Dispersão
Linhas
Altura x Peso
Pressão x IMC

❶ Clique Gráficos
❷ Caixas de diálogo legadas
❸ Escolha o gráfico que
atenda ao seu objetivo
❹ Se preferir, use o criador
de gráfico

Gráfico de Barras (qualitativa ordinal x qualitativa nominal)
❶ Selecione Barra
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável faixa etária
separada por sexo
❸ Selecione o gráfico com
Barra em Cluster e arraste até
o campo de visualização
❹ Arraste a variável sexo
para o Cluster em X
❺ Arraste a variável faixa
etária para o eixo das
abscissas
❻ Pode-se definir como a
variável será contada no
gráfico
❼ Pode-se optar por exibir
as barras de erro com o
intervalo de confiança
desejado
❽ Clique em aplicar

Gráfico de Barras (qualitativa nominal)
❶ Selecione Barra
com a variável sexo
Barra Simples e arraste até o
campo de visualização
❺ Clique OK
para o eixo das abscissas

Gráfico de Barras (qualitativa nominal x quantitativa contínua)
❶ Selecione Barra
com a variável idade para
cada sexo
Barra Simples e arraste até o
❻ Clique OK
❺ Arraste a variável idade para o
eixo das coordenadas. Neste caso,
automaticamente o programa faz a
média de idade

Gráfico de Barras 3D (qualitativa nominal x qualitativa nominal x quantitativa
contínua)
❶ Selecione Barra
com a variável idade por raça,
sexo e tuberculose pulmonar
❸ Selecione o gráfico 3D
em Cluster e arraste até o
❽ Clique OK
❹ Arraste a variável
Tuberculose pulmonar para o
eixo x
❼ Arraste a variável idade para o
eixo das coordenadas. Neste caso,
automaticamente o programa faz a
média de idade ❺ Arraste a variável raça
para o eixo z
❻ Arraste a variável sexo
para o eixo z

Gráfico de Pizza (qualitativa nominal)
❶ Selecione Pizza/Polar
com a variável sexo
❸ Selecione o gráfico e
arraste até o campo de
visualização
❺ Clique OK

Gráfico de Pontos (quantitativa contínua)
❶ Selecione
Dispersão/Ponto
com a variável idade
❸ Selecione o gráfico
Disperso Simples e arraste até
o campo de visualização
❺ Clique OK
❹ Arraste a variável idade

Histograma (quantitativa contínua)
❶ Selecione Histograma
❸ Selecione o Histograma
Simples e arraste até o campo
de visualização
❻ Clique OK
❺ Marque Exibir curva
normal e clique Aplicar

Boxplot (quantitativa contínua)
❶ Selecione Diagrama em
caixa
❸ Selecione o Boxplot em
1D e arraste até o campo de
visualização
❺ Clique OK
para o eixo das coordenadas
❺ Valores atípicos estão
representados com pequenos
círculos acima do bigode superior.

❶ Selecione Diagrama em
caixa
com a variável idade por sexo
❸ Selecione o Boxplot
Simples e arraste até o campo
de visualização
❺ Clique OK
para o eixo das coordenadas
❺ Valores atípicos estão
representados com pequenos
círculos acima do bigode superior.

Referências bibliográficas
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 2. ed. São Paulo: EPU, 1981.
Center for Disease Control and Prevention. Epidemiology Program Office. Epi Info 7.
Disponível em www.cdc.gov/epiinfo
Dean AG. Microcomputers and the future of epidemiology. Public Health Reports
1994; 109(3):439-41.
Dean AG et al. Epi Info. Database and statistics software for public health
professionals. Atlanta, EUA: Center for Disease Control and Prevention. versão 3.2.2,
2004.
Free Software Foundation, GNU Software. PSPP. Disponível em
http://www.gnu.org/software/pspp/.
Martínez-González, MA, Faulín Fajardo, FJ, Sánchez Villegas, A. Bioestadística
Amigable. 2ª Ed. Madri: Díaz de Santos, 2006.
Triola, MF. Elementary Statistics. 11ª Ed. Boston, MA: Addison Wesley, 2009.

Spss tutorial

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Spss tutorial

Semelhante a Spss tutorial (20)

Spss tutorial