SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Proibida a cópia ou reprodução sem autorização expressa dos autores.
Sumário
Apresentação ..................................................................... 03
Sobre os autores ................................................................ 04
Prefácio .............................................................................. 05
Histórico ............................................................................ 06
Funcionamento básico ....................................................... 07
Requisitos do sistema ......................................................... 09
Menus e botões ................................................................. 10
IT 1 – Janela de abertura ........................................... 10
IT 2 – Interface básica ................................................ 11
IT 3 – Arquivo ............................................................ 12
IT 4 – Editar ............................................................... 13
IT 5 – Visualizar ......................................................... 14
IT 6 – Dados ............................................................... 15
IT 7 – Transformar ..................................................... 16
IT 8 – Analisar ............................................................ 17
IT 9 – Marketing direto .............................................. 18
IT 10 – Gráficos .......................................................... 18
IT 11 – Utilitários ....................................................... 18
IT 12 – Janela ............................................................. 18
IT 13 – Ajuda ............................................................. 18
IT 14 – Botões rápidos da visualização de dados ........ 19
IT 15 – Saída .............................................................. 19
Variáveis ............................................................................ 20
Base de dados .................................................................... 23
Categorização de variáveis ................................................. 29
Transformar variáveis quantitativas ................................... 31
Dados perdidos .................................................................. 32
Observações atípicas .......................................................... 35
Normalidade ...................................................................... 37
Medidas de Centro e Dispersão .......................................... 41
Tabelas Cruzadas ................................................................ 42
Gráficos .............................................................................. 43
Gráfico de barras ....................................................... 46
Gráfico de pizza ......................................................... 50
Gráfico de pontos ...................................................... 51
Histograma ................................................................ 52
Boxplot ..................................................................... 53
Referências bibliográficas ................................................... 55
Apresentação
A ideia de escrever este tutorial nasceu da necessidade de um texto que fosse
adequado ao ensino de princípios básicos de bioestatística utilizando-se a ferramenta
computacional para todos aqueles que trabalham direta ou indiretamente com as
ciências da saúde.
O tutorial está estruturado de forma a oferecer um aprendizado rápido de
conceitos e comandos práticos para uma criação de base de dados e análise estatística
apropriada. É uma obra básica, introdutória e que objetiva apresentar os recursos
diversos do IBM® SPSS® Statistics 20 para uso em bioestatística. Apesar de caro, o
software trás uma infinidade de recursos importantes para o dia-a-dia do pesquisador
que desejar realizar testes estatísticos com rapidez e eficiência. Uma dica é testar o
programa antes de adquiri-lo através de uma versão IBM® SPSS® 14-Day Trial1
.
Esperamos que a compreensão dos métodos e princípios gerais do IBM® SPSS®
Statistics 20 seja apreendida de maneira a tornar mais fácil as criações e análises de
dados em pesquisas voltadas às ciências da saúde e, consequentemente, colaborar na
formação crítica da interpretação da vasta quantidade de informações difundidas
mundialmente.
Autores
1
Acesso ao endereço destinado ao download para versão de teste por 14 dias do programa IBM® SPSS® Statistics 20:
http://www14.software.ibm.com/download/data/web/en_US/trialprograms/W110742E06714B29.html?S_CMP=rnav
Sobre os autores
Angelo Giuseppe Roncalli da Costa Oliveira
Possui Graduação em Odontologia pela Universidade Federal do Rio Grande do Norte (1988), Mestrado
em Odontologia Social pela Universidade Federal do Rio Grande do Norte (1993) e Doutorado em
Odontologia Preventiva e Social pela Universidade Estadual Paulista Júlio de Mesquita Filho (2000).
Atualmente é professor Associado da Universidade Federal do Rio Grande do Norte. Tem experiência na
área de Odontologia, com ênfase em Saúde Bucal Coletiva, atuando principalmente nos seguintes
temas: Epidemiologia, Saúde Coletiva e Políticas Públicas de Saúde.
André Luiz Barbosa de Lima
Possui graduação em Medicina Veterinária pela Universidade Federal Rural do Semiárido - UFERSA
(2004). Tem experiência na área de Medicina Veterinária, com ênfase em Clínica e Cirurgia Animal, bem
como em Vigilância Sanitária de Alimentos, atuando principalmente nos seguintes temas: Vigilância
Sanitária, Saúde Coletiva e Políticas Públicas de Saúde.
Kenio Costa de Lima
O professor possui graduação em Odontologia pela Universidade Federal do Rio Grande do Norte,
mestrado em Odontologia Social pela Universidade Federal do Rio Grande do Norte, doutorado em
Ciências (Microbiologia Médica) pela Universidade Federal do Rio de Janeiro e pós-doutorado pela
Agência de Saúde Pública de Barcelona. Atualmente, é professor associado I da Universidade Federal do
Rio Grande do Norte, dos Programas de Pós-graduação em Saúde Coletiva e em Ciências da Saúde desta
mesma universidade e bolsista de produtividade do CNPq . É o atual coordenador do Programa de Pós-
graduação em Saúde Coletiva da Universidade Federal do Rio Grande do Norte. Tem experiência na área
de Odontologia, Saúde Coletiva e das Ciências da Saúde de um modo geral, com ênfase em estudos
experimentais e epidemiológicos. Trabalha, principalmente, os seguintes temas: Envelhecimento e
Saúde, Doenças infecciosas, Microbiologia aplicada e Epidemiologia aplicada à pesquisa em Saúde.
Prefácio
As pesquisas de caráter quantitativo em ciências da saúde pressupõem uma
sequência de etapas relativamente simples que vão do planejamento da pesquisa até a
elaboração do relatório final, passando pela coleta e processamento dos dados. Uma
atribuição precípua da estatística aplicada aos estudos epidemiológicos, por exemplo,
é a consolidação de dados obtidos de amostras ou populações, de modo que estes
possam ser lidos e interpretados em seu conjunto. Desse modo, a etapa subsequente à
coleta de dados é a construção de uma base em que tais dados sejam organizados de
forma a facilitar as tarefas de análise.
Existem diversos programas de computador em que esta tarefa pode ser
realizada, alguns mais sofisticados e outros menos, outros mais caros e outros
gratuitos. No Brasil, dentre os mais utilizados pelas universidades e institutos de
pesquisa, temos o IBM® SPSS® Statistics 20 e o STATA® 12 como representantes dos
softwares pagos. Dentre os gratuitos há os que funcionam em “modo Web”, ou seja, é
possível realizar alguns cálculos estatísticos a partir de um aplicativo que roda em uma
página na Internet, geralmente vinculada a alguma instituição, e os que funcionam em
modo Desktop (no próprio computador), um dos mais populares é o Epi InfoTM
7,
programa em versão mais atual que foi criado ainda na década de 80 pelo Centers for
Disease Control and Prevention (CDC) sediado em Atlanta, EUA. Ele foi desenvolvido
com o objetivo de servir de suporte para entrada e processamento de dados
epidemiológicos, para uso em Saúde Pública e é um programa de “domínio público”,
ou seja, sua distribuição é livre e gratuita, podendo ser copiado de sítios da Internet
em várias partes do mundo, sendo o principal deles o do próprio CDC.
No campo da estatística, o programa “R” tem sido bastante utilizado por
universidades, porém sofre com as constantes reclamações de novos usuários que não
se adaptam à sua interface relativamente complexa. Mais recentemente, foi
disponibilizado, pela mesma empresa ligada a Free Software Fundation que elaborou o
“R”, um equivalente ao IBM® SPSS® Statistics 20, denominado PSPP Gnu 0.7.8 (11-11-
2011), que possui uma interface semelhante, além de apresentar praticamente os
mesmos comandos e também a capacidade de ler e gravar os arquivos no mesmo
formato (.SAV). Já existe a versão em língua portuguesa.
Este tutorial abordará as estratégias necessárias para a construção da base de
dados para pesquisas na área das ciências da saúde, dando especial destaque à
tabulação eletrônica e análise descritiva dos dados a partir do IBM® SPSS® Statistics 20.
Histórico
O SPSS é provavelmente mais velho que você. Em 2011 completou 42 anos e a
média de idade do brasileiro é 32 anos. Na Universidade de Stanford na década de 60,
Norman H. Nie, C. Hadlai (Tex) Hull e Dale H. Bent desenvolveram o sistema original
chamado Statistical Package of the Social Sciences (SPSS). Eles necessitavam analisar
uma grande quantidade de dados em ciências sociais e resolveram criar um software
que fizesse isso. Na década de 70, a popularidade ganhou grandes dimensões quando
produziram o primeiro manual. A popularidade se estendeu das universidades para
outras áreas do governo e ganhou popularidade na iniciativa privada. Na década de 80,
uma versão do software foi transferida para o computador pessoal. Em 2008, o nome
foi alterado para Predictive Analysis Software (PASW). Em 2009, o SPSS Inc. foi
adquirido pela IBM Corporation e o nome do produto voltou ao mais familiar SPSS. O
nome oficial do software hoje é IBM® SPSS® Statistics 20. O software está disponível
em diversas edições – Standard Edition, Professional Edition e Premium Edition,
conforme se resume na Tabela 01. O software também apresenta certo número de
add-ons com propósitos especiais disponíveis.
Tabela 01 – Edições do software IBM® SPSS® Statistics.
Edição Recursos
Standard Estatísticas básicas
Modelos lineares
Modelos não lineares
Tabelas personalizadas
Professional Preparação de dados
Validação de dados e valores ausentes
Dados categóricos
Árvores de decisão
Previsão
Premium Modelagem de equação estrutural
Bootstrapping
2
Avaliação e teste de amostragem complexa
Procedimentos para marketing direto e tomada de decisão de produtos
Gráficos e tabelas de alta qualidade
2
É uma abordagem para validar um modelo multivariado extraindo-se um grande número de sub-amostras e
estimando modelos para cada uma delas. Estimativas a partir de todas as sub-amostras são combinadas em
seguida, fornecendo não apenas os melhores coeficientes estimados, mas também sua variabilidade esperada e,
assim, sua probabilidade de diferenciar do zero; ou seja, os coeficientes estimados são estatisticamente diferentes
de zero? Essa abordagem não depende de suposições estatísticas sobre a população para avaliar significância
estatística, mas, ao invés disso, faz sua avaliação baseada somente nos dados amostrais.
Funcionamento Básico
Os desenvolvedores do IBM® SPSS® Statistics 20 fizeram um esforço para
chegar a um software fácil de usar. Tudo isso para prevenir o usuário dos erros. Claro
que isto não torna impossível de se fazer algo errado, mas o software IBM® SPSS®
Statistics 20 trabalha de forma a minimizar isso. Sempre se define um conjunto de
variáveis, então se entra com os dados para estas variáveis para se criar um número de
casos. Por exemplo, se queremos fazer uma análise de automóveis, cada carro em
nosso estudo será um caso. As variáveis que definem os casos poderiam ser coisas
como ano de fabricação, potência e centímetros cúbicos de deslocamento. Cada carro
no estudo é definido como um simples caso e cada um deles é definido como um
conjunto de valores atribuídos ao conjunto de variáveis. Cada caso tem um valor para
cada variável (bem, podemos ter um missing value ou valor ausente, mas esta é uma
situação especial descrita mais a frente).
Cada variável é um tipo específico. Isto é, cada variável é definida como
contendo certo tipo de número. Por exemplo, uma variável escalar é uma medida
numérica, tal como peso ou quilômetros por litro. Uma variável qualitativa contém
valores que definem uma categoria; por exemplo, uma variável chamada gênero
poderia ser uma variável qualitativa definida por conter somente valores 1 para
feminino e 2 para masculino. Coisas que somente fazem sentido para um tipo de
variável não necessariamente fazem sentido para outra. Por exemplo, faz sentido
calcular a média de quilômetros por litro, mas não a média de gênero.
Após inserir os dados no IBM® SPSS® Statistics 20 – os casos estiverem todos
definidos por valores registrados nas variáveis – podemos facilmente executar uma
análise. Já terminamos a parte mais difícil. Executar a análise dos dados é simples se
comparada com a entrada de dados. Para rodar uma análise, seleciona-se um tipo de
análise no menu, seleciona-se as variáveis apropriadas e clica no botão OK. O SPSS lê
todos os casos, realiza a análise e apresenta o output (saída de dados) como tabelas e
gráficos.
Podemos instruir o IBM® SPSS® Statistics 20 a criar gráficos e tabelas
diretamente dos nossos dados da mesma forma como fazemos uma análise. Quando
estamos preparando o IBM® SPSS® Statistics 20 para executar uma análise ou criar um
gráfico, o botão OK fica indisponível até que façamos todas as escolhas necessárias
para produzir o output. Não somente requer que nós selecionemos um número
suficiente de variáveis para produzir o output, mas também requer que escolhemos os
tipos certos de variáveis. Se uma variável qualitativa é necessária para uma certa
abertura, o IBM® SPSS® Statistics 20 não permitirá que escolhemos qualquer outro
tipo. Todo output do IBM® SPSS® Statistics 20 vai pro mesmo lugar – uma caixa de
diálogo chamada Saída. Ela se abre para exibir os resultados de tudo o que fizemos.
Após termos produzido o output, se realizarmos alguma ação que produza mais
output, o novo output é exibido na mesma caixa de diálogo. E quase tudo que fazemos
produz output.
Requisitos do Sistema
IBM® SPSS® Statistics 20 para Windows
Sistema Operacional
Microsoft Windows XP (Professional, 32-bit), Vista® (Home, Business, 32- ou 64-bit) ou
Windows 7 (32- ou 64-bit).
Hardware
• Processador: Intel® ou AMD x86 executando 1GHz, maior é recomendado
• Memória: 1GB de RAM, mais é recomendado
• Mínimo de espaço livre em disco: 800MB
• Drive de DVD
• Monitor XGA (1024x768) ou resolução maior
• Para conectar com o IBM SPSS Statistics Server, um adaptador de rede rodando
protocolo de rede TCP/IP.
IBM® SPSS® Statistics 20 para Mac OS X
Sistema Operacional
Apple Mac OS 10.5 (Leopard) e 10.6 (Snow Leopard), (versões 32-bit e 64-bit)
Hardware
• Processador Intel
• Memória: 1GB de RAM, mais é recomendado
• Mínimo de espaço livre em disco: 800MB
• Drive de DVD
• Monitor Super VGA (800x600) ou resolução maior
IBM® SPSS® Statistics 20 para Linux
Sistema Operacional
O SPSS Statistics foi testado e é suportado apenas no Red Hat Enterprise Linux 5 e 6 e
Debian 6. Nenhum problema com distribuições derivadas de Red Hat e Debian é
esperado, mas elas não foram testadas nem são suportadas.
Hardware
• Processador: Intel ou AMD x86 executando 1GHz, maior é recomendado
• Memória: 1GB de RAM, mais é recomendado
• Mínimo de espaço livre em disco: 800MB
• Drive de DVD
• Monitor XGA (1024x768) ou resolução maior
Menus e Botões
Instrução de Trabalho – IT 1 – Janela de Abertura
A janela de abertura do IBM® SPSS® Statistics 20 é apresentada logo quando
abrimos o programa. Ela disponibiliza as opções de abertura de arquivos de forma
prática e rápida, mas o usuário pode optar por não tê-la numa inicialização futura.
Nela também podemos executar um tutorial básico bastante útil e objetivo que se
abrirá no browser padrão do seu sistema operacional (p.ex. Windows Internet
Explorer, Google Chrome, Firefox). Neste tutorial está disponível recursos de ajuda
(Help), tutorial propriamente dito (Tutorial), estudo de casos (Case Studies), orientador
estatístico (Statistics Coach) e add-ons (Add-ons).
Nesta opção está o
histórico de bases
abertas
recentemente
Mas, quaisquer
outra base de dados
mais antiga pode ser
aberta nesta opção.
Há um tutorial bem
simples para dúvidas
rápidas.
Inserir dados em
nova base de dados.
Pouco usada, esta
opção serve para
consultar arquivo
Database Query (*.spq).
Pouco usada, esta
opção serve para criar
consultas baseadas nos
arquivos de extensão
como .xls e .dbf
Opção OK para
executar as opções
escolhidas.
Quando marcada
esta opção, o SPSS
não mostrará esta
janela introdutória
na inicialização.
IT 2 – Interface Básica
A interface é composta por um menu onde estão basicamente todos os
comandos necessários para as análises e criações de gráficos e tabelas, botões de fácil
acesso (atalhos), abas de visualização de dados e variáveis, campo de apresentação de
valores, e as linhas e colunas para inserção de dados.
Obviamente que a lógica de acesso as funcionalidades do menu é semelhante
aquela utilizada nos programas mais conhecidos como Microsoft® Office® Excel® ou
Epi InfoTM
7 e será apresenta em tópico posterior com mais detalhes. Como
mencionado anteriormente, na parte inferior esquerda da tela são apresentadas duas
abas para visualização de dados (tela apresentada abaixo) e visualização de variáveis. A
primeira serve para inserir todos os dados referentes aos casos e variáveis
apresentados e a última é onde são listadas todas as variáveis existentes. Nesta aba de
variáveis podemos modificar seu nome, tipo e rótulo, por exemplo. É muito
importante o usuário entender como estão classificadas as variáveis dependentes e
independentes de seu estudo para facilitar as alterações necessárias nesta aba. Neste
sentido, veremos em detalhes no tópico relacionado.
Menu onde se
encontram os comandos
básicos do programa
Linhas Numeradas Colunas de variáveis
Informação sobre o estado de
funcionamento do processador.
Botões Rápidos
Neste campo aparece o
valor apresentado na linha
e coluna selecionadas
Número de variáveis
visíveis do total de
variáveis
Abas para visualização
de dados ou variáveis
IT 3 – Arquivo
No menu Arquivo está disponibilizado os comandos para criar, abrir, salvar,
visualizar impressão e imprimir um determinado arquivo. A extensão padrão do
arquivo no IBM® SPSS® Statistics 20 é o .SAV, mas podemos salvar nos principais tipos
de arquivos de dados para ser trabalhado em outros programas do gênero conhecidos
como Microsoft® Office® Excel®, Epi InfoTM
7 ou STATA® 12.
Use para abrir um novo arquivo de dados.
Use para abrir um arquivo de dados já criado.
Use para abrir um banco de dados. Por
exemplo, pode-se abrir a base DBF de um dos
agravos do Sistema de Informação de Agravos
de Notificação (SINAN).
Use para salvar os dados inseridos. Podemos
salvar em várias extensões para poder ser
rodado em outros programas como Excel,
Stata, Epi Info, SAS.
Use para salvar os dados.
Use para visualizar a impressão da
planilha de dados.
Use para imprimir os dados
visualizados no módulo de visualização.
IT 4 – Editar
No menu Editar está disponibilizado os comandos para desfazer ou refazer
determinado passo executado dentro do histórico; cortar, copiar, colar, inserir ou
eliminar linha(s) (casos) ou coluna(s) (variáveis) selecionada(s). Também é possível
através deste menu localizar quaisquer valores dentro dos casos e variáveis, bem como
podemos localizar um determinado valor e substituí-lo logo em seguida. Há dois
comandos básicos para procurar um caso ou uma variável especificada. O comando de
Opções é a parte organizacional do IBM® SPSS® Statistics 20. Nele podemos
determinar o tipo, a cor e o tamanho de fonte utilizados para melhor visualizar os
dados bem como o número de casas decimais das variáveis numéricas. Ainda podemos
modificar as tabelas dinâmicas de forma a torna-las um padrão acadêmico, por
exemplo, como os modelos determinados pelo Instituto Brasileiro de Geografia e
Estatística (IBGE) que dispensam as linhas colunares.
Use para recortar qualquer valor, linha
ou coluna que desejar.
Use para copiar qualquer valor, linha
ou coluna que desejar.
Use para eliminar qualquer valor, linha
ou coluna que desejar.
Use para selecionar opções capazes de
tornar seus dados mais organizados.
Use para localizar quaisquer valores
dentro das linhas e colunas
Use para localizar quaisquer valores dentro das linhas
e colunas e substituir por outro qualquer.
IT 5 – Visualizar
O menu Visualizar é o mais básico de todos. Raramente iremos necessitar de
seu uso prático. Mas, há um comando interessante que pode ser acionado: Rótulos de
valor. Este comando torna todos os valores categóricos codificados em valores
numéricos que estão nas linhas e colunas nas respectivas categorias, tornando-se
melhor a visualização dos dados numa impressão, por exemplo.
Use para transformar os valores
categóricos codificados em valores
numéricos nas respectivas categorias.
Use para ir para Visualização de
Variáveis.
Use para retirar as linhas das grades.
Toda planilha ficará em branco,
apresentando apenas os valores.
IT 6 – Dados
O menu Dados é muito importante, mas bastante complexo nas atribuições.
Nele poderemos definir as propriedades ou o nível de medida para uma variável,
identificar dados duplicados ou incomuns, classificar casos ou variáveis, dividir arquivo
ou selecionar casos (para encontrar outliers, por exemplo).
Use para identificar
casos duplicados.
Principalmente
quando há um
rastreador como o
número de
identidade ou um
soundex.
Use para classificar casos. Por exemplo,
podemos organizar os dados por
gênero. O programa separará homens e
mulheres por ordem.
Use para classificar variáveis. Por
exemplo, podemos colocar em
ordem alfabética de A a Z.
Use para mudar os valores de uma
variável para outra. Raramente se usa.
Use para dividir um
arquivo por grupo e
agrupando variáveis.
Quando desejar
separar uma análise
por gênero, p.ex. Use para encontrar
outliers (valores
discrepantes)
usando critérios de
seleção.
IT 7 – Transformar
O menu Transformar é tão importante quanto o menu Dados. Nele poderemos
calcular uma variável, fornecendo equações capazes de padronizar ou mesmo
converter valores, criar indicadores ou índices. Também podemos recodificar uma
variável numérica em uma variável qualitativa. Por exemplo, podemos transformar a
variável de idade numa variável de faixa etária, usando-se os intervalos de valores e
códigos específicos para cada faixa. O Assistente de Data e Hora é capaz de
transformar algumas variáveis que apresentam dados segregados de dias, mês e ano,
em uma única variável de data, por exemplo. Podemos também substituir valores
ausentes (missing) de uma variável ou caso através da geração de novos valores
baseados numa média da série ou de pontos próximos.
Use para encontrar
outliers (valores
discrepantes)
usando critérios de
seleção.
Use para recodificar na mesma
variável. P.ex., categorizar uma
variável idade, transformando-a
em faixa etária, mas a variável
idade assumirá os novos valores
da faixa etária.
Use para recodificar noutra
variável. P.ex., categorizar uma
variável de idade,
transformando-a em faixa
etária. Será criada uma variável
nova: faixa etária.
Use para transformar
variáveis em datas.
P.ex. variáveis Dia,
Mês e Ano, podem
transforma-se em
data.
Use para criar valores para as
células vazias nas variáveis. É útil
quando há poucos missing e cria-
se através de vários métodos.
IT 8 – Analisar
O menu Analisar é o mais importante de todos, porque é o cérebro dos testes
estatísticos disponibilizados no IBM® SPSS® Statistics 20. Para ele será dado um
capítulo especial.
IT 9 – Marketing direto
O menu Marketing direto é usado por empresas para estratégias de marketing
com clientes. Portanto, não será explorado.
IT 10 – Gráficos
O menu Gráficos é usado para criar gráficos de maneira bastante rápida e fácil.
Há diversos gráficos disponíveis e funções capazes de torna-los mais adequados a
nossa preferência.
IT 11 – Utilitários
O menu Utilitários não é usado com frequência no IBM® SPSS® Statistics 20.
Portanto, não será explorado.
IT 12 – Janela
O menu Janela apresenta as opções mutuamente excludentes e exaustivas de
visualização das janelas abertas no IBM® SPSS® Statistics 20.
IT 13 – Ajuda
O menu Ajuda não é relevante para ser explorado. Mas, contém os itens já
apresentados no IT 1 de tutorial, estudos de casos e orientador de estatísticas.
Use para criar
gráficos de maneira
fácil e bastante
intuitiva.
Use para criar gráficos através de
sugestões dadas pelo próprio
programa que se baseia no tipo de
variável trabalhada.
Use modelos diretos para a
construção de gráficos.
IT 14 – Botões Rápidos da Visualização de Dados
Os botões rápidos dão acesso prático e fácil aos principais comandos para
organização dos dados. Podemos salvar ou abrir um arquivo, ver qual foi o último
comando realizado e então determinar por retornar ao estado anterior, observar o
perfil de cada variável, inserir ou selecionar casos e variáveis. Na prática são bastante
úteis porque facilitam demais o acesso do usuário aos comandos básicos do programa.
IT 15 – Saída
O output é a saída de dados quando realizamos quaisquer mudanças
importantes, fazemos uma análise ou criamos uma tabela ou gráfico. Nele são
representados de forma bastante prática todas as tabelas relacionadas aos testes
estatísticos realizados, por exemplo. A cada nova rodada de testes não abrirá um novo
output. Os dados gerados a cada rodada de testes ficaram no mesmo output seguindo
a ordem de execução.
Abrir
arquivo
Salvar
arquivo
Imprimir
arquivo
Comandos
usados
recentemente
Ir para o
caso
Ir para a
variável
Perfil das
variáveis
Localizar
valores
Inserir
casos
Inserir
variáveis
Dividir
arquivo
Ponderar
casos
Selecionar
casos
Usar
conjunto
de variáveis
Rótulos de
valor
Tabelas podem
ser padronizadas
Histórico das
saídas
Variáveis
A maioria das tarefas de investigação
exige que seja realizada uma fase de coleta
dos dados. Estes dados são a matéria-prima
da Bioestatística. Os dados se resumem
mediante uma série de números que se
calculam a partir dos dados iniciais. A estes
novos números, que, de algum modo,
extraem a informação importante que estão
nos dados, se denomina índices estatísticos.
As qualidades ou quantidades reconhecidas
de cada indivíduo se chamam variáveis,
porque variam de um sujeito a outro.
Grosso modo, “variável” pode ser definida
como a expressão numérica de qualquer
evento da natureza. É tudo aquilo que se
deseja estudar e que pode ser traduzido em números, seja através de contagem,
mensuração ou classificação. As variáveis, portanto, estão associadas a eventos
contábeis, mensuráveis ou classificáveis; e, considerando a natureza complexa dos
objetos de estudo da epidemiologia, possuem limitações diretamente proporcionais à
subjetividade do evento. Ao contarmos uma certa quantidade de eventos ou
medirmos alguns deles, geramos variáveis ditas quantitativas; ao classificamos os
eventos obtemos variáveis do tipo qualitativas (Tabela 02). Peso, altura, temperatura,
glicemia são exemplos de variáveis quantitativas e sexo, etnia, grau de instrução e
moradia são exemplos de variáveis qualitativas.
Tabela 02 – Classificação das variáveis.
Função Natureza Tipo
Escala de
mensuração
Hipótese Utilidade
Dependente
ou
Independente
Qualitativa
Nominal Nominal Categorias com nome Classificar
Ordinal Ordinal
Como as nominais + categorias
ordenadas
Hierarquizar
Quantitativa
Discreta Intervalar
Como as ordinais + intervalos
iguais
Medir
Contínua Razão
Como as intervalares + zero
significativo
Contar
PARA LEMBRAR
Primeiro, os valores de uma variável
devem ser mutuamente excludentes. Isso
significa que uma e só uma categoria da
mesma classe (um valor da mesma
variável) pode ser atribuída a cada um
dos indivíduos em estudo.
Segundo, o conjunto dos valores possíveis
deve ser exaustivo, o que significa que
todas as possibilidades empíricas devem
ser incluídas no conjunto.
Com os recursos tecnológicos atualmente disponíveis, não se admite mais que
os dados envolvidos em pesquisas sejam tabulados manualmente. Além de demorada,
desgastante e limitada, a tabulação manual submete o estudo a um risco elevado de
erros. Com o advento e a disseminação da informática, a tabulação eletrônica tornou a
análise de dados muito mais rápida, eficiente e segura. Com isso, a descrição e a
análise dependem, fundamentalmente, de uma cuidadosa elaboração do banco de
dados da pesquisa. A correspondência entre o banco de dados e o instrumento da
coleta de dados na pesquisa facilita a digitação e, posteriormente, a análise dos dados.
Portanto, é fundamental que o usuário do IBM® SPSS® Statistics 20 crie um quadro em
que sejam explicitadas as informações relativas ao banco de dados, particularmente os
códigos empregados (Tabela 03).
Tabela 03 – Descrição de variáveis em um banco de dados.
Variável Descrição Tipo Categorias/Escala de medida
sexo Sexo Qualitativa Nominal 1- Masculino
2- Feminino
9- Sem Informação
raca Cor ou Raça Qualitativa Nominal 1-Branca
2-Preta
3-Amarela
4-Parda
5-Indígena
9-sem Informação
pessoas Número de moradores Quantitativa Discreta Total de pessoas
comodos Número de cômodos Quantitativa Discreta Total de cômodos
renda Renda Familiar Mensal Qualitativa Nominal 1-Até 500 reais
2-De 501 a 1.500 reais
3-De 1.501 a 2.500
4-Mais de 2.500 reais
9-Não sabe/Não respondeu
anos_est Anos de estudo Quantitativa discreta Número de anos completados
desde o ensino fundamental
consulta Consulta ao Dentista Qualitativa Nominal 0-Não
1-Sim
9-Não sabe/não respondeu
frequencia Qualitativa Nominal 1-Menos de 1 ano
2-De 1 a 2 anos
3-3 ou mais anos
8-Não se aplica
9-Não sabe/não respondeu
Na área de Visualização de variáveis do IBM® SPSS® Statistics 20, deve-se
observar que a primeira coluna (Nome) deve conter os nomes das variáveis escritos
em minúsculo, sem caracteres especiais ou símbolos (semelhantemente ao que se faz
quando criamos um e-mail), em formato alfanumérico (não pode começar com
números) e limitado ao máximo de 64 caracteres. Claramente não é interessante
colocar nomes de variáveis com mais de 10 caracteres, porque torna-se uma
informação completamente poluída e influenciará no processamento dos dados por
questões óbvias. Já a descrição (Rótulo) da variável determina o texto que será
apresentado na saída (output) ao invés do nome da variável. Caso não haja nenhuma
descrição, o IBM® SPSS® Statistics 20 entenderá o nome da variável como a descrição
mais próxima. O quadro exemplificado na Tabela 03 ajudará nas definições de variáveis
disponibilizada pelo IBM® SPSS® Statistics 20.
Base de Dados
A base de dados deve ser construída primeiramente pela criação das variáveis.
Portanto, a tabela de classificação das variáveis, já discutida anteriormente, deverá ser
utilizada para o preenchimento dos campos na Visualização de variáveis. Nesta área há
11 colunas a serem preenchidas para a qualificação ou definição das variáveis. Pode-se
observar que, na Visualização de variáveis, cada variável é definida a partir dos
seguintes parâmetros:
Nome: Nome da variável. Conforme discutimos anteriormente, deve-se usar,
preferencialmente, até dez caracteres, sem utilização de cedilhas, acentos e espaços.
Tipo: Tipo de variável. Existem diversos tipos disponíveis, porém os mais utilizados são
o formato Sequência, para variáveis qualitativas, e o Numérico, para dados
quantitativos, além de diferentes opções para o registro de datas. Trata-se de uma
propriedade importante, pois irá definir a forma como o programa interpretará o
dado. Uma variável do tipo Sequência, por exemplo, não permite operações
matemáticas nem a obtenção de medidas de tendência central e de variabilidade; para
sua análise, só poderão ser obtidas frequências.
Largura: Tamanho do campo. Deve ser informado com quantos caracteres é formada
cada categoria da variável. Por exemplo, se estamos trabalhando com renda e o
máximo encontrado foi de 20 mil reais, então o campo deverá ter 5 algarismos.
Embora colocar um tamanho maior que o necessário não atrapalhe a análise, é
importante se ater ao número correto, pois isso irá economizar “bytes”, gerando um
banco de dados menor e, consequentemente, de mais fácil manuseio.
Decimais: Número de casas decimais. Aplicável somente para as variáveis numéricas. É
um complemento da especificação anterior.
Rótulo: Rótulo da variável. Deve-se colocar o nome que descreve a variável e que
deverá aparecer quando as análises forem solicitadas. Caso não seja informado,
aparecerá o nome da variável.
Valores: Valores atribuídos aos dados. Aplica-se às variáveis qualitativas, e é muito
importante na hora da geração dos relatórios.
Ausente: Informação não disponível. Quando, por algum motivo, não se tem o dado
disponível, deve-se entrar com um valor que indique a ausência de informação. É
importante que seja informado, neste item, qual o valor que referencia esta condição,
para que o programa o exclua dos cálculos.
Medir: Escala de medida. Trata-se de um complemento do tipo de variável. Há as
opções Escala, quando os dados advêm de medidas quantitativas, Nominal, para dados
categóricos nominais, e Ordinal, para variáveis qualitativas do tipo ordinal.
❻ Decida como o
programa avaliará um
valor ausente. Use 9, 99
ou 999, por exemplo.
❶ Selecione a aba
Visualização de variável
❷ Coloque o nome da primeira variável,
conforme representado na tabela de
classificação que construímos.
❸ Escolha o tipo de variável a ser trabalhada.
Neste campo, usamos Numérico para variáveis
numéricas, Sequência para variáveis qualitativas e
Data para variáveis contendo datas.
❹ Coloque a descrição da primeira variável,
conforme representado na tabela de classificação
que construímos. Aqui se permite mais de 1000
caracteres, porém dificilmente utilizaremos essa
quantidade para descrever uma variável.
❺ Os Rótulos de valor são dados de acordo
com os códigos estabelecidos na tabela que
construímos. Por exemplo, 1 (Valor) para
codificar o gênero Feminino (Rótulo) e 2 para
Masculino.
❼ Escolha qual tipo de
mensuração melhor
caracteriza a variável.
Quando todas as variáveis estiverem descritas no IBM® SPSS® Statistics 20, a
área de Visualização de variáveis terá esta aparência a seguir:
É importante observar que idealmente
todos os campos necessitam estar preenchidos
para melhor qualidade dos dados processados
pelo IBM® SPSS® Statistics 20 e também para
facilitar o entendimento destes dados gerados
a partir da execução de qualquer teste
estatístico.
Depois de criarmos as variáveis e suas
definições, devemos agora partir para a
digitação dos dados (casos) nas respectivas
variáveis criadas. Para isso, temos que sair da
Visualização de variáveis e entrar na
Visualização de dados. Nesta área, os casos são
apresentados nas linhas e as variáveis são
distribuídas nas colunas. O cruzamento entre
as linhas e colunas dão os valores de cada
célula ou casela. À medida que digitamos os
casos estamos propensos a cometer erros.
Estes erros podem vir na forma de dados
ausentes, aberrantes ou mesmo de codificação
diferente daquela estabelecida para
determinada variável. Portanto, é importante
que façamos uma releitura de todos os dados
para minimizar ou eliminar os erros de digitação. Podemos criar inclusive critérios de
validação de entrada de dados. Isso é particularmente importante quando diferentes
digitadores contribuem para a informatização dos dados e diminui consideravelmente
os erros de digitação. Em alguns casos, por exemplo, se recomenda a digitação dupla
ou tripla para minimizar o risco de erros.
Após a base de dados está pronta, ainda deve ser realizada uma avaliação, por
amostragem, do percentual de erros de digitação. A simples verificação da distribuição
de frequência das variáveis em estudo possibilita a identificação de valores aberrantes,
IMPORTANTE
A codificação das variáveis pode ser
efetuada durante a construção do
instrumento de coleta de dados.
Caso isso não tenha sido feito, a
codificação poderá ser realizada por
ocasião da entrada dos dados em
uma base eletrônica. Os códigos
devem ser, preferencialmente,
numéricos e com um único dígito, a
não ser, obviamente, quando se
trabalha com variáveis quantitativas
que demandam outras escalas de
medida. Podem ser usadas letras
como códigos, quando o número de
categorias passa de 10. A utilização
de códigos numéricos facilita
bastante a digitação, pelo fato de
permitirem efetuá-la
exclusivamente através do teclado
numérico do computador, uma
estratégia muito utilizada por
digitadores profissionais.
possivelmente fruto de erros de digitação ou anotação, permitindo assim sua correção.
Por exemplo, se a variável “Acesso ao Serviço de Urgência” foi categorizada em “Sim”
como código 1, “Não” como código 2 e “Não Informado” como código 9, apenas estas
três possibilidades devem constar quando da saída da distribuição de frequência.
Outros valores configuram erros de digitação ou anotação e são passíveis de serem
identificados.
Embora o IBM® SPSS® Statistics 20 ignore as células deixadas em branco na
análise, recomenda-se evitar deixar a variável sem preenchimento para evitar
confusão. O IBM® SPSS® Statistics 20 também permite que um determinado código,
por exemplo, os números 9, 99 ou 999 sejam interpretados como informação não
disponível (missing), o que facilita bastante a análise.
Recomendamos que o dado seja captado em sua expressão numérica primária,
evitando categorias estabelecidas a priori. Esta recomendação é útil tanto na
construção do instrumento de coleta de dados, como na criação do banco
informatizado. Ao se avaliar a renda mensal familiar, por exemplo, é mais prático
captar a renda em reais para, somente durante a análise estabelecer as faixas de renda
ou transformação em outra unidade, como salários mínimos. Ao se obter a informação
já incluída em faixas pré-estabelecidas, perde-se a informação original, além de haver
o risco de uma distribuição heterogênea da variável entre os elementos amostrais. A
classificação de faixas de renda (por exemplo, “menos de um salário mínimo”, “de um
a dois” e “dois ou mais salários mínimos”) pode ser muito útil para pesquisas
envolvendo população de baixa renda, mas teria pouca utilidade em bairros de classe
média alta. Outro exemplo diz respeito à escolaridade, que pode ser expressa em
número de anos de estudo, evitando a obtenção da informação por graus (ensino
fundamental, médio e superior).
Uma vez que os dados foram digitados e conferidos, duas operações
importantes podem ser feitas, a manipulação das variáveis e a análise dos dados. Caso
não seja preciso criar ou modificar nenhuma variável, pode-se passar diretamente para
a análise.
De qualquer modo, independentemente da complexidade do estudo, é
importante que seja traçado um plano de análise, o qual deve ser coerente com a
hipótese do estudo. Para o exemplo que utilizaremos nesse texto, está sendo buscada
uma relação entre uma variável dependente (diabetes) e uma ou mais variáveis
independentes (renda, obesidade, sexo, dentre outras) (Figura 01).
Em se tratando de variáveis quantitativas, inicialmente temos que observar a
adequação dos nossos dados à distribuição normal, levando em consideração três
critérios básicos:
 A média mais três desvios padrões e média menos três desvios padrões.
Os valores mínimo e máximo devem estar contidos nesse intervalo.
 A curtose deve ser menor que duas vezes seu erro padrão. O mesmo
deve ser utilizado para a medida de assimetria.
 Um ponto a ser destacado é que em amostras muito pequenas (menor
que 15), a melhor maneira de verificar a existência de distribuição
normal é observar a distribuição de frequência dos seus dados para
aquelas variáveis através da construção de um histograma.
Figura 01 – Variáveis associadas com a relação entre obesidade e diabetes.
Neste caso, a variável dependente (diabetes) deve ser analisada em função de
todas as variáveis independentes. Pelo fato das variáveis terem características
diferentes (qualitativas e quantitativas) devem passar por procedimentos específicos
para cada tipo, conforme descrito na Tabela 04.
Variáveis Independentes
de Confusão
Variável Dependente
Variável Independente Obesidade
Diabetes
Sexo Raça
Anos de
estudo
Renda Idade
Tabela 04 – Procedimentos e rotinas computacionais de acordo com a natureza das
variáveis dependentes e independentes.
Variável
Dependente
Variável
Independente
Procedimento
Estatístico
Rotina do SPSS Informações adicionais
Quantitativa Qualitativa Comparação de
Médias e/ou outras
medidas de tendência
central de caráter
eminentemente
descritivo
Analisar > Comparar
média > Médias...
Lista dependente: inserir
a(s) variável(eis) de
natureza quantitativa
Lista independente:
inserir a(s) variável(eis) de
natureza qualitativa
Opções: escolher quais as
medidas que se deseja
calcular
Camada: Possibilidade de
incluir mais de uma
variável independente ao
mesmo tempo
Comparação de
Médias e/ou outras
medidas de tendência
central de caráter
inferencial
Analisar > Estatísticas
descritivas > Explorar
Lista dependente: inserir
a(s) variável(eis) de
natureza quantitativa
Lista de fator: inserir a(s)
variável(eis) de natureza
qualitativa
Estatísticas: escolher
quais as medidas que se
deseja calcular
Camada: Possibilidade de
incluir mais de uma
variável independente ao
mesmo tempo
Qualitativa Qualitativa Comparação de
frequências a partir de
tabelas de
contingência
Analisar > Estatísticas
descritivas > Tabela
de referência
cruzada...
Células: informar qual o
critério para ilustrar a
frequência percentual
(linhas ou colunas)
Estatísticas: informar os
testes estatísticos a serem
aplicados
Camada: Possibilidade de
incluir mais de uma
variável independente ao
mesmo tempo
Quantitativa Quantitativa Análise de correlação
bivariada
Analisar >
Correlacionar >
Bivariável...
Variáveis: informar as
variáveis a serem incluídas
na correlação
Coeficientes de
correlação: escolher os
coeficientes a serem
calculados
Categorização de Variáveis
A categorização de uma variável quantitativa pode seguir critérios teóricos ou
estatísticos. Por exemplo, o IMC (Índice de Massa Corporal) é uma variável
quantitativa, obtida a partir da divisão do peso em Kg pelo quadrado da altura em
metros. É possível, a partir da variável original do IMC, criar uma nova variável
considerando a classificação proposta para este índice, que toma como base as faixas:
até 18,5 (abaixo do peso); 18,5 a 24,9 (peso normal); 25,0 a 29,9 (sobrepeso) e assim
por diante. Em algumas situações, não existe uma proposição teórica para a
categorização e, nestes casos, o pesquisador pode optar por algum critério estatístico
como a dicotomização pela mediana ou a divisão em percentis. Vamos ver um
exemplo com a variável idade sendo transformada na variável faixa etária.
❶ Selecione Recodificar
em variáveis diferentes...
❷ Selecione uma
variável a ser categorizada
❸ Digite um nome sem
caracteres especiais ou símbolos
e um rótulo. Clique em Alterar.
❹ Clique em Valores
antigo e novo...
❺ Insira os valores do
intervalo. Por exemplo, a
segunda faixa etária será
de 13 a 22 anos de idade.
❻ Insira um código por
ordem numérica. P.ex. a
segunda faixa etária terá
código 2.
❼ Adicione a categoria
criada.
❽ Clique em Continuar.
❾ Clique em OK e abrirá
uma informação de saída.
Caso opte por Recodificar
nas mesmas variáveis
haverá substituição de
todos os valores da nova
variável pela antiga.
❿ Clique para adicionar
os Rótulos de valor
⓫ Adicione todos os
Rótulos relacionados aos
códigos de cada categoria
criada (p.ex. faixas etárias)
⓬ Clique OK
Transformar Variáveis Quantitativas
Em certas situações, o pesquisador necessita criar uma nova variável a partir de
alguma operação matemática entre duas variáveis quantitativas. Por exemplo, se
existir na base de dados as variáveis originais de peso e altura, o IMC poderá ser
calculado e armazenado em uma nova variável.
O comando utilizado para este tipo de operação é o “Transformar > Calcular
variável...”. Vamos exemplificar este procedimento com a criação da variável
“Aglomeração Domiciliar” que é obtida a partir de divisão do número de pessoas no
domicílio pelo número de cômodos existente na casa.
❶ Clique em Calcular
variável...
❷ Crie um nome para a nova
variável de destino. P.ex. aglomera
❹ Clique na barra de
divisão “/”
❸ Clique duas vezes sobre a
variável que ficará no numerador
para adicioná-la ao campo de
Expressão numérica.
❺ Clique duas vezes sobre
a variável que ficará no
denominador para adicioná-
la ao campo de Expressão
numérica.
❻ Clique OK. Abrirá uma
saída informando a criação da
nova variável.
Dados Perdidos
Os dados perdidos consistem de informação não disponível de um individuo (ou
caso) sobre o qual outra informação está disponível. Os dados perdidos
frequentemente ocorrem quando um respondente deixa de responder uma ou mais
questões em uma pesquisa. Os dados perdidos ignoráveis são aqueles explicitamente
inidentificáveis e/ou estão sob controle do pesquisador. Os dados perdidos ignoráveis
não demandam ações corretivas, pois os dados perdidos são explicitamente tratados
na técnica empregada. Mas, os dados censurados demandam atenção do pesquisador.
Estas observações incompletas de uma maneira sistemática e conhecida são exemplos
de dados perdidos ignoráveis. Um exemplo ocorre no estudo de causas de morte em
uma amostra na qual alguns indivíduos ainda estão vivos.
❶ Clique em Frequências...
❷ Selecione e adicione a
variável
❸ Clique OK. Abrirá uma
saída mostrando a tabela de
frequência.
❹ Observe pelos valores
ausentes (Missing). Neste
exemplo, tivemos 21 dados
perdidos (1,7%). Dados
perdidos abaixo de 10% para
um caso ou observação
individual podem geralmente
ser ignorados, exceto quando
não são perdas aleatórias.
Seguimos algumas regras práticas para eliminações baseadas em dados
perdidos:
 Variáveis com 15% de dados perdidos ou menos são candidatas para
eliminação, mas níveis mais elevados (20% a 30%) muitas vezes podem ser
remediados.
 Certifique-se de que a diminuição nos dados perdidos é grande o bastante para
justificar a eliminação de uma variável ou caso individual.
 Casos com dados perdidos para variáveis dependentes tipicamente são
eliminados para evitar qualquer aumento artificial em relações com variáveis
independentes.
 Quando eliminar uma variável, garanta que variáveis alternativas,
preferencialmente altamente correlacionadas, estão disponíveis para
representar a intenção da variável original.
 Sempre considere a possibilidade de executar a análise com e sem os casos ou
variáveis eliminados para identificar diferenças evidentes.
Podemos usar métodos de atribuição para substituir dados perdidos. Por
exemplo, podemos usar somente os dados válidos para representar uma amostra
inteira, ou seja, realizar uma abordagem de caso completo. Aqui na verdade não se
substitui valores, mas desconsideram-se os ausentes. O IBM® SPSS® Statistics 20
assume este método chamando-o de listwise (excluir casos por lista). É sabido que com
apenas 2% de dados perdidos aleatoriamente, mais de 18% dos casos terá algum dado
perdido. Assim, mesmo envolvendo quantias muito pequenas de dados perdidos, o
tamanho resultante da amostra é reduzido a algo inadequado quando tal abordagem é
utilizada. Outro método chamado pairwise (excluir casos por par) também usa
somente dados válidos e não substitui os dados perdidos, mas atribui as características
de distribuição (p.ex. médias) ou de relação (p.ex. correlações) a partir de cada valor
válido. É um método de disponibilidade total. Podemos também substituir
determinados valores ausentes por outros disponíveis de outros estudos externos ou
de variáveis de características semelhantes na própria base; por isso, o pesquisador
precisa estar certo de que o valor de substituição de uma fonte externa é mais válido
do que um valor gerado internamente. Alternativamente, podemos também substituir
valores ausentes pela média (com base em todas as respostas válidas), mas iremos
assim subestimar o valor da variância, comprimir a correlação observada e distorcer a
real distribuição de valores; ou podemos substituir por regressão, mas terá a
desvantagem de reforçar as relações já presentes nos dados, a variância será
subestimada, a amostra necessita ser grande e esse método pressupõe que a variável
de dados perdidos tem correlações substanciais com outras variáveis. Por isso, se as
variáveis não apresentarem correlações suficientes para produzir uma estimativa
significativa, então a substituição pela média é preferível. Vejamos um exemplo de
substituição com a variável idade no tópico a seguir.
❶ Observe que na variável
idade há 21 dados ausentes.
❷ Clique em Substituir
valores ausentes...
❸ Selecione e adicione a
variável com dados ausentes
no campo de Novas variáveis.
❹ Escolha o método de
substituição. Usamos
frequentemente a Média de série.
❺ Clique Ok. Aparecerá a
saída com a tabela de
variáveis resultantes.
❻ Os 21 valores ausentes
foram substituídos pela média
38,82.
Observações Atípicas
Na coleta de dados, há muitas possibilidades de erros acontecerem. O
pesquisador pode ler erroneamente o instrumento de medição, transpor números,
registrar dados no lugar errado, apresentar a condição ou instruções experimentais
erradas, e falhar em perceber que o equipamento está em mal funcionamento.
Frequentemente estes erros produzem valores que são indistinguíveis dos dados
corretos e continuam não detectados. Se adicionássemos uma pessoa de 250Kg numa
amostra de estudantes de bioestatística, saberíamos que alguma coisa saiu errada. Os
valores que são normalmente maiores ou menores relativos a outros valores são
chamados de observações atípicas ou outliers.
Os outliers podem afetar seriamente a integridade dos dodos e resultam em
conclusões imperfeitas e na estatística amostral enviesada ou distorcida. Alguns
outliers são óbvios, tais como um peso de 310Kg para uma pessoa. Mas, há outras
situações que as “áreas cinzas” prevalecem.
Alguns critérios foram sugeridos para identificar outliers óbvios e não óbvios:
 qualquer valor que caía fora do intervalo dado pela mediana mais ou
menos duas vezes a distância interquartílica.
 qualquer valor que caía fora do intervalo dado pela média mais ou
menos duas vezes e meia o desvio padrão.
Dos dois critérios, o primeiro é preferido porque a mediana, o , e o são
menos influenciados pelos valores extremos que a média e o desvio padrão. Uma regra
muito usada para detectar outliers é baseada no gráfico tipo boxplot. Outliers devem
ser cuidadosamente examinados. Sua presença sugere a possibilidade de alguma
forma de contaminação dos dados. Os dados que são obviamente errados devem ser
corrigidos ou descartados. No gráfico boxplot mostrado a seguir estão representados
os dados considerados atípicos através de pequenos circulos acima do bigode superior
(outlier superior). É importante observar neste boxplot que é completamente possível
uma pessoa ter 80 anos de idade e, portanto, não necessariamente o que se indica
como outlier é verdadeiro.
❶ Clique em Analizar >
Estatísticas descritivas >
Explorar...
❷ Adicione a variável a ser
avaliada para a apresença de
valores atípicos ❸ Clique em Estatísticas
❹ Marque os valores
discrepantes e clique em
Continuar
❺ Clique OK
❻ A saída apresentará a média (Mean), o
desvio padrão (Std. Deviation), mediana
(Median) e o intervalo interquartílico
(Interquartile Range) para os respectivos
cálculos de detecção de valores atípicos.
Qualquer valor que caía fora do intervalo dado
pela mediana mais ou menos duas vezes a
distância interquartílica ou qualquer valor que
caía fora do intervalo dado pela média mais ou
menos duas vezes e meia o desvio padrão.
Normalidade
A distribuição normal é uma das mais importantes distribuições da estatística,
conhecida também como Distribuição de Gauss ou Gaussiana. Ser normal é pertencer
a uma classe de características universais para uma determinada população
observada. É o que é comum, dada uma característica avaliada. Sua antítese, a
“anormalidade” é caracterizada pela não aceitação do comum e preconiza preconceito
de definição uma vez que as observações atípicas, ou minoritárias, não dispõem de
força suficiente para compor significativamente uma população. Para a estatística os
estudos das populações pressupõem na maioria das vezes que o comportamento delas
seja normal. Ou seja, poucos indivíduos com características divergentes e muitos
indivíduos com características semelhantes ou comuns. Assim, quando um
pesquisador colhe uma amostra de uma dada população para o estudo de seu
comportamento ele não precisará colher informações de um número elevado de
indivíduos, pois como a maioria demonstra características similares basta que ele
quantifique a similaridade e pegar alguns elementos deste grupo e avaliar o
comportamento de toda a população através de um grupo limitado de indivíduos.
Em geral, uma distribuição normal se caracteriza por apresentar-se
graficamente:
 Uma curva em forma de sino.
 Uma curva simétrica.
 Uma curva mesocúrtica
 Coincidir nela a média, mediana e moda.
 Ter aproximadamente 95% de seus valores dentro do intervalo
(média mais ou menos dois desvios padrões). Exatamente, 95% dos
indivíduos se encontram dentro do intervalo compreendido por
. Inclusive, podemos afirmar que quase 100% dos valores
estão dentro do intervalo .
 Ser a distribuição amostral que seguem os índices ou estimadores
estatísticos calculados numa amostra.
Em se tratando de variáveis quantitativas, inicialmente temos que observar a
adequação dos nossos dados à distribuição normal, levando em consideração alguns
critérios importantes:
 Obter a média mais três desvios padrões e a média menos três desvios
padrões. Os valores mínimo e máximo devem estar contidos nesse
intervalo.
 O módulo da curtose deve ser menor que duas vezes seu erro padrão. O
mesmo deve ser utilizado para a medida de assimetria.
 Um ponto a ser destacado é que em amostras muito pequenas (< 15), a
melhor maneira de verificar a existência de distribuição normal é
observar a distribuição de frequência dos seus dados para aquelas
variáveis através da construção de um histograma.
Existem diversos testes para comprovar se os valores de uma variével segurem
ou não a distribuição normal. Quando resultam significativos (valor de significância
estatística <0,05) se rejeita a hipótese de normalidade. Mas estes testes precisam ser
interpretados com cautela, sempre à luz do número de indivíduos que temos dado
sobre essa variável. Se o número de indivíduos da amostra base de dados for muito
grande, basta um pequeno desvio da normalidade para que o teste alcance um
resultado significativo e se rejeite a normalidade. Ao contrário, quando há poucos
dados, quase nunca se disporá de evidências para descartar a normalidade e os testes
não alcançam significância, apesar de existirem desvios importantes da normalidade.
Se o tamanho da amostra for muito grande terá falsos positivos, se o tamanho da
amostra for pequeno terá falsos negativos (interpretando “positivo” como teste
significativo).
Alguns testes desenhados para comprovar a normalidade são:
 Teste de Shapiro-Wilk W.
 Teste de Kolmogorov-Smirnov.
 Teste de Lilliefors.
Todos estes procedimentos são testes de hipóteses e dão como resultado final
um valor de probabilidade (valor ) ou de significância estatística. O pesquisador deve
sempre lembrar que os testes de significância são menos úteis em amostras pequenas
(menos que 30) e muito sensíveis em amostras grandes (mais que 1.000 observações).
Logo, o pesquisador deve usar sempre testes gráficos e estatísticos para avaliar o grau
real de desvio da normalidade.
Como se interpreta os testes estatísticos de normalidade? São provas que
calculam qual seria a probabilidade de encontrar esta distribuição dos dados (ou uma
mais longe da normalidade) se na população da qual procede a amostra essa variável
seguir uma distribuição normal perfeita. Para estes testes, a hipótese nula é a
normalidade. Portanto, se a probabilidade de encontrar estes dados supondo que a
distribuição segue uma normal perfeita (valor ) for alta, não há evidências
para rejeitar a hipótese nula e pode-se assumir que a amostra procede de uma
população que segue a normal. Mas quando o valor p de qualquer destes testes for
inferior a 0,05, é possível que existam dificuldades para assumir a normalidade. De
qualquer forma, quando temos uma mostra muito grande (n>60), com frequência se
pode assumir a normalidade para sua distribuição normal, embora estes testes
alcancem um valor p<0,05, já que os estimadores calculados em amostras grandes,
segundo se deriva do teorema central do limite, tendem a aproximar-se à distribuição
normal.
Para completar a descrição de uma distribuição, necessitamos de mais duas
estatísticas: Os índices de assimetria e curtose. A assimetria refere-se ao enviesamento
da distribuição e a curtose ao seu achatamento ou nivelamento. Vários índices de
assimetria foram desenvolvidos. Se uma distribuição for simétrica, ; se for
positivamente enviesada, ; e se for negativamente enviesada, . Se uma
distribuição é mais achatada (tem uma corcunda ampla e caudas espessas) que a
distribuição normal, é chamada platicúrtica, e . Se seu achatamento for o
mesmo que a distribuição normal, é mesocúrtica, . Se for mais pontiaguda
(tem uma corcunda estreita e caudas mais finas) que a distribuição normal, é
leptocúrtica, e .
❶ Clique em Analizar >
Estatísticas descritivas >
Explorar...
❸ Clique em Diagramas
❺ Clique OK
❹ Marque Diagramas
de normalidade com
testes e Histograma e
clique Continuar
❻ A saída apresentará a média (Mean), o
desvio padrão (Std. Deviation), mediana
(Median) e o intervalo interquartílico
(Interquartile Range). Calcule a média ± 3
desvios padrões = 4,68 e 72,96 (não atende ao
primeiro pressuposto de normalidade, porque
os valores mínimo e máximo não estão contidos
neste intervalo).
❷Selecione a variável para
testar a normalidade.
❼ A saída apresentará a assimetria
(Skewness) e a curtose (Kurtosis) da
distribuição normal. A assimetria não é
menor que duas vezes o erro padrão
respectivo. Portanto, não atende ao
pressuposto de normalidade.
❽ A saída apresentará dois testes
estatísticos de normalidade: KS e SW.
Ambos foram significativos ao nível de
significância de 95%. Portanto, rejeita-se
a hipótese nula de normalidade.
Medidas de Centro e Dispersão
❶ Clique em Analizar >
Estatísticas descritivas >
Frequências...
❷ Selecione a variável para
realizar a estatística
descritiva.
❸ Clique em Estatísticas.
❹ Marque todas as medidas
desejadas de Tendência central e
Dispersão, com os Valores de
percentil, assimetria e curtose.
Clique Continuar.
❻ Clique OK.
❺ Clique em Gráficos. Há uma
opção para a apresentação de
histograma com a curva normal
desenhada. Útil para avaliar
normalidade em amostras muito
pequenas.
Tabelas Cruzadas
❶ Clique Tabela de
referência cruzada...
❷ Selecione a variável
independente e coloque na
linha, depois selecione a
variável dependente e
coloque na coluna.
❸ Clique OK.
❹ Para os testes
estatísticos de associação ou
correlação, as caselas devem
apresentar mais de 5 casos,
preferencialmente.
Gráficos
As variáveis qualitativas podem ser representadas por:
 Gráfico de barras – mostra a quantidade de dados que pertencem a
cada categoria como uma área de tamanho proporcional retangular.
 Diagrama de Pareto – gráfico de barra com as barras distribuídas da
categoria mais numerosa para aquela menos numerosa. Inclui um
gráfico de linha exibindo as porcentagens e contagens acumuladas para
as barras;
 Gráfico de pizza ou setores – mostra a quantidade de dados que
pertencem a cada categoria, tal como uma parte proporcional de um
círculo.
As variáveis qualitativas podem ser representadas por:
 Histograma – um gráfico de barras que representa uma distribuição de
frequência de uma variável quantitativa. Porém, as barras são criadas
adjacentes a cada outra (sem intervalos). A escala horizontal representa
as classes de valores quantitativos e a escala vertical representa as
frequências. As alturas das barras correspondem aos valores de
frequência;
 Diagrama de caule-e-folha – mostra os dados de uma amostra usando
os dígitos reais que compõem os valores. Cada valor numérico é dividido
em duas partes: os primeiros dígitos tornam-se o caule e os dígitos finais
tornam-se a folha. Os caules são localizados ao longo do eixo principal e
uma folha para cada valor está localizada de forma a exibir a
distribuição dos dados.
 Polígono de frequência – envolve pontos médios de classes. Usa
segmentos de linhas conectadas a pontos localizados diretamente sobre
os valores médios de classes.
 Polígono de frequência acumulativo ou ogiva – é útil para determinar o
número de valores abaixo de um valor particular. É composto de um
gráfico de linha que descreve frequências acumulativas. Uma ogiva usa
limites de classes ao longo da escala horizontal e as frequências
acumuladas ao longo da escala vertical;
 Gráfico de caixa ou boxplot – usa as relações entre mediana, quartil
superior e quartil inferior para descrever a assimetria de uma
distribuição. Os quartis superior e inferior podem ser pensados como
percentis 75 e 25 da amostra – que são os pontos 3/4 e 1/4,
respectivamente, ao longo da amostra ordenada.
 Diagrama de Pontos ou dotplot – mostra os dados de uma amostra pela
representação de cada valor com um ponto posicionado ao longo da
escala (eixo das abscissas). Esta escala pode ser horizontal ou vertical. A
frequência dos valores é representada ao longo da outra escala (eixo
das coordenadas).
A descrição gráfica da relação entre duas variáveis pode ser dada por:
 Gráfico de dispersão – é um gráfico de dados quantitativos
emparelhados (x, y) com um eixo x horizontal e um eixo y vertical. O
eixo horizontal é usado para a primeira variável (x) e o eixo vertical é
usado para a segunda variável. O padrão dos pontos plotados é muito
útil para determinar se há relação entre as duas variáveis.
Tabela 05 – Tipos mais comuns de gráficos de acordo com a classificação das variáveis
dependente e independe.
Variável Dependente Variável Independente Tipo de Gráfico Exemplo
Quantitativa Discreta ou
Contínua
Categórica Mutuamente
Exclusiva
Barras
Histograma
Boxplot
Sexo x Faixa Etária
Renda x Região
Categórica Exaustiva
Categórica Mutuamente
Exclusiva
Barras Opinião x Profissão
Categórica Mutuamente
Exclusiva
Categórica Mutuamente
Exclusiva
Barras
Barras Percentuais
Sexo x Etnia
Escola x Faixa Etária
Categórica Mutuamente
Exclusiva
- Setores
Sexo
Etnia
Quantitativa Contínua ou
Discreta
Categórica Ordinal
Quantitativa Contínua ou
Discreta
Categórica Ordinal
Dispersão
Linhas
Altura x Peso
Pressão x IMC
❶ Clique Gráficos
❷ Caixas de diálogo legadas
❸ Escolha o gráfico que
atenda ao seu objetivo
❹ Se preferir, use o criador
de gráfico
Gráfico de Barras (qualitativa ordinal x qualitativa nominal)
❶ Selecione Barra
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável faixa etária
separada por sexo
❸ Selecione o gráfico com
Barra em Cluster e arraste até
o campo de visualização
❹ Arraste a variável sexo
para o Cluster em X
❺ Arraste a variável faixa
etária para o eixo das
abscissas
❻ Pode-se definir como a
variável será contada no
gráfico
❼ Pode-se optar por exibir
as barras de erro com o
intervalo de confiança
desejado
❽ Clique em aplicar
Gráfico de Barras (qualitativa nominal)
❶ Selecione Barra
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável sexo
❸ Selecione o gráfico com
Barra Simples e arraste até o
campo de visualização
❺ Clique OK
❹ Arraste a variável sexo
para o eixo das abscissas
Gráfico de Barras (qualitativa nominal x quantitativa contínua)
❶ Selecione Barra
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade para
cada sexo
❸ Selecione o gráfico com
Barra Simples e arraste até o
campo de visualização
❻ Clique OK
❹ Arraste a variável sexo
para o eixo das abscissas
❺ Arraste a variável idade para o
eixo das coordenadas. Neste caso,
automaticamente o programa faz a
média de idade
Gráfico de Barras 3D (qualitativa nominal x qualitativa nominal x quantitativa
contínua)
❶ Selecione Barra
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade por raça,
sexo e tuberculose pulmonar
❸ Selecione o gráfico 3D
em Cluster e arraste até o
campo de visualização
❽ Clique OK
❹ Arraste a variável
Tuberculose pulmonar para o
eixo x
❼ Arraste a variável idade para o
eixo das coordenadas. Neste caso,
automaticamente o programa faz a
média de idade ❺ Arraste a variável raça
para o eixo z
❻ Arraste a variável sexo
para o eixo z
Gráfico de Pizza (qualitativa nominal)
❶ Selecione Pizza/Polar
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável sexo
❸ Selecione o gráfico e
arraste até o campo de
visualização
❺ Clique OK
❹ Arraste a variável sexo
para o eixo das abscissas
Gráfico de Pontos (quantitativa contínua)
❶ Selecione
Dispersão/Ponto
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade
❸ Selecione o gráfico
Disperso Simples e arraste até
o campo de visualização
❺ Clique OK
❹ Arraste a variável idade
para o eixo das abscissas
Histograma (quantitativa contínua)
❶ Selecione Histograma
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade
❸ Selecione o Histograma
Simples e arraste até o campo
de visualização
❻ Clique OK
❹ Arraste a variável idade
para o eixo das abscissas
❺ Marque Exibir curva
normal e clique Aplicar
Boxplot (quantitativa contínua)
❶ Selecione Diagrama em
caixa
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade
❸ Selecione o Boxplot em
1D e arraste até o campo de
visualização
❺ Clique OK
❹ Arraste a variável idade
para o eixo das coordenadas
❺ Valores atípicos estão
representados com pequenos
círculos acima do bigode superior.
❶ Selecione Diagrama em
caixa
❷ Defina qual o tipo. Neste
caso, iremos fazer um gráfico
com a variável idade por sexo
❸ Selecione o Boxplot
Simples e arraste até o campo
de visualização
❺ Clique OK
❹ Arraste a variável idade
para o eixo das coordenadas
❺ Valores atípicos estão
representados com pequenos
círculos acima do bigode superior.
❹ Arraste a variável sexo
para o eixo das abscissas
Referências bibliográficas
Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 2. ed. São Paulo: EPU, 1981.
Center for Disease Control and Prevention. Epidemiology Program Office. Epi Info 7.
Disponível em www.cdc.gov/epiinfo
Dean AG. Microcomputers and the future of epidemiology. Public Health Reports
1994; 109(3):439-41.
Dean AG et al. Epi Info. Database and statistics software for public health
professionals. Atlanta, EUA: Center for Disease Control and Prevention. versão 3.2.2,
2004.
Free Software Foundation, GNU Software. PSPP. Disponível em
http://www.gnu.org/software/pspp/.
Martínez-González, MA, Faulín Fajardo, FJ, Sánchez Villegas, A. Bioestadística
Amigable. 2ª Ed. Madri: Díaz de Santos, 2006.
Triola, MF. Elementary Statistics. 11ª Ed. Boston, MA: Addison Wesley, 2009.

Mais conteúdo relacionado

Semelhante a Spss tutorial

Utilização do Google Analytics para levantamento de dados estatísticos: Relat...
Utilização do Google Analytics para levantamento de dados estatísticos: Relat...Utilização do Google Analytics para levantamento de dados estatísticos: Relat...
Utilização do Google Analytics para levantamento de dados estatísticos: Relat...Rodrigo Moreira Garcia
 
Apresentacao - Prontuário Eletrônico.pptx
Apresentacao - Prontuário Eletrônico.pptxApresentacao - Prontuário Eletrônico.pptx
Apresentacao - Prontuário Eletrônico.pptxAndr656761
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Reunião de Chefias de Bibliotecas
Reunião de Chefias de BibliotecasReunião de Chefias de Bibliotecas
Reunião de Chefias de BibliotecasSIBiUSP
 
Development proposal for the personal health record ‘portal do utente’
Development proposal for the personal health record ‘portal do utente’Development proposal for the personal health record ‘portal do utente’
Development proposal for the personal health record ‘portal do utente’Liliana Laranjo
 
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...Jefferson Simão Gonçalves
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexThiago Furtado
 
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...Fernando A. B. Sabino da Silva
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Fabio Silva
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacaosamuel1562314
 
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...João Victor Vernieri
 
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiro
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiroLúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiro
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiroSciELO - Scientific Electronic Library Online
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimGetulio Valentim
 
2 - PPT1_aula sincrona.pptx
2 - PPT1_aula sincrona.pptx2 - PPT1_aula sincrona.pptx
2 - PPT1_aula sincrona.pptxAntónio Godinho
 

Semelhante a Spss tutorial (20)

Utilização do Google Analytics para levantamento de dados estatísticos: Relat...
Utilização do Google Analytics para levantamento de dados estatísticos: Relat...Utilização do Google Analytics para levantamento de dados estatísticos: Relat...
Utilização do Google Analytics para levantamento de dados estatísticos: Relat...
 
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
Luciene Delazari - Os periódicos brasileiros frente aos desafios da Ciência A...
 
Apresentacao - Prontuário Eletrônico.pptx
Apresentacao - Prontuário Eletrônico.pptxApresentacao - Prontuário Eletrônico.pptx
Apresentacao - Prontuário Eletrônico.pptx
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Reunião de Chefias de Bibliotecas
Reunião de Chefias de BibliotecasReunião de Chefias de Bibliotecas
Reunião de Chefias de Bibliotecas
 
Development proposal for the personal health record ‘portal do utente’
Development proposal for the personal health record ‘portal do utente’Development proposal for the personal health record ‘portal do utente’
Development proposal for the personal health record ‘portal do utente’
 
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...
O uso de programação reflexiva para o desenvolvimento de aplicações comerciai...
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e Latex
 
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...
Big Data, Machine Learning e Text Mining em Economia: Estudos Recentes e Anál...
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...
 
4452
44524452
4452
 
Bdii aula01 apresentacao
Bdii aula01 apresentacaoBdii aula01 apresentacao
Bdii aula01 apresentacao
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
Fake News.pdf
Fake News.pdfFake News.pdf
Fake News.pdf
 
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...
Aplicativo baseado em economia colaborativa para doacao de artigos escolares ...
 
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiro
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiroLúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiro
Lúcia da Silveira - Portais de periódicos: Presença gestão e panorama brasileiro
 
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentimUlbra tcc sistema de informaçao getúlio de oliveira valentim
Ulbra tcc sistema de informaçao getúlio de oliveira valentim
 
HL7 LATAM NEWS SETEMBRO 2014
HL7 LATAM NEWS SETEMBRO 2014HL7 LATAM NEWS SETEMBRO 2014
HL7 LATAM NEWS SETEMBRO 2014
 
2 - PPT1_aula sincrona.pptx
2 - PPT1_aula sincrona.pptx2 - PPT1_aula sincrona.pptx
2 - PPT1_aula sincrona.pptx
 
Social Dendro - Aplicação de Conceitos de Redes Sociais à Gestão de Dados de ...
Social Dendro - Aplicação de Conceitos de Redes Sociais à Gestão de Dados de ...Social Dendro - Aplicação de Conceitos de Redes Sociais à Gestão de Dados de ...
Social Dendro - Aplicação de Conceitos de Redes Sociais à Gestão de Dados de ...
 

Spss tutorial

  • 1. Proibida a cópia ou reprodução sem autorização expressa dos autores.
  • 2. Sumário Apresentação ..................................................................... 03 Sobre os autores ................................................................ 04 Prefácio .............................................................................. 05 Histórico ............................................................................ 06 Funcionamento básico ....................................................... 07 Requisitos do sistema ......................................................... 09 Menus e botões ................................................................. 10 IT 1 – Janela de abertura ........................................... 10 IT 2 – Interface básica ................................................ 11 IT 3 – Arquivo ............................................................ 12 IT 4 – Editar ............................................................... 13 IT 5 – Visualizar ......................................................... 14 IT 6 – Dados ............................................................... 15 IT 7 – Transformar ..................................................... 16 IT 8 – Analisar ............................................................ 17 IT 9 – Marketing direto .............................................. 18 IT 10 – Gráficos .......................................................... 18 IT 11 – Utilitários ....................................................... 18 IT 12 – Janela ............................................................. 18 IT 13 – Ajuda ............................................................. 18 IT 14 – Botões rápidos da visualização de dados ........ 19 IT 15 – Saída .............................................................. 19 Variáveis ............................................................................ 20 Base de dados .................................................................... 23 Categorização de variáveis ................................................. 29 Transformar variáveis quantitativas ................................... 31 Dados perdidos .................................................................. 32 Observações atípicas .......................................................... 35 Normalidade ...................................................................... 37 Medidas de Centro e Dispersão .......................................... 41 Tabelas Cruzadas ................................................................ 42 Gráficos .............................................................................. 43 Gráfico de barras ....................................................... 46 Gráfico de pizza ......................................................... 50 Gráfico de pontos ...................................................... 51 Histograma ................................................................ 52 Boxplot ..................................................................... 53 Referências bibliográficas ................................................... 55
  • 3. Apresentação A ideia de escrever este tutorial nasceu da necessidade de um texto que fosse adequado ao ensino de princípios básicos de bioestatística utilizando-se a ferramenta computacional para todos aqueles que trabalham direta ou indiretamente com as ciências da saúde. O tutorial está estruturado de forma a oferecer um aprendizado rápido de conceitos e comandos práticos para uma criação de base de dados e análise estatística apropriada. É uma obra básica, introdutória e que objetiva apresentar os recursos diversos do IBM® SPSS® Statistics 20 para uso em bioestatística. Apesar de caro, o software trás uma infinidade de recursos importantes para o dia-a-dia do pesquisador que desejar realizar testes estatísticos com rapidez e eficiência. Uma dica é testar o programa antes de adquiri-lo através de uma versão IBM® SPSS® 14-Day Trial1 . Esperamos que a compreensão dos métodos e princípios gerais do IBM® SPSS® Statistics 20 seja apreendida de maneira a tornar mais fácil as criações e análises de dados em pesquisas voltadas às ciências da saúde e, consequentemente, colaborar na formação crítica da interpretação da vasta quantidade de informações difundidas mundialmente. Autores 1 Acesso ao endereço destinado ao download para versão de teste por 14 dias do programa IBM® SPSS® Statistics 20: http://www14.software.ibm.com/download/data/web/en_US/trialprograms/W110742E06714B29.html?S_CMP=rnav
  • 4. Sobre os autores Angelo Giuseppe Roncalli da Costa Oliveira Possui Graduação em Odontologia pela Universidade Federal do Rio Grande do Norte (1988), Mestrado em Odontologia Social pela Universidade Federal do Rio Grande do Norte (1993) e Doutorado em Odontologia Preventiva e Social pela Universidade Estadual Paulista Júlio de Mesquita Filho (2000). Atualmente é professor Associado da Universidade Federal do Rio Grande do Norte. Tem experiência na área de Odontologia, com ênfase em Saúde Bucal Coletiva, atuando principalmente nos seguintes temas: Epidemiologia, Saúde Coletiva e Políticas Públicas de Saúde. André Luiz Barbosa de Lima Possui graduação em Medicina Veterinária pela Universidade Federal Rural do Semiárido - UFERSA (2004). Tem experiência na área de Medicina Veterinária, com ênfase em Clínica e Cirurgia Animal, bem como em Vigilância Sanitária de Alimentos, atuando principalmente nos seguintes temas: Vigilância Sanitária, Saúde Coletiva e Políticas Públicas de Saúde. Kenio Costa de Lima O professor possui graduação em Odontologia pela Universidade Federal do Rio Grande do Norte, mestrado em Odontologia Social pela Universidade Federal do Rio Grande do Norte, doutorado em Ciências (Microbiologia Médica) pela Universidade Federal do Rio de Janeiro e pós-doutorado pela Agência de Saúde Pública de Barcelona. Atualmente, é professor associado I da Universidade Federal do Rio Grande do Norte, dos Programas de Pós-graduação em Saúde Coletiva e em Ciências da Saúde desta mesma universidade e bolsista de produtividade do CNPq . É o atual coordenador do Programa de Pós- graduação em Saúde Coletiva da Universidade Federal do Rio Grande do Norte. Tem experiência na área de Odontologia, Saúde Coletiva e das Ciências da Saúde de um modo geral, com ênfase em estudos experimentais e epidemiológicos. Trabalha, principalmente, os seguintes temas: Envelhecimento e Saúde, Doenças infecciosas, Microbiologia aplicada e Epidemiologia aplicada à pesquisa em Saúde.
  • 5. Prefácio As pesquisas de caráter quantitativo em ciências da saúde pressupõem uma sequência de etapas relativamente simples que vão do planejamento da pesquisa até a elaboração do relatório final, passando pela coleta e processamento dos dados. Uma atribuição precípua da estatística aplicada aos estudos epidemiológicos, por exemplo, é a consolidação de dados obtidos de amostras ou populações, de modo que estes possam ser lidos e interpretados em seu conjunto. Desse modo, a etapa subsequente à coleta de dados é a construção de uma base em que tais dados sejam organizados de forma a facilitar as tarefas de análise. Existem diversos programas de computador em que esta tarefa pode ser realizada, alguns mais sofisticados e outros menos, outros mais caros e outros gratuitos. No Brasil, dentre os mais utilizados pelas universidades e institutos de pesquisa, temos o IBM® SPSS® Statistics 20 e o STATA® 12 como representantes dos softwares pagos. Dentre os gratuitos há os que funcionam em “modo Web”, ou seja, é possível realizar alguns cálculos estatísticos a partir de um aplicativo que roda em uma página na Internet, geralmente vinculada a alguma instituição, e os que funcionam em modo Desktop (no próprio computador), um dos mais populares é o Epi InfoTM 7, programa em versão mais atual que foi criado ainda na década de 80 pelo Centers for Disease Control and Prevention (CDC) sediado em Atlanta, EUA. Ele foi desenvolvido com o objetivo de servir de suporte para entrada e processamento de dados epidemiológicos, para uso em Saúde Pública e é um programa de “domínio público”, ou seja, sua distribuição é livre e gratuita, podendo ser copiado de sítios da Internet em várias partes do mundo, sendo o principal deles o do próprio CDC. No campo da estatística, o programa “R” tem sido bastante utilizado por universidades, porém sofre com as constantes reclamações de novos usuários que não se adaptam à sua interface relativamente complexa. Mais recentemente, foi disponibilizado, pela mesma empresa ligada a Free Software Fundation que elaborou o “R”, um equivalente ao IBM® SPSS® Statistics 20, denominado PSPP Gnu 0.7.8 (11-11- 2011), que possui uma interface semelhante, além de apresentar praticamente os mesmos comandos e também a capacidade de ler e gravar os arquivos no mesmo formato (.SAV). Já existe a versão em língua portuguesa. Este tutorial abordará as estratégias necessárias para a construção da base de dados para pesquisas na área das ciências da saúde, dando especial destaque à tabulação eletrônica e análise descritiva dos dados a partir do IBM® SPSS® Statistics 20.
  • 6. Histórico O SPSS é provavelmente mais velho que você. Em 2011 completou 42 anos e a média de idade do brasileiro é 32 anos. Na Universidade de Stanford na década de 60, Norman H. Nie, C. Hadlai (Tex) Hull e Dale H. Bent desenvolveram o sistema original chamado Statistical Package of the Social Sciences (SPSS). Eles necessitavam analisar uma grande quantidade de dados em ciências sociais e resolveram criar um software que fizesse isso. Na década de 70, a popularidade ganhou grandes dimensões quando produziram o primeiro manual. A popularidade se estendeu das universidades para outras áreas do governo e ganhou popularidade na iniciativa privada. Na década de 80, uma versão do software foi transferida para o computador pessoal. Em 2008, o nome foi alterado para Predictive Analysis Software (PASW). Em 2009, o SPSS Inc. foi adquirido pela IBM Corporation e o nome do produto voltou ao mais familiar SPSS. O nome oficial do software hoje é IBM® SPSS® Statistics 20. O software está disponível em diversas edições – Standard Edition, Professional Edition e Premium Edition, conforme se resume na Tabela 01. O software também apresenta certo número de add-ons com propósitos especiais disponíveis. Tabela 01 – Edições do software IBM® SPSS® Statistics. Edição Recursos Standard Estatísticas básicas Modelos lineares Modelos não lineares Tabelas personalizadas Professional Preparação de dados Validação de dados e valores ausentes Dados categóricos Árvores de decisão Previsão Premium Modelagem de equação estrutural Bootstrapping 2 Avaliação e teste de amostragem complexa Procedimentos para marketing direto e tomada de decisão de produtos Gráficos e tabelas de alta qualidade 2 É uma abordagem para validar um modelo multivariado extraindo-se um grande número de sub-amostras e estimando modelos para cada uma delas. Estimativas a partir de todas as sub-amostras são combinadas em seguida, fornecendo não apenas os melhores coeficientes estimados, mas também sua variabilidade esperada e, assim, sua probabilidade de diferenciar do zero; ou seja, os coeficientes estimados são estatisticamente diferentes de zero? Essa abordagem não depende de suposições estatísticas sobre a população para avaliar significância estatística, mas, ao invés disso, faz sua avaliação baseada somente nos dados amostrais.
  • 7. Funcionamento Básico Os desenvolvedores do IBM® SPSS® Statistics 20 fizeram um esforço para chegar a um software fácil de usar. Tudo isso para prevenir o usuário dos erros. Claro que isto não torna impossível de se fazer algo errado, mas o software IBM® SPSS® Statistics 20 trabalha de forma a minimizar isso. Sempre se define um conjunto de variáveis, então se entra com os dados para estas variáveis para se criar um número de casos. Por exemplo, se queremos fazer uma análise de automóveis, cada carro em nosso estudo será um caso. As variáveis que definem os casos poderiam ser coisas como ano de fabricação, potência e centímetros cúbicos de deslocamento. Cada carro no estudo é definido como um simples caso e cada um deles é definido como um conjunto de valores atribuídos ao conjunto de variáveis. Cada caso tem um valor para cada variável (bem, podemos ter um missing value ou valor ausente, mas esta é uma situação especial descrita mais a frente). Cada variável é um tipo específico. Isto é, cada variável é definida como contendo certo tipo de número. Por exemplo, uma variável escalar é uma medida numérica, tal como peso ou quilômetros por litro. Uma variável qualitativa contém valores que definem uma categoria; por exemplo, uma variável chamada gênero poderia ser uma variável qualitativa definida por conter somente valores 1 para feminino e 2 para masculino. Coisas que somente fazem sentido para um tipo de variável não necessariamente fazem sentido para outra. Por exemplo, faz sentido calcular a média de quilômetros por litro, mas não a média de gênero. Após inserir os dados no IBM® SPSS® Statistics 20 – os casos estiverem todos definidos por valores registrados nas variáveis – podemos facilmente executar uma análise. Já terminamos a parte mais difícil. Executar a análise dos dados é simples se comparada com a entrada de dados. Para rodar uma análise, seleciona-se um tipo de análise no menu, seleciona-se as variáveis apropriadas e clica no botão OK. O SPSS lê todos os casos, realiza a análise e apresenta o output (saída de dados) como tabelas e gráficos. Podemos instruir o IBM® SPSS® Statistics 20 a criar gráficos e tabelas diretamente dos nossos dados da mesma forma como fazemos uma análise. Quando estamos preparando o IBM® SPSS® Statistics 20 para executar uma análise ou criar um gráfico, o botão OK fica indisponível até que façamos todas as escolhas necessárias para produzir o output. Não somente requer que nós selecionemos um número suficiente de variáveis para produzir o output, mas também requer que escolhemos os tipos certos de variáveis. Se uma variável qualitativa é necessária para uma certa abertura, o IBM® SPSS® Statistics 20 não permitirá que escolhemos qualquer outro
  • 8. tipo. Todo output do IBM® SPSS® Statistics 20 vai pro mesmo lugar – uma caixa de diálogo chamada Saída. Ela se abre para exibir os resultados de tudo o que fizemos. Após termos produzido o output, se realizarmos alguma ação que produza mais output, o novo output é exibido na mesma caixa de diálogo. E quase tudo que fazemos produz output.
  • 9. Requisitos do Sistema IBM® SPSS® Statistics 20 para Windows Sistema Operacional Microsoft Windows XP (Professional, 32-bit), Vista® (Home, Business, 32- ou 64-bit) ou Windows 7 (32- ou 64-bit). Hardware • Processador: Intel® ou AMD x86 executando 1GHz, maior é recomendado • Memória: 1GB de RAM, mais é recomendado • Mínimo de espaço livre em disco: 800MB • Drive de DVD • Monitor XGA (1024x768) ou resolução maior • Para conectar com o IBM SPSS Statistics Server, um adaptador de rede rodando protocolo de rede TCP/IP. IBM® SPSS® Statistics 20 para Mac OS X Sistema Operacional Apple Mac OS 10.5 (Leopard) e 10.6 (Snow Leopard), (versões 32-bit e 64-bit) Hardware • Processador Intel • Memória: 1GB de RAM, mais é recomendado • Mínimo de espaço livre em disco: 800MB • Drive de DVD • Monitor Super VGA (800x600) ou resolução maior IBM® SPSS® Statistics 20 para Linux Sistema Operacional O SPSS Statistics foi testado e é suportado apenas no Red Hat Enterprise Linux 5 e 6 e Debian 6. Nenhum problema com distribuições derivadas de Red Hat e Debian é esperado, mas elas não foram testadas nem são suportadas. Hardware • Processador: Intel ou AMD x86 executando 1GHz, maior é recomendado • Memória: 1GB de RAM, mais é recomendado • Mínimo de espaço livre em disco: 800MB • Drive de DVD • Monitor XGA (1024x768) ou resolução maior
  • 10. Menus e Botões Instrução de Trabalho – IT 1 – Janela de Abertura A janela de abertura do IBM® SPSS® Statistics 20 é apresentada logo quando abrimos o programa. Ela disponibiliza as opções de abertura de arquivos de forma prática e rápida, mas o usuário pode optar por não tê-la numa inicialização futura. Nela também podemos executar um tutorial básico bastante útil e objetivo que se abrirá no browser padrão do seu sistema operacional (p.ex. Windows Internet Explorer, Google Chrome, Firefox). Neste tutorial está disponível recursos de ajuda (Help), tutorial propriamente dito (Tutorial), estudo de casos (Case Studies), orientador estatístico (Statistics Coach) e add-ons (Add-ons). Nesta opção está o histórico de bases abertas recentemente Mas, quaisquer outra base de dados mais antiga pode ser aberta nesta opção. Há um tutorial bem simples para dúvidas rápidas. Inserir dados em nova base de dados. Pouco usada, esta opção serve para consultar arquivo Database Query (*.spq). Pouco usada, esta opção serve para criar consultas baseadas nos arquivos de extensão como .xls e .dbf Opção OK para executar as opções escolhidas. Quando marcada esta opção, o SPSS não mostrará esta janela introdutória na inicialização.
  • 11. IT 2 – Interface Básica A interface é composta por um menu onde estão basicamente todos os comandos necessários para as análises e criações de gráficos e tabelas, botões de fácil acesso (atalhos), abas de visualização de dados e variáveis, campo de apresentação de valores, e as linhas e colunas para inserção de dados. Obviamente que a lógica de acesso as funcionalidades do menu é semelhante aquela utilizada nos programas mais conhecidos como Microsoft® Office® Excel® ou Epi InfoTM 7 e será apresenta em tópico posterior com mais detalhes. Como mencionado anteriormente, na parte inferior esquerda da tela são apresentadas duas abas para visualização de dados (tela apresentada abaixo) e visualização de variáveis. A primeira serve para inserir todos os dados referentes aos casos e variáveis apresentados e a última é onde são listadas todas as variáveis existentes. Nesta aba de variáveis podemos modificar seu nome, tipo e rótulo, por exemplo. É muito importante o usuário entender como estão classificadas as variáveis dependentes e independentes de seu estudo para facilitar as alterações necessárias nesta aba. Neste sentido, veremos em detalhes no tópico relacionado. Menu onde se encontram os comandos básicos do programa Linhas Numeradas Colunas de variáveis Informação sobre o estado de funcionamento do processador. Botões Rápidos Neste campo aparece o valor apresentado na linha e coluna selecionadas Número de variáveis visíveis do total de variáveis Abas para visualização de dados ou variáveis
  • 12. IT 3 – Arquivo No menu Arquivo está disponibilizado os comandos para criar, abrir, salvar, visualizar impressão e imprimir um determinado arquivo. A extensão padrão do arquivo no IBM® SPSS® Statistics 20 é o .SAV, mas podemos salvar nos principais tipos de arquivos de dados para ser trabalhado em outros programas do gênero conhecidos como Microsoft® Office® Excel®, Epi InfoTM 7 ou STATA® 12. Use para abrir um novo arquivo de dados. Use para abrir um arquivo de dados já criado. Use para abrir um banco de dados. Por exemplo, pode-se abrir a base DBF de um dos agravos do Sistema de Informação de Agravos de Notificação (SINAN). Use para salvar os dados inseridos. Podemos salvar em várias extensões para poder ser rodado em outros programas como Excel, Stata, Epi Info, SAS. Use para salvar os dados. Use para visualizar a impressão da planilha de dados. Use para imprimir os dados visualizados no módulo de visualização.
  • 13. IT 4 – Editar No menu Editar está disponibilizado os comandos para desfazer ou refazer determinado passo executado dentro do histórico; cortar, copiar, colar, inserir ou eliminar linha(s) (casos) ou coluna(s) (variáveis) selecionada(s). Também é possível através deste menu localizar quaisquer valores dentro dos casos e variáveis, bem como podemos localizar um determinado valor e substituí-lo logo em seguida. Há dois comandos básicos para procurar um caso ou uma variável especificada. O comando de Opções é a parte organizacional do IBM® SPSS® Statistics 20. Nele podemos determinar o tipo, a cor e o tamanho de fonte utilizados para melhor visualizar os dados bem como o número de casas decimais das variáveis numéricas. Ainda podemos modificar as tabelas dinâmicas de forma a torna-las um padrão acadêmico, por exemplo, como os modelos determinados pelo Instituto Brasileiro de Geografia e Estatística (IBGE) que dispensam as linhas colunares. Use para recortar qualquer valor, linha ou coluna que desejar. Use para copiar qualquer valor, linha ou coluna que desejar. Use para eliminar qualquer valor, linha ou coluna que desejar. Use para selecionar opções capazes de tornar seus dados mais organizados. Use para localizar quaisquer valores dentro das linhas e colunas Use para localizar quaisquer valores dentro das linhas e colunas e substituir por outro qualquer.
  • 14. IT 5 – Visualizar O menu Visualizar é o mais básico de todos. Raramente iremos necessitar de seu uso prático. Mas, há um comando interessante que pode ser acionado: Rótulos de valor. Este comando torna todos os valores categóricos codificados em valores numéricos que estão nas linhas e colunas nas respectivas categorias, tornando-se melhor a visualização dos dados numa impressão, por exemplo. Use para transformar os valores categóricos codificados em valores numéricos nas respectivas categorias. Use para ir para Visualização de Variáveis. Use para retirar as linhas das grades. Toda planilha ficará em branco, apresentando apenas os valores.
  • 15. IT 6 – Dados O menu Dados é muito importante, mas bastante complexo nas atribuições. Nele poderemos definir as propriedades ou o nível de medida para uma variável, identificar dados duplicados ou incomuns, classificar casos ou variáveis, dividir arquivo ou selecionar casos (para encontrar outliers, por exemplo). Use para identificar casos duplicados. Principalmente quando há um rastreador como o número de identidade ou um soundex. Use para classificar casos. Por exemplo, podemos organizar os dados por gênero. O programa separará homens e mulheres por ordem. Use para classificar variáveis. Por exemplo, podemos colocar em ordem alfabética de A a Z. Use para mudar os valores de uma variável para outra. Raramente se usa. Use para dividir um arquivo por grupo e agrupando variáveis. Quando desejar separar uma análise por gênero, p.ex. Use para encontrar outliers (valores discrepantes) usando critérios de seleção.
  • 16. IT 7 – Transformar O menu Transformar é tão importante quanto o menu Dados. Nele poderemos calcular uma variável, fornecendo equações capazes de padronizar ou mesmo converter valores, criar indicadores ou índices. Também podemos recodificar uma variável numérica em uma variável qualitativa. Por exemplo, podemos transformar a variável de idade numa variável de faixa etária, usando-se os intervalos de valores e códigos específicos para cada faixa. O Assistente de Data e Hora é capaz de transformar algumas variáveis que apresentam dados segregados de dias, mês e ano, em uma única variável de data, por exemplo. Podemos também substituir valores ausentes (missing) de uma variável ou caso através da geração de novos valores baseados numa média da série ou de pontos próximos. Use para encontrar outliers (valores discrepantes) usando critérios de seleção. Use para recodificar na mesma variável. P.ex., categorizar uma variável idade, transformando-a em faixa etária, mas a variável idade assumirá os novos valores da faixa etária. Use para recodificar noutra variável. P.ex., categorizar uma variável de idade, transformando-a em faixa etária. Será criada uma variável nova: faixa etária. Use para transformar variáveis em datas. P.ex. variáveis Dia, Mês e Ano, podem transforma-se em data. Use para criar valores para as células vazias nas variáveis. É útil quando há poucos missing e cria- se através de vários métodos.
  • 17. IT 8 – Analisar O menu Analisar é o mais importante de todos, porque é o cérebro dos testes estatísticos disponibilizados no IBM® SPSS® Statistics 20. Para ele será dado um capítulo especial.
  • 18. IT 9 – Marketing direto O menu Marketing direto é usado por empresas para estratégias de marketing com clientes. Portanto, não será explorado. IT 10 – Gráficos O menu Gráficos é usado para criar gráficos de maneira bastante rápida e fácil. Há diversos gráficos disponíveis e funções capazes de torna-los mais adequados a nossa preferência. IT 11 – Utilitários O menu Utilitários não é usado com frequência no IBM® SPSS® Statistics 20. Portanto, não será explorado. IT 12 – Janela O menu Janela apresenta as opções mutuamente excludentes e exaustivas de visualização das janelas abertas no IBM® SPSS® Statistics 20. IT 13 – Ajuda O menu Ajuda não é relevante para ser explorado. Mas, contém os itens já apresentados no IT 1 de tutorial, estudos de casos e orientador de estatísticas. Use para criar gráficos de maneira fácil e bastante intuitiva. Use para criar gráficos através de sugestões dadas pelo próprio programa que se baseia no tipo de variável trabalhada. Use modelos diretos para a construção de gráficos.
  • 19. IT 14 – Botões Rápidos da Visualização de Dados Os botões rápidos dão acesso prático e fácil aos principais comandos para organização dos dados. Podemos salvar ou abrir um arquivo, ver qual foi o último comando realizado e então determinar por retornar ao estado anterior, observar o perfil de cada variável, inserir ou selecionar casos e variáveis. Na prática são bastante úteis porque facilitam demais o acesso do usuário aos comandos básicos do programa. IT 15 – Saída O output é a saída de dados quando realizamos quaisquer mudanças importantes, fazemos uma análise ou criamos uma tabela ou gráfico. Nele são representados de forma bastante prática todas as tabelas relacionadas aos testes estatísticos realizados, por exemplo. A cada nova rodada de testes não abrirá um novo output. Os dados gerados a cada rodada de testes ficaram no mesmo output seguindo a ordem de execução. Abrir arquivo Salvar arquivo Imprimir arquivo Comandos usados recentemente Ir para o caso Ir para a variável Perfil das variáveis Localizar valores Inserir casos Inserir variáveis Dividir arquivo Ponderar casos Selecionar casos Usar conjunto de variáveis Rótulos de valor Tabelas podem ser padronizadas Histórico das saídas
  • 20. Variáveis A maioria das tarefas de investigação exige que seja realizada uma fase de coleta dos dados. Estes dados são a matéria-prima da Bioestatística. Os dados se resumem mediante uma série de números que se calculam a partir dos dados iniciais. A estes novos números, que, de algum modo, extraem a informação importante que estão nos dados, se denomina índices estatísticos. As qualidades ou quantidades reconhecidas de cada indivíduo se chamam variáveis, porque variam de um sujeito a outro. Grosso modo, “variável” pode ser definida como a expressão numérica de qualquer evento da natureza. É tudo aquilo que se deseja estudar e que pode ser traduzido em números, seja através de contagem, mensuração ou classificação. As variáveis, portanto, estão associadas a eventos contábeis, mensuráveis ou classificáveis; e, considerando a natureza complexa dos objetos de estudo da epidemiologia, possuem limitações diretamente proporcionais à subjetividade do evento. Ao contarmos uma certa quantidade de eventos ou medirmos alguns deles, geramos variáveis ditas quantitativas; ao classificamos os eventos obtemos variáveis do tipo qualitativas (Tabela 02). Peso, altura, temperatura, glicemia são exemplos de variáveis quantitativas e sexo, etnia, grau de instrução e moradia são exemplos de variáveis qualitativas. Tabela 02 – Classificação das variáveis. Função Natureza Tipo Escala de mensuração Hipótese Utilidade Dependente ou Independente Qualitativa Nominal Nominal Categorias com nome Classificar Ordinal Ordinal Como as nominais + categorias ordenadas Hierarquizar Quantitativa Discreta Intervalar Como as ordinais + intervalos iguais Medir Contínua Razão Como as intervalares + zero significativo Contar PARA LEMBRAR Primeiro, os valores de uma variável devem ser mutuamente excludentes. Isso significa que uma e só uma categoria da mesma classe (um valor da mesma variável) pode ser atribuída a cada um dos indivíduos em estudo. Segundo, o conjunto dos valores possíveis deve ser exaustivo, o que significa que todas as possibilidades empíricas devem ser incluídas no conjunto.
  • 21. Com os recursos tecnológicos atualmente disponíveis, não se admite mais que os dados envolvidos em pesquisas sejam tabulados manualmente. Além de demorada, desgastante e limitada, a tabulação manual submete o estudo a um risco elevado de erros. Com o advento e a disseminação da informática, a tabulação eletrônica tornou a análise de dados muito mais rápida, eficiente e segura. Com isso, a descrição e a análise dependem, fundamentalmente, de uma cuidadosa elaboração do banco de dados da pesquisa. A correspondência entre o banco de dados e o instrumento da coleta de dados na pesquisa facilita a digitação e, posteriormente, a análise dos dados. Portanto, é fundamental que o usuário do IBM® SPSS® Statistics 20 crie um quadro em que sejam explicitadas as informações relativas ao banco de dados, particularmente os códigos empregados (Tabela 03). Tabela 03 – Descrição de variáveis em um banco de dados. Variável Descrição Tipo Categorias/Escala de medida sexo Sexo Qualitativa Nominal 1- Masculino 2- Feminino 9- Sem Informação raca Cor ou Raça Qualitativa Nominal 1-Branca 2-Preta 3-Amarela 4-Parda 5-Indígena 9-sem Informação pessoas Número de moradores Quantitativa Discreta Total de pessoas comodos Número de cômodos Quantitativa Discreta Total de cômodos renda Renda Familiar Mensal Qualitativa Nominal 1-Até 500 reais 2-De 501 a 1.500 reais 3-De 1.501 a 2.500 4-Mais de 2.500 reais 9-Não sabe/Não respondeu anos_est Anos de estudo Quantitativa discreta Número de anos completados desde o ensino fundamental consulta Consulta ao Dentista Qualitativa Nominal 0-Não 1-Sim 9-Não sabe/não respondeu frequencia Qualitativa Nominal 1-Menos de 1 ano 2-De 1 a 2 anos 3-3 ou mais anos 8-Não se aplica 9-Não sabe/não respondeu Na área de Visualização de variáveis do IBM® SPSS® Statistics 20, deve-se observar que a primeira coluna (Nome) deve conter os nomes das variáveis escritos em minúsculo, sem caracteres especiais ou símbolos (semelhantemente ao que se faz quando criamos um e-mail), em formato alfanumérico (não pode começar com números) e limitado ao máximo de 64 caracteres. Claramente não é interessante
  • 22. colocar nomes de variáveis com mais de 10 caracteres, porque torna-se uma informação completamente poluída e influenciará no processamento dos dados por questões óbvias. Já a descrição (Rótulo) da variável determina o texto que será apresentado na saída (output) ao invés do nome da variável. Caso não haja nenhuma descrição, o IBM® SPSS® Statistics 20 entenderá o nome da variável como a descrição mais próxima. O quadro exemplificado na Tabela 03 ajudará nas definições de variáveis disponibilizada pelo IBM® SPSS® Statistics 20.
  • 23. Base de Dados A base de dados deve ser construída primeiramente pela criação das variáveis. Portanto, a tabela de classificação das variáveis, já discutida anteriormente, deverá ser utilizada para o preenchimento dos campos na Visualização de variáveis. Nesta área há 11 colunas a serem preenchidas para a qualificação ou definição das variáveis. Pode-se observar que, na Visualização de variáveis, cada variável é definida a partir dos seguintes parâmetros: Nome: Nome da variável. Conforme discutimos anteriormente, deve-se usar, preferencialmente, até dez caracteres, sem utilização de cedilhas, acentos e espaços. Tipo: Tipo de variável. Existem diversos tipos disponíveis, porém os mais utilizados são o formato Sequência, para variáveis qualitativas, e o Numérico, para dados quantitativos, além de diferentes opções para o registro de datas. Trata-se de uma propriedade importante, pois irá definir a forma como o programa interpretará o dado. Uma variável do tipo Sequência, por exemplo, não permite operações matemáticas nem a obtenção de medidas de tendência central e de variabilidade; para sua análise, só poderão ser obtidas frequências. Largura: Tamanho do campo. Deve ser informado com quantos caracteres é formada cada categoria da variável. Por exemplo, se estamos trabalhando com renda e o máximo encontrado foi de 20 mil reais, então o campo deverá ter 5 algarismos. Embora colocar um tamanho maior que o necessário não atrapalhe a análise, é importante se ater ao número correto, pois isso irá economizar “bytes”, gerando um banco de dados menor e, consequentemente, de mais fácil manuseio. Decimais: Número de casas decimais. Aplicável somente para as variáveis numéricas. É um complemento da especificação anterior. Rótulo: Rótulo da variável. Deve-se colocar o nome que descreve a variável e que deverá aparecer quando as análises forem solicitadas. Caso não seja informado, aparecerá o nome da variável. Valores: Valores atribuídos aos dados. Aplica-se às variáveis qualitativas, e é muito importante na hora da geração dos relatórios. Ausente: Informação não disponível. Quando, por algum motivo, não se tem o dado disponível, deve-se entrar com um valor que indique a ausência de informação. É importante que seja informado, neste item, qual o valor que referencia esta condição, para que o programa o exclua dos cálculos.
  • 24. Medir: Escala de medida. Trata-se de um complemento do tipo de variável. Há as opções Escala, quando os dados advêm de medidas quantitativas, Nominal, para dados categóricos nominais, e Ordinal, para variáveis qualitativas do tipo ordinal. ❻ Decida como o programa avaliará um valor ausente. Use 9, 99 ou 999, por exemplo. ❶ Selecione a aba Visualização de variável ❷ Coloque o nome da primeira variável, conforme representado na tabela de classificação que construímos. ❸ Escolha o tipo de variável a ser trabalhada. Neste campo, usamos Numérico para variáveis numéricas, Sequência para variáveis qualitativas e Data para variáveis contendo datas. ❹ Coloque a descrição da primeira variável, conforme representado na tabela de classificação que construímos. Aqui se permite mais de 1000 caracteres, porém dificilmente utilizaremos essa quantidade para descrever uma variável. ❺ Os Rótulos de valor são dados de acordo com os códigos estabelecidos na tabela que construímos. Por exemplo, 1 (Valor) para codificar o gênero Feminino (Rótulo) e 2 para Masculino. ❼ Escolha qual tipo de mensuração melhor caracteriza a variável.
  • 25. Quando todas as variáveis estiverem descritas no IBM® SPSS® Statistics 20, a área de Visualização de variáveis terá esta aparência a seguir: É importante observar que idealmente todos os campos necessitam estar preenchidos para melhor qualidade dos dados processados pelo IBM® SPSS® Statistics 20 e também para facilitar o entendimento destes dados gerados a partir da execução de qualquer teste estatístico. Depois de criarmos as variáveis e suas definições, devemos agora partir para a digitação dos dados (casos) nas respectivas variáveis criadas. Para isso, temos que sair da Visualização de variáveis e entrar na Visualização de dados. Nesta área, os casos são apresentados nas linhas e as variáveis são distribuídas nas colunas. O cruzamento entre as linhas e colunas dão os valores de cada célula ou casela. À medida que digitamos os casos estamos propensos a cometer erros. Estes erros podem vir na forma de dados ausentes, aberrantes ou mesmo de codificação diferente daquela estabelecida para determinada variável. Portanto, é importante que façamos uma releitura de todos os dados para minimizar ou eliminar os erros de digitação. Podemos criar inclusive critérios de validação de entrada de dados. Isso é particularmente importante quando diferentes digitadores contribuem para a informatização dos dados e diminui consideravelmente os erros de digitação. Em alguns casos, por exemplo, se recomenda a digitação dupla ou tripla para minimizar o risco de erros. Após a base de dados está pronta, ainda deve ser realizada uma avaliação, por amostragem, do percentual de erros de digitação. A simples verificação da distribuição de frequência das variáveis em estudo possibilita a identificação de valores aberrantes, IMPORTANTE A codificação das variáveis pode ser efetuada durante a construção do instrumento de coleta de dados. Caso isso não tenha sido feito, a codificação poderá ser realizada por ocasião da entrada dos dados em uma base eletrônica. Os códigos devem ser, preferencialmente, numéricos e com um único dígito, a não ser, obviamente, quando se trabalha com variáveis quantitativas que demandam outras escalas de medida. Podem ser usadas letras como códigos, quando o número de categorias passa de 10. A utilização de códigos numéricos facilita bastante a digitação, pelo fato de permitirem efetuá-la exclusivamente através do teclado numérico do computador, uma estratégia muito utilizada por digitadores profissionais.
  • 26. possivelmente fruto de erros de digitação ou anotação, permitindo assim sua correção. Por exemplo, se a variável “Acesso ao Serviço de Urgência” foi categorizada em “Sim” como código 1, “Não” como código 2 e “Não Informado” como código 9, apenas estas três possibilidades devem constar quando da saída da distribuição de frequência. Outros valores configuram erros de digitação ou anotação e são passíveis de serem identificados. Embora o IBM® SPSS® Statistics 20 ignore as células deixadas em branco na análise, recomenda-se evitar deixar a variável sem preenchimento para evitar confusão. O IBM® SPSS® Statistics 20 também permite que um determinado código, por exemplo, os números 9, 99 ou 999 sejam interpretados como informação não disponível (missing), o que facilita bastante a análise. Recomendamos que o dado seja captado em sua expressão numérica primária, evitando categorias estabelecidas a priori. Esta recomendação é útil tanto na construção do instrumento de coleta de dados, como na criação do banco informatizado. Ao se avaliar a renda mensal familiar, por exemplo, é mais prático captar a renda em reais para, somente durante a análise estabelecer as faixas de renda ou transformação em outra unidade, como salários mínimos. Ao se obter a informação já incluída em faixas pré-estabelecidas, perde-se a informação original, além de haver o risco de uma distribuição heterogênea da variável entre os elementos amostrais. A classificação de faixas de renda (por exemplo, “menos de um salário mínimo”, “de um a dois” e “dois ou mais salários mínimos”) pode ser muito útil para pesquisas envolvendo população de baixa renda, mas teria pouca utilidade em bairros de classe média alta. Outro exemplo diz respeito à escolaridade, que pode ser expressa em número de anos de estudo, evitando a obtenção da informação por graus (ensino fundamental, médio e superior). Uma vez que os dados foram digitados e conferidos, duas operações importantes podem ser feitas, a manipulação das variáveis e a análise dos dados. Caso não seja preciso criar ou modificar nenhuma variável, pode-se passar diretamente para a análise. De qualquer modo, independentemente da complexidade do estudo, é importante que seja traçado um plano de análise, o qual deve ser coerente com a hipótese do estudo. Para o exemplo que utilizaremos nesse texto, está sendo buscada uma relação entre uma variável dependente (diabetes) e uma ou mais variáveis independentes (renda, obesidade, sexo, dentre outras) (Figura 01). Em se tratando de variáveis quantitativas, inicialmente temos que observar a adequação dos nossos dados à distribuição normal, levando em consideração três critérios básicos:
  • 27.  A média mais três desvios padrões e média menos três desvios padrões. Os valores mínimo e máximo devem estar contidos nesse intervalo.  A curtose deve ser menor que duas vezes seu erro padrão. O mesmo deve ser utilizado para a medida de assimetria.  Um ponto a ser destacado é que em amostras muito pequenas (menor que 15), a melhor maneira de verificar a existência de distribuição normal é observar a distribuição de frequência dos seus dados para aquelas variáveis através da construção de um histograma. Figura 01 – Variáveis associadas com a relação entre obesidade e diabetes. Neste caso, a variável dependente (diabetes) deve ser analisada em função de todas as variáveis independentes. Pelo fato das variáveis terem características diferentes (qualitativas e quantitativas) devem passar por procedimentos específicos para cada tipo, conforme descrito na Tabela 04. Variáveis Independentes de Confusão Variável Dependente Variável Independente Obesidade Diabetes Sexo Raça Anos de estudo Renda Idade
  • 28. Tabela 04 – Procedimentos e rotinas computacionais de acordo com a natureza das variáveis dependentes e independentes. Variável Dependente Variável Independente Procedimento Estatístico Rotina do SPSS Informações adicionais Quantitativa Qualitativa Comparação de Médias e/ou outras medidas de tendência central de caráter eminentemente descritivo Analisar > Comparar média > Médias... Lista dependente: inserir a(s) variável(eis) de natureza quantitativa Lista independente: inserir a(s) variável(eis) de natureza qualitativa Opções: escolher quais as medidas que se deseja calcular Camada: Possibilidade de incluir mais de uma variável independente ao mesmo tempo Comparação de Médias e/ou outras medidas de tendência central de caráter inferencial Analisar > Estatísticas descritivas > Explorar Lista dependente: inserir a(s) variável(eis) de natureza quantitativa Lista de fator: inserir a(s) variável(eis) de natureza qualitativa Estatísticas: escolher quais as medidas que se deseja calcular Camada: Possibilidade de incluir mais de uma variável independente ao mesmo tempo Qualitativa Qualitativa Comparação de frequências a partir de tabelas de contingência Analisar > Estatísticas descritivas > Tabela de referência cruzada... Células: informar qual o critério para ilustrar a frequência percentual (linhas ou colunas) Estatísticas: informar os testes estatísticos a serem aplicados Camada: Possibilidade de incluir mais de uma variável independente ao mesmo tempo Quantitativa Quantitativa Análise de correlação bivariada Analisar > Correlacionar > Bivariável... Variáveis: informar as variáveis a serem incluídas na correlação Coeficientes de correlação: escolher os coeficientes a serem calculados
  • 29. Categorização de Variáveis A categorização de uma variável quantitativa pode seguir critérios teóricos ou estatísticos. Por exemplo, o IMC (Índice de Massa Corporal) é uma variável quantitativa, obtida a partir da divisão do peso em Kg pelo quadrado da altura em metros. É possível, a partir da variável original do IMC, criar uma nova variável considerando a classificação proposta para este índice, que toma como base as faixas: até 18,5 (abaixo do peso); 18,5 a 24,9 (peso normal); 25,0 a 29,9 (sobrepeso) e assim por diante. Em algumas situações, não existe uma proposição teórica para a categorização e, nestes casos, o pesquisador pode optar por algum critério estatístico como a dicotomização pela mediana ou a divisão em percentis. Vamos ver um exemplo com a variável idade sendo transformada na variável faixa etária. ❶ Selecione Recodificar em variáveis diferentes... ❷ Selecione uma variável a ser categorizada ❸ Digite um nome sem caracteres especiais ou símbolos e um rótulo. Clique em Alterar. ❹ Clique em Valores antigo e novo... ❺ Insira os valores do intervalo. Por exemplo, a segunda faixa etária será de 13 a 22 anos de idade. ❻ Insira um código por ordem numérica. P.ex. a segunda faixa etária terá código 2. ❼ Adicione a categoria criada. ❽ Clique em Continuar. ❾ Clique em OK e abrirá uma informação de saída. Caso opte por Recodificar nas mesmas variáveis haverá substituição de todos os valores da nova variável pela antiga.
  • 30. ❿ Clique para adicionar os Rótulos de valor ⓫ Adicione todos os Rótulos relacionados aos códigos de cada categoria criada (p.ex. faixas etárias) ⓬ Clique OK
  • 31. Transformar Variáveis Quantitativas Em certas situações, o pesquisador necessita criar uma nova variável a partir de alguma operação matemática entre duas variáveis quantitativas. Por exemplo, se existir na base de dados as variáveis originais de peso e altura, o IMC poderá ser calculado e armazenado em uma nova variável. O comando utilizado para este tipo de operação é o “Transformar > Calcular variável...”. Vamos exemplificar este procedimento com a criação da variável “Aglomeração Domiciliar” que é obtida a partir de divisão do número de pessoas no domicílio pelo número de cômodos existente na casa. ❶ Clique em Calcular variável... ❷ Crie um nome para a nova variável de destino. P.ex. aglomera ❹ Clique na barra de divisão “/” ❸ Clique duas vezes sobre a variável que ficará no numerador para adicioná-la ao campo de Expressão numérica. ❺ Clique duas vezes sobre a variável que ficará no denominador para adicioná- la ao campo de Expressão numérica. ❻ Clique OK. Abrirá uma saída informando a criação da nova variável.
  • 32. Dados Perdidos Os dados perdidos consistem de informação não disponível de um individuo (ou caso) sobre o qual outra informação está disponível. Os dados perdidos frequentemente ocorrem quando um respondente deixa de responder uma ou mais questões em uma pesquisa. Os dados perdidos ignoráveis são aqueles explicitamente inidentificáveis e/ou estão sob controle do pesquisador. Os dados perdidos ignoráveis não demandam ações corretivas, pois os dados perdidos são explicitamente tratados na técnica empregada. Mas, os dados censurados demandam atenção do pesquisador. Estas observações incompletas de uma maneira sistemática e conhecida são exemplos de dados perdidos ignoráveis. Um exemplo ocorre no estudo de causas de morte em uma amostra na qual alguns indivíduos ainda estão vivos. ❶ Clique em Frequências... ❷ Selecione e adicione a variável ❸ Clique OK. Abrirá uma saída mostrando a tabela de frequência. ❹ Observe pelos valores ausentes (Missing). Neste exemplo, tivemos 21 dados perdidos (1,7%). Dados perdidos abaixo de 10% para um caso ou observação individual podem geralmente ser ignorados, exceto quando não são perdas aleatórias.
  • 33. Seguimos algumas regras práticas para eliminações baseadas em dados perdidos:  Variáveis com 15% de dados perdidos ou menos são candidatas para eliminação, mas níveis mais elevados (20% a 30%) muitas vezes podem ser remediados.  Certifique-se de que a diminuição nos dados perdidos é grande o bastante para justificar a eliminação de uma variável ou caso individual.  Casos com dados perdidos para variáveis dependentes tipicamente são eliminados para evitar qualquer aumento artificial em relações com variáveis independentes.  Quando eliminar uma variável, garanta que variáveis alternativas, preferencialmente altamente correlacionadas, estão disponíveis para representar a intenção da variável original.  Sempre considere a possibilidade de executar a análise com e sem os casos ou variáveis eliminados para identificar diferenças evidentes. Podemos usar métodos de atribuição para substituir dados perdidos. Por exemplo, podemos usar somente os dados válidos para representar uma amostra inteira, ou seja, realizar uma abordagem de caso completo. Aqui na verdade não se substitui valores, mas desconsideram-se os ausentes. O IBM® SPSS® Statistics 20 assume este método chamando-o de listwise (excluir casos por lista). É sabido que com apenas 2% de dados perdidos aleatoriamente, mais de 18% dos casos terá algum dado perdido. Assim, mesmo envolvendo quantias muito pequenas de dados perdidos, o tamanho resultante da amostra é reduzido a algo inadequado quando tal abordagem é utilizada. Outro método chamado pairwise (excluir casos por par) também usa somente dados válidos e não substitui os dados perdidos, mas atribui as características de distribuição (p.ex. médias) ou de relação (p.ex. correlações) a partir de cada valor válido. É um método de disponibilidade total. Podemos também substituir determinados valores ausentes por outros disponíveis de outros estudos externos ou de variáveis de características semelhantes na própria base; por isso, o pesquisador precisa estar certo de que o valor de substituição de uma fonte externa é mais válido do que um valor gerado internamente. Alternativamente, podemos também substituir valores ausentes pela média (com base em todas as respostas válidas), mas iremos assim subestimar o valor da variância, comprimir a correlação observada e distorcer a real distribuição de valores; ou podemos substituir por regressão, mas terá a desvantagem de reforçar as relações já presentes nos dados, a variância será subestimada, a amostra necessita ser grande e esse método pressupõe que a variável de dados perdidos tem correlações substanciais com outras variáveis. Por isso, se as variáveis não apresentarem correlações suficientes para produzir uma estimativa
  • 34. significativa, então a substituição pela média é preferível. Vejamos um exemplo de substituição com a variável idade no tópico a seguir. ❶ Observe que na variável idade há 21 dados ausentes. ❷ Clique em Substituir valores ausentes... ❸ Selecione e adicione a variável com dados ausentes no campo de Novas variáveis. ❹ Escolha o método de substituição. Usamos frequentemente a Média de série. ❺ Clique Ok. Aparecerá a saída com a tabela de variáveis resultantes. ❻ Os 21 valores ausentes foram substituídos pela média 38,82.
  • 35. Observações Atípicas Na coleta de dados, há muitas possibilidades de erros acontecerem. O pesquisador pode ler erroneamente o instrumento de medição, transpor números, registrar dados no lugar errado, apresentar a condição ou instruções experimentais erradas, e falhar em perceber que o equipamento está em mal funcionamento. Frequentemente estes erros produzem valores que são indistinguíveis dos dados corretos e continuam não detectados. Se adicionássemos uma pessoa de 250Kg numa amostra de estudantes de bioestatística, saberíamos que alguma coisa saiu errada. Os valores que são normalmente maiores ou menores relativos a outros valores são chamados de observações atípicas ou outliers. Os outliers podem afetar seriamente a integridade dos dodos e resultam em conclusões imperfeitas e na estatística amostral enviesada ou distorcida. Alguns outliers são óbvios, tais como um peso de 310Kg para uma pessoa. Mas, há outras situações que as “áreas cinzas” prevalecem. Alguns critérios foram sugeridos para identificar outliers óbvios e não óbvios:  qualquer valor que caía fora do intervalo dado pela mediana mais ou menos duas vezes a distância interquartílica.  qualquer valor que caía fora do intervalo dado pela média mais ou menos duas vezes e meia o desvio padrão. Dos dois critérios, o primeiro é preferido porque a mediana, o , e o são menos influenciados pelos valores extremos que a média e o desvio padrão. Uma regra muito usada para detectar outliers é baseada no gráfico tipo boxplot. Outliers devem ser cuidadosamente examinados. Sua presença sugere a possibilidade de alguma forma de contaminação dos dados. Os dados que são obviamente errados devem ser corrigidos ou descartados. No gráfico boxplot mostrado a seguir estão representados os dados considerados atípicos através de pequenos circulos acima do bigode superior (outlier superior). É importante observar neste boxplot que é completamente possível uma pessoa ter 80 anos de idade e, portanto, não necessariamente o que se indica como outlier é verdadeiro.
  • 36. ❶ Clique em Analizar > Estatísticas descritivas > Explorar... ❷ Adicione a variável a ser avaliada para a apresença de valores atípicos ❸ Clique em Estatísticas ❹ Marque os valores discrepantes e clique em Continuar ❺ Clique OK ❻ A saída apresentará a média (Mean), o desvio padrão (Std. Deviation), mediana (Median) e o intervalo interquartílico (Interquartile Range) para os respectivos cálculos de detecção de valores atípicos. Qualquer valor que caía fora do intervalo dado pela mediana mais ou menos duas vezes a distância interquartílica ou qualquer valor que caía fora do intervalo dado pela média mais ou menos duas vezes e meia o desvio padrão.
  • 37. Normalidade A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Ser normal é pertencer a uma classe de características universais para uma determinada população observada. É o que é comum, dada uma característica avaliada. Sua antítese, a “anormalidade” é caracterizada pela não aceitação do comum e preconiza preconceito de definição uma vez que as observações atípicas, ou minoritárias, não dispõem de força suficiente para compor significativamente uma população. Para a estatística os estudos das populações pressupõem na maioria das vezes que o comportamento delas seja normal. Ou seja, poucos indivíduos com características divergentes e muitos indivíduos com características semelhantes ou comuns. Assim, quando um pesquisador colhe uma amostra de uma dada população para o estudo de seu comportamento ele não precisará colher informações de um número elevado de indivíduos, pois como a maioria demonstra características similares basta que ele quantifique a similaridade e pegar alguns elementos deste grupo e avaliar o comportamento de toda a população através de um grupo limitado de indivíduos. Em geral, uma distribuição normal se caracteriza por apresentar-se graficamente:  Uma curva em forma de sino.  Uma curva simétrica.  Uma curva mesocúrtica  Coincidir nela a média, mediana e moda.  Ter aproximadamente 95% de seus valores dentro do intervalo (média mais ou menos dois desvios padrões). Exatamente, 95% dos indivíduos se encontram dentro do intervalo compreendido por . Inclusive, podemos afirmar que quase 100% dos valores estão dentro do intervalo .  Ser a distribuição amostral que seguem os índices ou estimadores estatísticos calculados numa amostra. Em se tratando de variáveis quantitativas, inicialmente temos que observar a adequação dos nossos dados à distribuição normal, levando em consideração alguns critérios importantes:  Obter a média mais três desvios padrões e a média menos três desvios padrões. Os valores mínimo e máximo devem estar contidos nesse intervalo.
  • 38.  O módulo da curtose deve ser menor que duas vezes seu erro padrão. O mesmo deve ser utilizado para a medida de assimetria.  Um ponto a ser destacado é que em amostras muito pequenas (< 15), a melhor maneira de verificar a existência de distribuição normal é observar a distribuição de frequência dos seus dados para aquelas variáveis através da construção de um histograma. Existem diversos testes para comprovar se os valores de uma variével segurem ou não a distribuição normal. Quando resultam significativos (valor de significância estatística <0,05) se rejeita a hipótese de normalidade. Mas estes testes precisam ser interpretados com cautela, sempre à luz do número de indivíduos que temos dado sobre essa variável. Se o número de indivíduos da amostra base de dados for muito grande, basta um pequeno desvio da normalidade para que o teste alcance um resultado significativo e se rejeite a normalidade. Ao contrário, quando há poucos dados, quase nunca se disporá de evidências para descartar a normalidade e os testes não alcançam significância, apesar de existirem desvios importantes da normalidade. Se o tamanho da amostra for muito grande terá falsos positivos, se o tamanho da amostra for pequeno terá falsos negativos (interpretando “positivo” como teste significativo). Alguns testes desenhados para comprovar a normalidade são:  Teste de Shapiro-Wilk W.  Teste de Kolmogorov-Smirnov.  Teste de Lilliefors. Todos estes procedimentos são testes de hipóteses e dão como resultado final um valor de probabilidade (valor ) ou de significância estatística. O pesquisador deve sempre lembrar que os testes de significância são menos úteis em amostras pequenas (menos que 30) e muito sensíveis em amostras grandes (mais que 1.000 observações). Logo, o pesquisador deve usar sempre testes gráficos e estatísticos para avaliar o grau real de desvio da normalidade. Como se interpreta os testes estatísticos de normalidade? São provas que calculam qual seria a probabilidade de encontrar esta distribuição dos dados (ou uma mais longe da normalidade) se na população da qual procede a amostra essa variável seguir uma distribuição normal perfeita. Para estes testes, a hipótese nula é a normalidade. Portanto, se a probabilidade de encontrar estes dados supondo que a distribuição segue uma normal perfeita (valor ) for alta, não há evidências para rejeitar a hipótese nula e pode-se assumir que a amostra procede de uma população que segue a normal. Mas quando o valor p de qualquer destes testes for inferior a 0,05, é possível que existam dificuldades para assumir a normalidade. De qualquer forma, quando temos uma mostra muito grande (n>60), com frequência se
  • 39. pode assumir a normalidade para sua distribuição normal, embora estes testes alcancem um valor p<0,05, já que os estimadores calculados em amostras grandes, segundo se deriva do teorema central do limite, tendem a aproximar-se à distribuição normal. Para completar a descrição de uma distribuição, necessitamos de mais duas estatísticas: Os índices de assimetria e curtose. A assimetria refere-se ao enviesamento da distribuição e a curtose ao seu achatamento ou nivelamento. Vários índices de assimetria foram desenvolvidos. Se uma distribuição for simétrica, ; se for positivamente enviesada, ; e se for negativamente enviesada, . Se uma distribuição é mais achatada (tem uma corcunda ampla e caudas espessas) que a distribuição normal, é chamada platicúrtica, e . Se seu achatamento for o mesmo que a distribuição normal, é mesocúrtica, . Se for mais pontiaguda (tem uma corcunda estreita e caudas mais finas) que a distribuição normal, é leptocúrtica, e . ❶ Clique em Analizar > Estatísticas descritivas > Explorar... ❸ Clique em Diagramas ❺ Clique OK ❹ Marque Diagramas de normalidade com testes e Histograma e clique Continuar ❻ A saída apresentará a média (Mean), o desvio padrão (Std. Deviation), mediana (Median) e o intervalo interquartílico (Interquartile Range). Calcule a média ± 3 desvios padrões = 4,68 e 72,96 (não atende ao primeiro pressuposto de normalidade, porque os valores mínimo e máximo não estão contidos neste intervalo). ❷Selecione a variável para testar a normalidade.
  • 40. ❼ A saída apresentará a assimetria (Skewness) e a curtose (Kurtosis) da distribuição normal. A assimetria não é menor que duas vezes o erro padrão respectivo. Portanto, não atende ao pressuposto de normalidade. ❽ A saída apresentará dois testes estatísticos de normalidade: KS e SW. Ambos foram significativos ao nível de significância de 95%. Portanto, rejeita-se a hipótese nula de normalidade.
  • 41. Medidas de Centro e Dispersão ❶ Clique em Analizar > Estatísticas descritivas > Frequências... ❷ Selecione a variável para realizar a estatística descritiva. ❸ Clique em Estatísticas. ❹ Marque todas as medidas desejadas de Tendência central e Dispersão, com os Valores de percentil, assimetria e curtose. Clique Continuar. ❻ Clique OK. ❺ Clique em Gráficos. Há uma opção para a apresentação de histograma com a curva normal desenhada. Útil para avaliar normalidade em amostras muito pequenas.
  • 42. Tabelas Cruzadas ❶ Clique Tabela de referência cruzada... ❷ Selecione a variável independente e coloque na linha, depois selecione a variável dependente e coloque na coluna. ❸ Clique OK. ❹ Para os testes estatísticos de associação ou correlação, as caselas devem apresentar mais de 5 casos, preferencialmente.
  • 43. Gráficos As variáveis qualitativas podem ser representadas por:  Gráfico de barras – mostra a quantidade de dados que pertencem a cada categoria como uma área de tamanho proporcional retangular.  Diagrama de Pareto – gráfico de barra com as barras distribuídas da categoria mais numerosa para aquela menos numerosa. Inclui um gráfico de linha exibindo as porcentagens e contagens acumuladas para as barras;  Gráfico de pizza ou setores – mostra a quantidade de dados que pertencem a cada categoria, tal como uma parte proporcional de um círculo. As variáveis qualitativas podem ser representadas por:  Histograma – um gráfico de barras que representa uma distribuição de frequência de uma variável quantitativa. Porém, as barras são criadas adjacentes a cada outra (sem intervalos). A escala horizontal representa as classes de valores quantitativos e a escala vertical representa as frequências. As alturas das barras correspondem aos valores de frequência;  Diagrama de caule-e-folha – mostra os dados de uma amostra usando os dígitos reais que compõem os valores. Cada valor numérico é dividido em duas partes: os primeiros dígitos tornam-se o caule e os dígitos finais tornam-se a folha. Os caules são localizados ao longo do eixo principal e uma folha para cada valor está localizada de forma a exibir a distribuição dos dados.  Polígono de frequência – envolve pontos médios de classes. Usa segmentos de linhas conectadas a pontos localizados diretamente sobre os valores médios de classes.  Polígono de frequência acumulativo ou ogiva – é útil para determinar o número de valores abaixo de um valor particular. É composto de um gráfico de linha que descreve frequências acumulativas. Uma ogiva usa limites de classes ao longo da escala horizontal e as frequências acumuladas ao longo da escala vertical;  Gráfico de caixa ou boxplot – usa as relações entre mediana, quartil superior e quartil inferior para descrever a assimetria de uma distribuição. Os quartis superior e inferior podem ser pensados como
  • 44. percentis 75 e 25 da amostra – que são os pontos 3/4 e 1/4, respectivamente, ao longo da amostra ordenada.  Diagrama de Pontos ou dotplot – mostra os dados de uma amostra pela representação de cada valor com um ponto posicionado ao longo da escala (eixo das abscissas). Esta escala pode ser horizontal ou vertical. A frequência dos valores é representada ao longo da outra escala (eixo das coordenadas). A descrição gráfica da relação entre duas variáveis pode ser dada por:  Gráfico de dispersão – é um gráfico de dados quantitativos emparelhados (x, y) com um eixo x horizontal e um eixo y vertical. O eixo horizontal é usado para a primeira variável (x) e o eixo vertical é usado para a segunda variável. O padrão dos pontos plotados é muito útil para determinar se há relação entre as duas variáveis. Tabela 05 – Tipos mais comuns de gráficos de acordo com a classificação das variáveis dependente e independe. Variável Dependente Variável Independente Tipo de Gráfico Exemplo Quantitativa Discreta ou Contínua Categórica Mutuamente Exclusiva Barras Histograma Boxplot Sexo x Faixa Etária Renda x Região Categórica Exaustiva Categórica Mutuamente Exclusiva Barras Opinião x Profissão Categórica Mutuamente Exclusiva Categórica Mutuamente Exclusiva Barras Barras Percentuais Sexo x Etnia Escola x Faixa Etária Categórica Mutuamente Exclusiva - Setores Sexo Etnia Quantitativa Contínua ou Discreta Categórica Ordinal Quantitativa Contínua ou Discreta Categórica Ordinal Dispersão Linhas Altura x Peso Pressão x IMC
  • 45. ❶ Clique Gráficos ❷ Caixas de diálogo legadas ❸ Escolha o gráfico que atenda ao seu objetivo ❹ Se preferir, use o criador de gráfico
  • 46. Gráfico de Barras (qualitativa ordinal x qualitativa nominal) ❶ Selecione Barra ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável faixa etária separada por sexo ❸ Selecione o gráfico com Barra em Cluster e arraste até o campo de visualização ❹ Arraste a variável sexo para o Cluster em X ❺ Arraste a variável faixa etária para o eixo das abscissas ❻ Pode-se definir como a variável será contada no gráfico ❼ Pode-se optar por exibir as barras de erro com o intervalo de confiança desejado ❽ Clique em aplicar
  • 47. Gráfico de Barras (qualitativa nominal) ❶ Selecione Barra ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável sexo ❸ Selecione o gráfico com Barra Simples e arraste até o campo de visualização ❺ Clique OK ❹ Arraste a variável sexo para o eixo das abscissas
  • 48. Gráfico de Barras (qualitativa nominal x quantitativa contínua) ❶ Selecione Barra ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade para cada sexo ❸ Selecione o gráfico com Barra Simples e arraste até o campo de visualização ❻ Clique OK ❹ Arraste a variável sexo para o eixo das abscissas ❺ Arraste a variável idade para o eixo das coordenadas. Neste caso, automaticamente o programa faz a média de idade
  • 49. Gráfico de Barras 3D (qualitativa nominal x qualitativa nominal x quantitativa contínua) ❶ Selecione Barra ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade por raça, sexo e tuberculose pulmonar ❸ Selecione o gráfico 3D em Cluster e arraste até o campo de visualização ❽ Clique OK ❹ Arraste a variável Tuberculose pulmonar para o eixo x ❼ Arraste a variável idade para o eixo das coordenadas. Neste caso, automaticamente o programa faz a média de idade ❺ Arraste a variável raça para o eixo z ❻ Arraste a variável sexo para o eixo z
  • 50. Gráfico de Pizza (qualitativa nominal) ❶ Selecione Pizza/Polar ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável sexo ❸ Selecione o gráfico e arraste até o campo de visualização ❺ Clique OK ❹ Arraste a variável sexo para o eixo das abscissas
  • 51. Gráfico de Pontos (quantitativa contínua) ❶ Selecione Dispersão/Ponto ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade ❸ Selecione o gráfico Disperso Simples e arraste até o campo de visualização ❺ Clique OK ❹ Arraste a variável idade para o eixo das abscissas
  • 52. Histograma (quantitativa contínua) ❶ Selecione Histograma ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade ❸ Selecione o Histograma Simples e arraste até o campo de visualização ❻ Clique OK ❹ Arraste a variável idade para o eixo das abscissas ❺ Marque Exibir curva normal e clique Aplicar
  • 53. Boxplot (quantitativa contínua) ❶ Selecione Diagrama em caixa ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade ❸ Selecione o Boxplot em 1D e arraste até o campo de visualização ❺ Clique OK ❹ Arraste a variável idade para o eixo das coordenadas ❺ Valores atípicos estão representados com pequenos círculos acima do bigode superior.
  • 54. ❶ Selecione Diagrama em caixa ❷ Defina qual o tipo. Neste caso, iremos fazer um gráfico com a variável idade por sexo ❸ Selecione o Boxplot Simples e arraste até o campo de visualização ❺ Clique OK ❹ Arraste a variável idade para o eixo das coordenadas ❺ Valores atípicos estão representados com pequenos círculos acima do bigode superior. ❹ Arraste a variável sexo para o eixo das abscissas
  • 55. Referências bibliográficas Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 2. ed. São Paulo: EPU, 1981. Center for Disease Control and Prevention. Epidemiology Program Office. Epi Info 7. Disponível em www.cdc.gov/epiinfo Dean AG. Microcomputers and the future of epidemiology. Public Health Reports 1994; 109(3):439-41. Dean AG et al. Epi Info. Database and statistics software for public health professionals. Atlanta, EUA: Center for Disease Control and Prevention. versão 3.2.2, 2004. Free Software Foundation, GNU Software. PSPP. Disponível em http://www.gnu.org/software/pspp/. Martínez-González, MA, Faulín Fajardo, FJ, Sánchez Villegas, A. Bioestadística Amigable. 2ª Ed. Madri: Díaz de Santos, 2006. Triola, MF. Elementary Statistics. 11ª Ed. Boston, MA: Addison Wesley, 2009.