SlideShare uma empresa Scribd logo
1 de 109
Baixar para ler offline
Estatística
      e
 Probabilidade

          Professores:
Daniela Carine Ramires de Oliveira
    Marcos Santos de Oliveira
Índice
1.       Introdução à Estatística                                                  1

         1.1.   O que é Estatística?                                               1
         1.2.   Estatística na Prática                                             1
         1.3.   Um pouco da história da Estatística                                2
         1.4.   Exercícios                                                         2

2.       Variáveis                                                                 3

         2.1.   Definição de Variável                                              3
         2.2.   Classificação das Variáveis                                        3
         2.3.   Exercícios                                                         5

3.       Amostragem                                                                6

         3.1.   Por que fazer Amostragem?                                          6
         3.2.   Quando o uso de amostragem não é interessante?                     6
         3.3.   Tipos de Amostragem                                                6
                3.3.1. Amostragem Aleatória Simples (AAS)                          6
                3.3.2. Amostragem Sistemática (AS)                                 7
                3.3.3. Amostragem Estratificada (AE)                               8
                3.3.4. Amostragem por Conglomerado (AC)                            9
         3.4.   Exercícios                                                        10

4.       Tabulação de Variáveis                                                   11

         4.1.   Variáveis Qualitativas Unidimensionais                            11
         4.2.   Variáveis Quantitativas Unidimensionais                           12
         4.3.   Variáveis Qualitativas e Quantitativas Bidimensionais             13
         4.4.   Exercícios                                                        14

5.       Medidas de Posição                                                       15

         5.1.   Mínimo e Máximo                                                   15
         5.2.   Moda                                                              15
         5.3.   Média                                                             15
         5.4.   Mediana                                                           16
         5.5.   Exercícios                                                        18

Prof. Daniela                                    ii                     ____/____/____
6.       Medidas de Dispersão                                                            19

         6.1.    Motivação                                                               19
         6.2.    Amplitude                                                               19
         6.3.    Variância e Desvio Padrão                                               19
         6.4.    Intervalo Interquartil                                                  21
         6.5.    Exercícios                                                              21

7.       Estatística Gráfica                                                             22

         7.1.    Gráficos para as Variáveis Qualitativas                                 22
                 7.1.1. Gráfico em Barras                                                22
                 7.1.2. Gráfico de Composição em Setores (“Pizza”)                       23
                 7.1.3. Gráfico de Pareto                                                23
         7.2.    Gráficos para as Variáveis Quantitativas                                25
                 7.2.1. Gráfico em Barras                                                25
                 7.2.2. Gráfico de Pontos                                                26
                 7.2.3. Histograma                                                       26
                 7.2.4. Gráfico em Linhas (ou Gráfico Temporal)                          27
                 7.2.5. Ramo-e-Folhas                                                    28
                 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot)             29
         7.3     Exercícios                                                              31

8.       Correlação e Regressão                                                          32

         8.1.    Estudo da relação entre variáveis                                       32
         8.2.    Diagrama de Dispersão                                                   32
         8.3.    Coeficiente de Correlação                                               35
         8.4.    Regressão Linear Simples                                                37
         8.5.    Coeficiente de Determinação                                             39
         8.6.    Exercícios                                                              40

Lista de Exercícios 1                                                                    41

9.       Probabilidade                                                                   44

         9.1.    Processo ou Experimento Aleatório                                       44
         9.2.    Espaço Amostral (Ω)                                                     44
         9.3.    Evento                                                                  45
         9.4.    Exercícios                                                              46
         9.5.    Introdução à Probabilidade                                              47

Prof. Daniela                                        iii                       ____/____/____
9.6.     Definição Clássica                                                          48
         9.7.     Definição Freqüentista                                                      49
         9.8.     Definição Subjetiva                                                         51
         9.9.     Definição Moderna                                                           51
         9.10.    Probabilidade Condicional                                                   52
         9.11.    Independência de Eventos                                                    53
         9.12.    Regra da Probabilidade Total                                                54
         9.13.    Teorema de Bayes                                                            54

10.      Variável Aleatória Discreta                                                          56

         10.1.    Introdução                                                                  56
         10.2.    Esperança Matemática (Média)                                                57
         10.3.    Variância                                                                   58
         10.4.    Exercício                                                                   58
         10.5.    Modelo Bernoulli                                                            58
         10.6.    Modelo Binomial                                                             59
         10.7.    Exercícios                                                                  60
         10.8.    Distribuição Hipergeométrica                                                60
         10.9     Exercício                                                                   61
         10.10.   Distribuição Poisson                                                        61
         10.11.   Exercícios                                                                  62

11.      Variável Aleatória Contínua                                                          63

         11.1.    Esperança e Variância                                                       65
         11.2.    Distribuição Normal                                                         66
         11.3.    Tabela da Distribuição Normal Padrão                                        69
         11.4.    Exercícios                                                                  73

Lista de Exercícios 2                                                                         74

12.      Estimação                                                                            77

         12.1.    Inferência Estatística                                                      77
         12.2.    Estimação Pontual e Intervalar para Proporção                               77
         12.3.    Exercícios                                                                  79
         12.4.    Estimativa Pontual e Intervalar para a Média Populacional                   79
         12.5.    Exercícios                                                                  81
         12.6.    Estimativa para a Média Populacional com Variância Desconhecida             81
         12.7.    Exercício                                                                   83


Prof. Daniela                                    iv                                 ____/____/____
13.      Testes de Hipóteses                                                           84

         13.1.    Introdução                                                           84
         13.2.    Formulação das Hipóteses                                             84
         13.3.    Tipos de Erros possíveis nos Testes de Hipóteses                     84
         13.4.    Nível de Significância de um Teste de Hipótese (α)                   85
         13.5.    Teste de Hipóteses para a Proporção                                  85
         13.6.    Exercícios                                                           87
         13.7.    Teste de Hipóteses para Média com Variância Conhecida                88
         13.8     Exercícios                                                           90
         13.9     Teste de Hipóteses para Média com Variância Desconhecida             91
         13.10.   Exercícios                                                           93

Lista de Exercícios 3                                                                  94

Apêndice

         A        Gabarito da Lista de Exercícios 1                                    95
         B        Gabarito da Lista de Exercícios 2                                   101
         C        Gabarito da Lista de Exercícios 3                                   102
         D        Aula no Laboratório de Computação                                   104




Prof. Daniela                                    v                           ____/____/____
1. INTRODUÇÃO À ESTATÍSTICA

1.1. O que é Estatística?

       Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar
dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades
humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar
conclusões em situações de incerteza, a partir de informações numéricas.

1.2. Estatística na Prática

                                              Técnicas de amostragem
              População                                                       Amostra
           (Características)                 Planejamento de Experimentos
                                                                                   Análise
                                                                                  descritiva
                                                                                   descritiva


                                               Inferência Estatística
            Conclusões                                                      Informações
             sobre as                                                       contidas nos
          características                    Cálculo de Probabilidades
                                                                               dados
           da população
População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na
terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo
no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma
faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc.

Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras.

Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas.

Amostra: é qualquer subconjunto da população.

Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de
tirarmos conclusões a respeito de características de interesse.

Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios.

Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados
(população), das informações e conclusões obtidas a partir de um subconjunto de valores
(amostra).

Oliveira, D. C. R. e Oliveira, M. S.                    1                                ____/____/____
1.3. Um pouco da história da Estatística

5000 AC          Registros egípcios de presos de guerra;
2000 AC          Censo Chinês;
695              Primeira utilização da média ponderada pelos árabes na contagem de moedas;
1654             Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das
                   Probabilidades;
1763             Inferência Estatística (Reverendo Bayes);
1930             Controle de Qualidade nas indústrias;
1959             Estudo retrospectivo de doenças (Mantel & Haenszel);
1996             Profundidade da Regressão (Rousseeuw e Hubert);
1997             Modelos Fatoriais;
2001             100 anos da Biometrika.

Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm

1.4. Exercícios – Parte I – A1

1) Para as situações descritas a seguir, identifique a população e a amostra correspondente.

(a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de
recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo
Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos.
População:

Amostra:

(b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
População:

Amostra:

(c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por
telefone com relação ao canal em que estavam sintonizados.
População:

Amostra:




Oliveira, D. C. R. e Oliveira, M. S.              2                                     ____/____/____
2. VARIÁVEIS

2.1. Definição de Variável

           Qualquer característica associada a uma população é chamada de variável.
           Porque o nome variável? Porque ela “varia” de alguma forma.

Exemplos: Idade: pode variar de 0, 1 , 2, ... anos
          Sexo: pode ser masculino ou feminino
          Estado Civil: pode ser solteiro, casado, divorciado, etc.

2.2. Classificação das Variáveis

        As variáveis podem ser classificadas como Qualitativas ou Quantitativas.
        Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência,
apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo,
estas variáveis são chamadas de variáveis Qualitativas.
        As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados
números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de
variáveis Quantitativas.

Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos
socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações
obtidas do departamento pessoal, ele elaborou a Tabela 2.1.

 Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso
como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados
                           da seção de orçamentos de uma Empresa.
                                                                             Idade
N°      Estado Civil         Grau de Instrução   N° de Filhos   Salário   Anos   Meses   Região de Procedência
 1        Solteiro             Fundamental            ...         4,00     26      3            Interior
 2        Casado               Fundamental             1          4,56     32     10            Capital
...          ...                    ...               ...          ...     ...    ...              ...
35        Casado                  Médio               2          19,40     48     11            Capital
36        Casado                 Superior              3         23,30     42     2             Interior
Fonte: Bussab e Morettin (2002)

Observações sobre a Tabela 2.1.
        De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou
mais de um) resultado correspondendo à realização de uma característica (ou características). Por
exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos
resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado,
divorciado, mas somente as duas mencionadas foram consideradas no estudo).



Oliveira, D. C. R. e Oliveira, M. S.                       3                                    ____/____/____
Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos:

Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis
resultados.
Exemplo: Região de Procedência, etc.

Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados.
Exemplo: Grau de instrução, etc.

           As variáveis Quantitativas também podem sofrer uma classificação dicotômica:

Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou
enumerável de números, e que resultam, freqüentemente, de uma contagem.
Exemplo: Nº de Filhos, etc.

Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números
reais e que resultam de uma mensuração.
Exemplo: Salário, etc.

Resumindo
Como as variáveis são classificadas e outros exemplos:

                                       Nominal    Sexo, Cor dos Olhos.
                         Qualitativa
                                       Ordinal    Estado Civil, Classe social.

                                       Discreta   Números de carros.
                        Quantitativa
                                       Contínua   Peso, altura.

        Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos
dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os
dados de uma forma resumida.
        Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou
atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa,
desde que o procedimento seja passível de interpretação.

       Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada
variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente
chamadas de sucesso e fracasso.

Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc.




Oliveira, D. C. R. e Oliveira, M. S.                  4                                   ____/____/____
2.3. Exercícios – Parte I – A1

1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes
informações:
ID:          Identificação do aluno;
Turma:       Turma a que o aluno foi alocado (A ou B);
Sexo:        Feminino (F) ou Masculino (M);
Idade:       Idade;
Alt:         Altura;
Peso:        Peso;
Filh:        Número de filhos na família;
Fuma:        Hábito de fumar (sim ou não);
Toler:       Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito;
Exer:        Horas de atividade física, por semana;
Cine:        Número de vezes que vai ao cinema por semana;
OpCine:      Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa
TV:          Horas gastas assistindo TV, por semana
OpTV:        Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe.

                       Tabela 2.2: Informações do questionário estudantil.
ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv                           OpTV
 1     A      F      17    1,60 60,5      2    Não      P      0      1    B   16,5         R
 2     A      F      18    1,69 55,0      1    Não      M      0      1    B     7          R
...    ...    ...    ...    ...     ...  ...    ...     ...    ...    ...  ...  ...         ...
49     B     M       17    1,80 71,0      1    Não      P      7      0    M    14          R
50     B     M       18    1,83 86,0      1    Não      P      7      7    M    20          B
Fonte: Magalhães e Lima (2004).

Classifique as variáveis da Tabela 2.2. como
Variável Qualitativa Nominal:


Variável Qualitativa Ordinal:


Variável Quantitativa Discreta:


Variável Quantitativa Contínua:




Oliveira, D. C. R. e Oliveira, M. S.           5                                   ____/____/____
3. AMOSTRAGEM

       A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o
tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste
alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte
(amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento.

3.1. Por que fazer Amostragem?

      Existem várias razões para o uso de amostragem em levantamento de grandes populações.
Algumas delas são:
      Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte
      da população.
      Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo
      suficiente para pesquisar toda a população de eleitores do país.
      Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas
      típicos nos grandes censos é o controle dos entrevistadores.

3.2. Quando o uso de amostragem não é interessante?

           População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é
           aconselhável realizar o censo (análise de toda a população).
           Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a
           variável que se quer observar é de tão fácil mensuração, que não compensa investir num
           plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários
           favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a
           população no próprio local de trabalho. Esta atitude pode ser politicamente mais
           recomendável.
           Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico
           para estudar diversas característica da população brasileira. Dentre estas características têm-
           se o número total de habitantes, que é fundamental para o planejamento do país. Desta
           forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se
           pesquisa toda a população.

3.3. Tipos de Amostragem

3.3.1. Amostragem Aleatória Simples (AAS)

        A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método
mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma
AAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem
consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de
todos os elementos da população ter igual probabilidade de serem escolhidos.

1
    Censo: estudo de todos os elementos da população.
Oliveira, D. C. R. e Oliveira, M. S.                    6                                    ____/____/____
Procedimento para o uso deste método:
           1) Numerar todos os elementos da população (N elementos);
           2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n).

       Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum
software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®.

                                                           Tabela de Números Aleatórios

               6   1   0   9   2   6   2   9   8   5   1   1   9   5   7   7   7   9   0   4   5   7   0   0   9   1   2   9   5   9   8   3   5   3   8   7   0   2   0   2
               9   4   4   7   4   0   9   9   9   3   8   2   1   3   2   2   4   0   3   3   1   9   7   2   5   5   6   9   8   2   1   6   9   4   2   1   6   6   3   9
               5   0   4   0   5   0   5   5   7   9   0   0   5   8   1   7   2   6   3   0   3   8   1   1   5   4   8   9   0   4   1   3   6   9   1   7   3   5   4   8
               5   8   9   3   4   2   7   0   1   5   2   8   9   6   2   4   7   5   0   3   0   0   4   5   8   6   6   8   7   9   0   2   5   8   9   6   2   4   8   5
               8   0   4   8   9   6   3   2   5   8   1   2   5   8   7   4   6   3   2   1   4   8   9   6   5   4   1   2   3   2   0   1   4   5   2   3   6   9   8   0

               1   2   8   7   5   6   3   2   1   0   8   5   6   4   9   7   3   2   1   0   5   9   4   7   6   4   1   2   3   3   0   1   2   5   8   9   7   4   1   0
               3   1   4   5   8   7   6   9   3   2   0   1   4   5   6   9   8   7   4   5   9   8   7   4   5   6   3   2   1   5   9   4   5   6   0   2   5   8   0   0
               8   5   1   8   9   6   5   4   7   3   1   0   2   5   8   9   6   3   2   0   4   7   8   9   6   3   2   0   1   4   8   2   3   6   8   9   5   2   0   1
               0   8   5   8   9   6   3   2   1   4   5   2   5   8   9   6   3   2   1   4   8   5   2   3   0   2   5   7   4   0   8   5   6   3   1   2   5   2   3   0
               9   0   1   2   5   9   0   3   6   8   2   0   3   5   8   4   6   1   3   0   5   8   7   9   6   3   2   0   1   8   9   6   3   2   5   8   4   1   0   3

               1   9   1   5   8   9   6   3   2   1   7   8   9   6   5   2   0   3   2   5   9   6   3   2   0   1   5   8   9   6   2   1   5   4   7   9   9   4   0   2
               2   7   9   1   2   3   5   8   9   6   0   1   5   4   2   0   3   6   9   8   2   5   8   0   2   1   4   8   0   9   5   2   0   3   2   1   2   4   8   9
               5   6   1   9   4   5   9   6   3   2   1   4   7   8   9   6   3   0   1   5   1   4   5   8   9   6   3   2   1   4   0   2   1   3   6   5   4   7   8   9
               9   2   5   1   2   3   5   8   9   4   3   2   1   4   7   0   2   3   0   0   4   5   6   3   0   0   1   4   5   2   9   3   0   2   5   8   9   2   6   4
               6   3   3   1   2   5   8   7   0   3   9   4   7   8   4   1   0   1   3   6   8   7   4   1   2   3   0   2   5   8   6   1   0   2   5   4   6   7   8   9


Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma
determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode
investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a
amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de
números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da
população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número
sorteado não existir, simplesmente não consideramos e prosseguimos o processo.
        Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de
4 elementos:                         {09, 26, 29, 11}.

Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população
10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios.

3.3.2. Amostragem Sistemática (AS)

       É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas
de cadastramento, produção de garrafas da cervejas, etc.
       Procedimento para o uso deste método:

           1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da
           amostragem i = N/n (considera-se apenas a parte inteira do número).
Oliveira, D. C. R. e Oliveira, M. S.                                                   7                                                                   ____/____/____
2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a
           amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i).

Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para
verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar
essa amostra.
1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7;
2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a
primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será
composta dos elementos:                      {06, 13, 20, 27, 34}

Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população
10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios,
quando for necessário.

3.3.3. Amostragem Estratificada (AE)

        A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda,
bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem
ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo.
Aqui, um conhecimento prévio sobre a população em estudo é fundamental.

               Estrato 1                               Subgrupo 1 da amostra
               Estrato 2                               Subgrupo 2 da amostra      Amostra
                  ...                     ...                   ...              Estratificada
               Estrato k                               Subgrupo k da amostra

       A AE tem as seguintes características:
          • dentro de cada estrato há uma grande homogeneidade (pequena variabilidade);
          • entre os estratos há uma grande heterogeneidade (grande variabilidade).
       Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da
amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato
corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra.

Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em
uma determinada universidade, realizaremos um levantamento por amostragem. A população é
composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que
identificaremos da seguinte forma:
                                        População
                            Professores    P001 P002 … P100
                            Servidores     S001 S002 ... S100
                               Alunos      A001 A002 ... A300


Oliveira, D. C. R. e Oliveira, M. S.                      8                               ____/____/____
Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo
dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria,
para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de
proporcionalidade.
                   Estrato             Proporção na População Tamanho do subgrupo na amostra

                Professores 100/500 = 0,20 (ou 20%)                 np = ( 0,20)*10 = 2

                 Servidores 100/500 = 0,20 (ou 20%)                  ns = ( 0,20)*10 = 2

                    Alunos             300/500 = 0,60 (ou 60%)      na = ( 0,60)*10 = 6

        Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números
Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da
tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os
servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da
tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra
{P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada
proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado
para se obter a opinião em relação à gestão atual da reitoria.

3.3.4. Amostragem por Conglomerado (AC)

       A população é dividida em subpopulações (conglomerados) distintas (quarteirões,
residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e
todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente
que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é
adequado quando é possível dividir a população em um grande número de pequenas
subpopulações.
       A AC tem as seguintes características:
           • dentro de cada conglomerado há uma grande heterogeneidade (grande
               variabilidade);
           • entre os conglomerados há uma pequena variabilidade (grande homogeneidade).

Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a
técnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e,
em seguida, entrevistar todos os eleitores dessas zonas selecionadas
                                              5

                                         3
                               Zona                9
                                              6          11
                                 1

                                              7         12
                                2
                                         4         10

                                              8
                                                                      Entrevistar todos os
                                                                      eleitores dessas zonas
Oliveira, D. C. R. e Oliveira, M. S.                          9                                ____/____/____
Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque
ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa
todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa
uma amostra de membros de todos os estratos.

Curiosidade

       Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que
simplesmente usa resultados que sejam muito fáceis de obter.

                                            Ei! Você é a favor
                                            da pena de m orte?




3.4. Exercícios – Parte I – A1

1) Um administrador especialista em avaliar através de sistemas informatizados as ações da
BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus
clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em
venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se
verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações
serão selecionadas (Use a primeira linha da tabela de números aleatórios)?


2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira
transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na
amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de
amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a
primeira linha)


3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100
computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 =
60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito
alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12
computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores
serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a
primeira linha)



Oliveira, D. C. R. e Oliveira, M. S.           10                                    ____/____/____
4. TABULAÇÃO DE VARIÁVEIS

4.1. Variáveis Qualitativas Unidimensionais

       Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o
comportamento dessa variável, analisando a ocorrência de seus possíveis resultados.
       A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos
dados da Tabela 2.1.

        Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da
                           Companhia MB segundo o grau de instrução.
         Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
            Fundamental               12
                Médio                 18
               Superior               6
                Total               n = 36            1,0000
        Fonte: Bussab e Morettin (2002)

Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33%
tem nível fundamental, 50% nível médio e apenas 16,67% nível superior.
Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou
categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada
categoria, sendo o “n” o número total de observações.
        As proporções são muito úteis quando se querem comparar resultados de duas pesquisas
distintas. O próximo exemplo ilustra este fato.

Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da
seção de orçamentos com a mesma variável para todos os empregados da Companhia MB.
Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela
abaixo:

Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau
                                         de instrução.
      Grau de Instrução       Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
         Fundamental                650
             Médio                 1020              0,5100
            Superior
             Total               n = 2000            1,0000
   Fonte: Bussab e Morettin (2002)

Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas
das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n =
36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos
as freqüências relativas a um mesmo total.
Oliveira, D. C. R. e Oliveira, M. S.              11                                    ____/____/____
4.2. Variáveis Quantitativas Unidimensionais

       A construção de tabelas de freqüências para variáveis quantitativas necessita de certos
cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1.,
usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo
menor, pois não existem observações iguais.

Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela
de Classes de Freqüências.

Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da
Companhia MB por faixas de salário:

         Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da
                                 Companhia MB por faixas de salário.
           Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
               04 |-- 08               10              0,2778              27,78%
               08 |-- 12               12
               12 |-- 16                8
               16 |-- 20                5
               20 |-- 24                1
                 Total                 36              1,0000

Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se
alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a
não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que
todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14.

Número de Classes

        A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe
indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que,
com um número pequeno de classes, perde-se informação, e com um número grande de classes, o
objetivo de resumir os dados fica prejudicado.
Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude.
        Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o
pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é
um número inteiro próximo de:

           Regra 1:              C = 1 + 3,2 x log n        Regra 2:       C= n
onde n é o número de elementos pesquisado.
       As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que
crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida.

Oliveira, D. C. R. e Oliveira, M. S.                   12                              ____/____/____
4.3. Variáveis Qualitativas e Quantitativas Bidimensionais

       As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de
associação, tabela de contingência ou distribuições conjuntas de freqüências.

                      Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o
                               conceito em Metodologia e a Seção a que pertence.
                               Seção            Conceito em Metodologia      Total por
                                                   A          B        C       Seção
                           Dep. Pessoal             3         1        3          7
                           Séc. Técnica             0         4        3          7
                            Sec. Venda              4         3        4         11
                        Total por Conceito          7         8       10         25


                     Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no
                                         Primeiro semestre de 2005.
                              Meses               Vendas em 1000 R$         Total por
                                                  A         B         C       Mês
                             Janeiro            40,0       25,2      8,1       73,3
                            Fevereiro           40,1       28,0     10,0      78,1
                              Março             35,1       28,0     15,4      78,5
                              Abril             28,2       20,2     22,3       70,7
                              Maio              14,1       25,6     28,1      67,8
                              Junho              5,0       30,0     35,2      70,2
                       Total por Produto       162,5      157,0     119,1     438,6
                     Fonte: Dados Hipotéticos.


                    Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas
                                       notas em Matemática e Estatística.
                            Estatística                 Matemática            Totais em
                                                 0 |- 4    4 |- 7   7 |- 10   Estatística
                              0 |- 4              32         25         5         62
                              4 |- 7              20        183        82        285
                              7 |- 10              7         27        19         53
                            Totais em             59        235       106        400
                           Matemática
                     Fonte: Dados Hipotéticos.




Oliveira, D. C. R. e Oliveira, M. S.                  13                                     ____/____/____
4.4. Exercícios – Parte I – A1

                     Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio
   Func.       Seção* Admin.      Direito  Redação     Estat.   Inglês    Metodologia    Política     Economia
     1           P      8,0        9,0       8,6         9,0      B            A             9,0         8,5
     2           P      8,0        9,0       7,0         9,0      B            C            6,5          8,0
     3           P      8,0        9,0       8,0         8,0      D            B            9,0          8,5
     4           P      6,0        9,0       8,6         8,0      D            C            6,0          8,5
     5           P      8,0        9,0       8,0         9,0      A            A            6,5          9,0
     6           P      8,0        9,0       8,5        10,0      B            A            6,5          9,5
     7           P      8,0        9,0       8,2         8,0      D            C            9,0          7,0
     8           T     10,0        9,0       7,5        8,0       B            C            6,0          8,5
     9           T      8,0        9,0       9,4         9,0      B            B            10,0         8,0
    10           T     10,0        9,0       7,9         8,0      B            C            9,0          7,5
    11           T      8,0        9,0       8,6        10,0      C            B            10,0         8,5
    12           T      8,0        9,0       8,3         7,0      D            B            6,5          8,0
    13           T      6,0        9,0       7,0         7,0      B            C            6,0          8,5
    14           T     10,0        9,0       8,6         9,0      A            B            10,0         7,5
    15           V      8,0        9,0       8,6         9,0      C            B            10,0         7,0
    16           V      8,0        9,0       9,5         7,0      A            A             9,0         7,5
    17           V      8,0        9,0       6,3         8,0      D            C            10,0         7,5
    18           V      6,0        9,0       7,6         9,0      C            C             6,0         8,5
    19           V      6,0        9,0       6,8         4,0      D            C             6,0         9,5
    20           V      6,0        9,0       7,5         7,0      C            B             6,0         8,5
    21           V      8,0        9,0       7,7         7,0      D            B             6,5         8,0
    22           V      6,0        9,0       8,7         8,0      C            A             6,0         9,0
    23           V      8,0        9,0       7,3        10,0      C            C             9,0         7,0
    24           V      8,0        9,0       8,5         9,0      A            A             6,5         9,0
    25           V      8,0        9,0       7,0         9,0      B            A             9,0         8,5
                     (*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas.
  Fonte: Bussab e Morettin (2002)


1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as
freqüências absoluta e relativa, as porcentagens, dê um título e interprete.

2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável
Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete.

3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da
Tabela 4.7.

4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela
4.7.

5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela
4.7.



Oliveira, D. C. R. e Oliveira, M. S.                   14                                           ____/____/____
5. MEDIDAS DE POSIÇÃO

5.1. Mínimo e Máximo

       O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior
observação.

Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo,
                               Min = __      e       Max = __.

5.2. Moda

      Valor ou atributo que ocorre com maior freqüência.
Exemplo (a): 2, 5, 2, 7, 8          Moda = __ .
Exemplo (b): 3, 4, 2, 2, 4, 5       Moda = __ e __.                      “Conjunto _ _ _ _ _ _ _”
Exemplo (c): 1, 2, 3, 4, 5          Moda = não tem                       “Conjunto _ _ _ _ _ _”

Moda para dados agrupados em Tabelas de Freqüências

Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais
freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no
mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O
resultado foi:

                        Números de Ligações a Cobrar (xi)   Número de Residências (ni)
                                       0                               2
                                       1                               5
                                       2                               15
                                       3                               8
                                     Total                             30

Moda = __.
Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência.

5.3. Média

       Valor que representa o centro do conjunto de dados.
       Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média
desse conjunto é obtida pela soma das n observações dividido por n, ou seja,
                                                                     n

                                     x1 + x 2 + x3 + L + x n        ∑x
                                                                     i
                                 x=                          =  i =1
                                                                                                    (5.1)
                                                n                  n
Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___.
Oliveira, D. C. R. e Oliveira, M. S.                  15                                    ____/____/____
Média para dados agrupados em Tabelas de Freqüências

Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse
seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe
alta da cidade de São Paulo no mês de março.

                        Números de Ligações a Cobrar (xi)                       Número de Residências (ni)
                                       0                                                   2
                                       1                                                   5
                                       2                                                   15
                                       3                                                   8
                                     Total                                                 30

       Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável,
da seguinte forma:
                                                                      v

                                                                    ∑x n    i   i
                                                       ,       x=    i =1
                                                                                            (5.2)
                                                   n
onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima
classe. Assim, para o exemplo temos:
                                             n

                                            ∑x n
                                        0 x 2 + 1x5 + 2 x15 + 3x8
                                                   i   i
                                       x=   i =1
                                                           =      = ___.
                                 n                  30
Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da
cidade de São Paulo no mês de março é ___.

5.4. Mediana

       É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e
metade será menor ou igual.
       Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10.
       De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de
valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana
é 9.

Método prático para o cálculo da Mediana para dados em Rol
1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o
máximo.
                                                                                           n +1
2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: p =           .
                                                                                             2
3) O valor da mediana será:
(a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados
ordenados, isto é
                                         Mediana = x(p)
Oliveira, D. C. R. e Oliveira, M. S.                                16                                       ____/____/____
(b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p,
respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados
ordenados, ou seja,

                                                    x (P− ) + x (P+ )
                                       Mediana =
                                                              2
Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5
1º ordenar a série:   __, __, __, __, __, __, __, __, __.
n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada
será a mediana. Assim, mediana = __ .

Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6
1º ordenar a série: __, __, __, __, __, __, __, __, __, __.
n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º
elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela
definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja,
                                        Mediana = (2+3)/2 = 2,5.

Notas:
1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana
com um dos elementos da série.
2) Quando o número de elementos da série estatística for par, a mediana será sempre a média
aritmética dos 2 elementos centrais da série.
3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma
diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores
extremos). Vejamos:
                        Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10;
                        Na série: 5, 7, 10, 13, 65  Média = 20 e Mediana = 10,
isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos
valores extremos, ao passo que a mediana permanece a mesma.


Mediana para dados agrupados em Tabelas de Freqüências

           Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana.

Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o
número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da
cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados
referentes a freqüência acumulada.


Oliveira, D. C. R. e Oliveira, M. S.               17                                    ____/____/____
Números de Ligações a Cobrar (xi)           Número de Residências (ni)    Freqüência Acumulada (Fi)
                0                                       2
                1                                       5
                2                                      15
                3                                       8
              Total                                    30

Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16.
Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é
a primeira freqüência acumulada que contém os elementos 15 e 16.


5.5. Exercícios – Parte I – A1

1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir.
        5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60.
   Calcule o mínimo, máximo, moda, média e mediana.


2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos
de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir.

                                       Tabela 5.1: Dados Brutos (em horas)
                          Máquina #     Tempo de Falha Máquina # Tempo de Falha
                             1               150              14           171
                             2               291              15           197
                             3                93              16           200
                             4                53              17           262
                             5                2               18           255
                             6                65              19           286
                             7               183              20           206
                             8               144              21           179
                             9               223              22           232
                             10              197              23           165
                             11              187              24           155
                             12              197              25           203
                             13              213

Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete
os resultados.

3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma
universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27,
28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e
mediana das idades organizadas nessa tabela.



Oliveira, D. C. R. e Oliveira, M. S.                 18                                     ____/____/____
6. MEDIDAS DE DISPERSÃO

6.1. Motivação

       Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos
a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos
destacaram-se com as notas descritas na tabela abaixo:

                                         Tabela 6.1: Distribuição das Notas
                                                              Provas
                                 Candidatos
                                                1      2     3      4     5                  6
                                      A        7,0 7,5 8,0 8,0 8,5                          9,0
                                      B        6,0 7,0 8,0 8,0 9,0                         10,0
                                      C        7,5 8,0 8,0 8,0 8,0                          8,5
                                Fonte: Dados Hipotéticos

Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média,
mas:
                         Candidatos        A          B           C
                            Média
De modo análogo, nem adianta pensar em moda ou mediana, pois:
                         Candidatos        A          B           C
                            Moda
                          Mediana
Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais
homogêneas, isto é, aquele que apresentou menor dispersão das notas.

6.2. Amplitude

       A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de
dados, ou seja,
                                Amplitude = Máximo – Mínimo                             (6.1)
Exemplo: Para os três candidatos temos:
                        Candidatos        A            B         C
                         Amplitude

6.3. Variância e Desvio Padrão

           A variância mede a dispersão dos dados em torno de sua média.
                                                                                                  n

                              ( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + L + ( x n − x ) 2     ∑ (x    i   − x)2
                          s2 = 1                                                             =   i =1
                                                                                                                            (6.2)
                                                           n −1                                         n −1

Oliveira, D. C. R. e Oliveira, M. S.                           19                                                    ____/____/____
O desvio padrão é simplesmente a raiz quadrada positiva da variância
                                                           s = s2                                            (6.3)

Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos:

                                                Notas                                    Média
    Candidato A               7,0      7,5   8,0 8,0       8,5     9,0                    8,0

        (7 − 8) 2 + (7,5 − 8) 2 + (8 − 8) 2 + (8 − 8) 2 + (8,5 − 8) 2 + (9 − 8) 2 2,5
sA =
 2
                                                                                 =    = 0,5       s A = 0,5 ≅ 0,7
                                          6 −1                                     5

                                                Notas                                    Média
    Candidato B               6,0      7,0   8,0 8,0       9,0     10,0                   8,0


sB =
 2
                                                                                     =        =   sB =
                                             6 −1                                         5

                                                Notas                                    Média
    Candidato C               7,5      8,0   8,0 8,0       8,0     8,5                    8,0


sC =
 2
                                                                                     =        =   sC =
                                             6 −1                                         5

Resumindo

               Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos
        Candidatos Média Moda Mediana Amplitude Variância                    Desvio Padrão
            A         8,0      8,0       8,0
            B         8,0      8,0       8,0
            C         8,0      8,0       8,0

Fórmula alternativa para o cálculo da variância

           Podemos calcular a variância através da seguinte fórmula alternativa:
                                                         1 ⎡⎛ n 2 ⎞             2⎤
                                                s2 =         ⎢⎜ ∑ xi ⎟ − n ( x ) ⎥                           (6.4)
                                                       n − 1 ⎣⎝ i =1 ⎠           ⎦
                                                .
       A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta
tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao
quadrado da variável ∑ xi .
                          2
                                (       )
Oliveira, D. C. R. e Oliveira, M. S.                         20                                       ____/____/____
6.4. Intervalo Interquartil

        O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1),
ou seja,
                                              IQ = Q3 – Q1.                                      (6.5)

       Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de
dados ordenados.

6.5. Exercícios – Parte I – A1

1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular
a variância, sabendo que a média é 5,4.

2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada
um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego,
em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários
entrevistados foi:
                             Empresa A Empresa B Empresa C
                                  5,5           4             5
                                   6            5             6
                                   6            6             6
                                   6            6             6
                                  6,5           9             7
Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa
para tomar sua decisão.

3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem
de sangue. Para isto o responsável pelas análises preparou uma substância de concentração
conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os
resultados obtidos em cada um deles foram os seguintes:
                        A 5 10 7 15 16 12 4                     8 10 13
                        B 10 9 10 9 11 8                   9    7    8    9
                        C 10 11 9 10 10 9 11 12 8 10
Em medidas clínicas três termos são utilizados freqüentemente:
Precisão: refere-se à dispersão dos resultados
Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao
“verdadeiro valor”
Exato: refere-se ao instrumento preciso e não-viciado
(a) Descreva os três instrumentos em termos das definições acima.
(b) Qual instrumento lhe parece recomendável? Justifique sua resposta.




Oliveira, D. C. R. e Oliveira, M. S.              21                                      ____/____/____
7. ESTATÍSTICA GRÁFICA

7.1. Gráficos para as Variáveis Qualitativas

        A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e
concisamente, informar sobre sua variabilidade.
        Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três
deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto.

7.1.1. Gráfico em Barras

        O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões
é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas
as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou
verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de
Instrução.

        Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da
                            Companhia MB segundo o grau de instrução.
         Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi)
            Fundamental               12              0,3333              33,33%
                Médio                 18              0,5000              50,00%
               Superior                6              0,1667              16,67%
                Total               n = 36            1,0000              100,00%
        Fonte: Bussab e Morettin (2002)



                                 18
                                                                         18
                                 16


                                 14


                                 12

                                                  12
               Freqüência (ni)




                                 10


                                 8


                                 6
                                                                                              6
                                 4


                                 2


                                 0
                                          Fundamental              Médio               Superior
                                                              Grau de Instrução



                                      Figura 7.1: Gráfico em Barras para a variável Grau de Instrução

Oliveira, D. C. R. e Oliveira, M. S.                                   22                               ____/____/____
7.1.2. Gráfico de Composição em Setores (“Pizza”)

       O gráfico de composição em setores (“pizza”), destina-se a representar a composição,
usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário,
representando o todo, dividido em setores, que correspondem às partes de maneira proporcional.
       Para o exemplo anterior temos o seguinte gráfico:

                                                                      50%

                                                                                                             Fundamental

                                                                                                             Médio
                                                    33%
                                                                                                             Superior


                                                                                    17%




                                        Figura 7.2: Gráfico em Setores para a variável Grau de Instrução

7.1.3. Gráfico de Pareto
        O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um
gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a
porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver
Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de
ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior
freqüência, e assim por diante.



                                          500                                                                 100


                                          400                                                                 80
                                                                                                                     Porcentagem Acumulada
           Frequencia Absoluta




                                          300                                                                 60


                                          200                                                                 40



                                          100                                                                 20



                                             0                                                                0
                                 Modelo-Aviões   MD-737 MD-777 MD-757 MD-767 MD-717 MD-747   MD-11   MD-90
                                        Count      281     55     45     44     32     25        4       3
                                       Percent    57,5   11,2    9,2    9,0    6,5    5,1      0,8     0,6
                                       Cum %      57,5   68,7   77,9   86,9   93,5   98,6     99,4   100,0


      Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)
Oliveira, D. C. R. e Oliveira, M. S.                                    23                                        ____/____/____
A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da
Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular,
seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as
porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse
exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do
total dos aviões produzidos em 2000.



                                                           90




                                                                                                                                                                          Porcentagem Acumulada
                                                           80                                                                                                       100
          Número de Defeitos




                                                           70
                                                                                                                                                                    80
                                                           60
                                                           50                                                                                                       60
                                                           40
                                                                        30                                                                                          40
                                                           30
                                                                                    21
                                                           20
                                                                                                                                                                    20
                                                           10                                   6           6           5          5           4           4
                                                             0                                                                                                      0
                               Tipo de Defeito                           o           s           s           a            s           es            s         s
                                                                       rn         da          ra           ci          da           nt           va        ro
                                                                  nto          ra          hu           ên          ca           ie           oi         ut
                                                              co            pa         ra
                                                                                          n          qü          ifi        sa
                                                                                                                               l
                                                                                                                                          s/
                                                                                                                                             g          O
                                                            o            la         s/            se          br          s            da
                                                           d           a                                    lu
                                                         a          m             ro         de           o           rte          fe
                                                                                                                                      n
                                                      or                       fu         ra           nã          Pa          s/
                                                                 es          e
                                                    F          rt          d           Fo         te
                                                                                                     s                      he
                                                            Pa         lta                     ar                         al
                                                                                                                        nt
                                                                    Fa                       P                        E
                                                  Count                  30          21            6           6             5           5            4         4
                                                 Percent             37,0 25,9                  7,4         7,4          6,2           6,2        4,9         4,9
                                                 Cum %               37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0

                               Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta.


        Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de
produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários
tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de
uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos
que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte
importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia
concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados
esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou
eliminá-los.

Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo
Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%)
pertence à minoria da população (20%).




Oliveira, D. C. R. e Oliveira, M. S.                                                            24                                                                      ____/____/____
7.2. Gráficos para as Variáveis Quantitativas

        Para variáveis Quantitativas podemos considerar uma variedade maior de representações
gráficas.

7.2.1. Gráfico em Barras

       O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das
variáveis qualitativas.
       Como ilustração, considere a variável “Número de Filhos” dos empregados casados da
seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

  Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia
                                MB, segundo o número de filhos.
               Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi)
                          0                     4                   20
                          1                     5                   25
                          2                     7                   35
                          3                     3                   15
                          4                     0                   0
                          5                     1                   5
                        Total                 n = 20               100
              Fonte: Bussab e Morettin (2002)




                         Figura 7.5: Gráfico de Barras para a variável Números de Filhos




Oliveira, D. C. R. e Oliveira, M. S.                   25                                  ____/____/____
7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot)

       Quando os dados consistem em um pequeno conjunto de números, estes podem ser
representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e
grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também
conhecido como gráfico de pontos.

Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento,
viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.




           2              3             4        5          6         7         8    9      10
                                       Figura 7.6: Gráfico de Dispersão – Dot Plot

7.2.3. Histograma

         O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de
barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo
proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai.
Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a
di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos
em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma
será 1 (um).

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia
MB, temos os seguintes dados:

        Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da
                                Companhia MB, por faixas de salário
        Classe de Freqüência Proporção Porcentagem Densidade de Freqüência
         Salário        (ni)           (fi)         (100 x fi)           (di = fi/ai)
        04 |-- 08        10          0,2778           27,78                0,0695
        08 |-- 12        12          0,3333           33,33                0,0833
        12 |-- 16        8           0,2222           22,22                0,0556
        16 |-- 20        5           0,1389           13,89                0,0347
        20 |-- 24         1          0,0278           2,78                 0,0070
          Total        n = 36        1,0000          100,00




Oliveira, D. C. R. e Oliveira, M. S.                       26                            ____/____/____
0,09

                                0,08

                                0,07                           0,0833
       ensidade de Freqüência




                                0,06            0,0695

                                0,05
                                                                               0,0556
                                0,04

                                0,03                                                             0,0347
      D




                                0,02

                                0,01                                                                             0,007

                                  0
                                          04 |-- 08      08 |-- 12        12 |-- 16        16 |-- 20      20 |-- 24
                                                                     Classes de Salários

                                                         Figura 7.7: Histograma da variável Salário

7.2.4. Gráfico em Linhas (ou Gráfico Temporal)

       É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos
iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries
temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

                                       Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares.
                                          Ano         Dívida        Ano          Dívida      Ano         Dívida
                                           1956        2736             1973             14857         1990           123439
                                           1957        2491             1974             20032         1991           123910
                                           1958        2870             1975             25115         1992           135949
                                           1959        3160             1976             32145         1993           145726
                                           1960        3738             1977             37951         1994           148295
                                           1961        3291             1978             52187         1995           159256
                                           1962        3533             1979             55803         1996           179935
                                           1963        3612             1980             64259         1997           199998
                                           1964        3294             1981             73963         1998           241644
                                           1965        3823             1982             85487         1999           241468
                                           1966        3771             1983             93745         2000           236156
                                           1967        3440             1984            102127         2001           226067
                                           1968        4092             1985            105171         2002           227689
                                           1969        4635             1986            111203         2003           235414
                                           1970        6240             1987            121188         2004           220182
                                           1971        8284             1988            113511         2005           187987
                                           1972       11464             1989            115506         2006           191999
                                              Fonte: IPEADATA

Oliveira, D. C. R. e Oliveira, M. S.                                            27                                             ____/____/____
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade
Introdução à Estatística e Probabilidade

Mais conteúdo relacionado

Mais procurados

Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópiaTuane Paixão
 
Apostila inferência bayesiana ricardo ehlers
Apostila inferência bayesiana   ricardo ehlersApostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana ricardo ehlersCristiane Tonilo
 
Temperatura
TemperaturaTemperatura
Temperaturadalgo
 
Programmazione lineare - problemi con soluzioni
Programmazione lineare - problemi con soluzioniProgrammazione lineare - problemi con soluzioni
Programmazione lineare - problemi con soluzioniCristina Scanu
 
Exercícios Mamtemática financeira
Exercícios Mamtemática financeiraExercícios Mamtemática financeira
Exercícios Mamtemática financeiraWanderson Mariano
 
Algumas maneiras de demonstrar o teorema de pitágoras
Algumas maneiras de demonstrar o teorema de pitágorasAlgumas maneiras de demonstrar o teorema de pitágoras
Algumas maneiras de demonstrar o teorema de pitágorasAdriano Capilupe
 
NUMEROS REAIS
NUMEROS REAISNUMEROS REAIS
NUMEROS REAISverinlaza
 
Estatística Aplicada à Administração - Aula 19: Regressão Linear Simples
Estatística Aplicada à Administração - Aula 19: Regressão Linear SimplesEstatística Aplicada à Administração - Aula 19: Regressão Linear Simples
Estatística Aplicada à Administração - Aula 19: Regressão Linear SimplesMarcus Araújo
 
Caderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoCaderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoOutliers Academy
 
Probabilidade resolvidos
Probabilidade resolvidosProbabilidade resolvidos
Probabilidade resolvidosresolvidos
 
Multiplicacao de matrizes
Multiplicacao de matrizesMultiplicacao de matrizes
Multiplicacao de matrizesGlauber Cruz
 

Mais procurados (20)

07 tópico 6 - autocorrelação
07   tópico 6 - autocorrelação07   tópico 6 - autocorrelação
07 tópico 6 - autocorrelação
 
Aula de distribuição de probabilidade[1] cópia
Aula de distribuição de probabilidade[1]   cópiaAula de distribuição de probabilidade[1]   cópia
Aula de distribuição de probabilidade[1] cópia
 
Apostila inferência bayesiana ricardo ehlers
Apostila inferência bayesiana   ricardo ehlersApostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana ricardo ehlers
 
Temperatura
TemperaturaTemperatura
Temperatura
 
Aula 7 variáveis aleatórias
Aula 7   variáveis aleatóriasAula 7   variáveis aleatórias
Aula 7 variáveis aleatórias
 
Programmazione lineare - problemi con soluzioni
Programmazione lineare - problemi con soluzioniProgrammazione lineare - problemi con soluzioni
Programmazione lineare - problemi con soluzioni
 
Exercícios Mamtemática financeira
Exercícios Mamtemática financeiraExercícios Mamtemática financeira
Exercícios Mamtemática financeira
 
Aula 21 vetores
Aula 21   vetoresAula 21   vetores
Aula 21 vetores
 
Algumas maneiras de demonstrar o teorema de pitágoras
Algumas maneiras de demonstrar o teorema de pitágorasAlgumas maneiras de demonstrar o teorema de pitágoras
Algumas maneiras de demonstrar o teorema de pitágoras
 
Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5Exercicios de estatistica resolvido.5
Exercicios de estatistica resolvido.5
 
NUMEROS REAIS
NUMEROS REAISNUMEROS REAIS
NUMEROS REAIS
 
Curso estatistica descritiva no r
Curso   estatistica descritiva no rCurso   estatistica descritiva no r
Curso estatistica descritiva no r
 
Aula 01 limites e continuidade
Aula 01   limites e continuidadeAula 01   limites e continuidade
Aula 01 limites e continuidade
 
Aula1 - estatística básica
Aula1 -  estatística básicaAula1 -  estatística básica
Aula1 - estatística básica
 
Estatística Aplicada à Administração - Aula 19: Regressão Linear Simples
Estatística Aplicada à Administração - Aula 19: Regressão Linear SimplesEstatística Aplicada à Administração - Aula 19: Regressão Linear Simples
Estatística Aplicada à Administração - Aula 19: Regressão Linear Simples
 
5127 apostila-de-estatistica
5127 apostila-de-estatistica5127 apostila-de-estatistica
5127 apostila-de-estatistica
 
Caderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com soluçãoCaderno de Exercícios – Estatística com solução
Caderno de Exercícios – Estatística com solução
 
Lista prova 1 estatística
Lista prova 1 estatísticaLista prova 1 estatística
Lista prova 1 estatística
 
Probabilidade resolvidos
Probabilidade resolvidosProbabilidade resolvidos
Probabilidade resolvidos
 
Multiplicacao de matrizes
Multiplicacao de matrizesMultiplicacao de matrizes
Multiplicacao de matrizes
 

Semelhante a Introdução à Estatística e Probabilidade

Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basicaapostilacontabil
 
Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basicaeducacao f
 
Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basicagabaritocontabil
 
Apostila De Desenho Geometrico
Apostila De Desenho GeometricoApostila De Desenho Geometrico
Apostila De Desenho Geometricogoogle
 
Modelagem matematica
Modelagem matematicaModelagem matematica
Modelagem matematicaAndreza Lemos
 
Apostila matlab
Apostila matlabApostila matlab
Apostila matlabjohcarol
 
Algebra linear sergio zani
Algebra linear   sergio zaniAlgebra linear   sergio zani
Algebra linear sergio zanimagalhaes2012
 
Apostila Calculo II - UDESC.pdf
Apostila Calculo II - UDESC.pdfApostila Calculo II - UDESC.pdf
Apostila Calculo II - UDESC.pdfJulioCesarSouza35
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexosDiogo Freire
 
Econometria 1
Econometria 1Econometria 1
Econometria 1franco102
 
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEW
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEWAMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEW
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEWAssis Júnior
 

Semelhante a Introdução à Estatística e Probabilidade (20)

Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basica
 
Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basica
 
Apostila matematica basica
Apostila matematica basicaApostila matematica basica
Apostila matematica basica
 
Apostila De Desenho Geometrico
Apostila De Desenho GeometricoApostila De Desenho Geometrico
Apostila De Desenho Geometrico
 
Modelagem matematica
Modelagem matematicaModelagem matematica
Modelagem matematica
 
Apostila matlab
Apostila matlabApostila matlab
Apostila matlab
 
Rad conv
Rad convRad conv
Rad conv
 
Algebra linear sergio zani
Algebra linear   sergio zaniAlgebra linear   sergio zani
Algebra linear sergio zani
 
Apostila Calculo II - UDESC.pdf
Apostila Calculo II - UDESC.pdfApostila Calculo II - UDESC.pdf
Apostila Calculo II - UDESC.pdf
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexos
 
Agrupamento espectral
Agrupamento espectralAgrupamento espectral
Agrupamento espectral
 
Econometria 1
Econometria 1Econometria 1
Econometria 1
 
Estatística básica
Estatística básicaEstatística básica
Estatística básica
 
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEW
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEWAMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEW
AMBIENTE DE SIMULAÇÃO DE UM PIG INSTRUMENTADO COM O USO DO LABVIEW
 
Apostila g ccustos
Apostila g ccustosApostila g ccustos
Apostila g ccustos
 
Manual agil.tmp
Manual agil.tmpManual agil.tmp
Manual agil.tmp
 
Livro seagro
Livro seagroLivro seagro
Livro seagro
 
Anova a 1 factor
Anova a 1 factorAnova a 1 factor
Anova a 1 factor
 
Sebenta calculo
Sebenta calculoSebenta calculo
Sebenta calculo
 
Metrologia - Lista de Exercícios I
Metrologia - Lista de Exercícios IMetrologia - Lista de Exercícios I
Metrologia - Lista de Exercícios I
 

Mais de Ronne Seles

A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123
A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123
A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123Ronne Seles
 
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-1152589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11Ronne Seles
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0Ronne Seles
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 
A teoria das necessidades de david mc clelland
A teoria das necessidades de david mc clellandA teoria das necessidades de david mc clelland
A teoria das necessidades de david mc clellandRonne Seles
 
Motivação intrínseca e motivação extrínseca
Motivação intrínseca e motivação extrínsecaMotivação intrínseca e motivação extrínseca
Motivação intrínseca e motivação extrínsecaRonne Seles
 
Amostragem e estimacao
Amostragem e estimacaoAmostragem e estimacao
Amostragem e estimacaoRonne Seles
 
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidosRonne Seles
 

Mais de Ronne Seles (8)

A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123
A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123
A importancia das_informacoes_contabeis_na_elaboracao_de_um_plano_de_negocio123
 
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-1152589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11
52589565 plano-de-negocios-de-grafica-rapida-copiadora-lan-house-11
 
Distribuicao normal2.0
Distribuicao normal2.0Distribuicao normal2.0
Distribuicao normal2.0
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
A teoria das necessidades de david mc clelland
A teoria das necessidades de david mc clellandA teoria das necessidades de david mc clelland
A teoria das necessidades de david mc clelland
 
Motivação intrínseca e motivação extrínseca
Motivação intrínseca e motivação extrínsecaMotivação intrínseca e motivação extrínseca
Motivação intrínseca e motivação extrínseca
 
Amostragem e estimacao
Amostragem e estimacaoAmostragem e estimacao
Amostragem e estimacao
 
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos
402 macroeconomia-i-caderno-de-exercicios-para-exame-resolvidos
 

Introdução à Estatística e Probabilidade

  • 1. Estatística e Probabilidade Professores: Daniela Carine Ramires de Oliveira Marcos Santos de Oliveira
  • 2. Índice 1. Introdução à Estatística 1 1.1. O que é Estatística? 1 1.2. Estatística na Prática 1 1.3. Um pouco da história da Estatística 2 1.4. Exercícios 2 2. Variáveis 3 2.1. Definição de Variável 3 2.2. Classificação das Variáveis 3 2.3. Exercícios 5 3. Amostragem 6 3.1. Por que fazer Amostragem? 6 3.2. Quando o uso de amostragem não é interessante? 6 3.3. Tipos de Amostragem 6 3.3.1. Amostragem Aleatória Simples (AAS) 6 3.3.2. Amostragem Sistemática (AS) 7 3.3.3. Amostragem Estratificada (AE) 8 3.3.4. Amostragem por Conglomerado (AC) 9 3.4. Exercícios 10 4. Tabulação de Variáveis 11 4.1. Variáveis Qualitativas Unidimensionais 11 4.2. Variáveis Quantitativas Unidimensionais 12 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais 13 4.4. Exercícios 14 5. Medidas de Posição 15 5.1. Mínimo e Máximo 15 5.2. Moda 15 5.3. Média 15 5.4. Mediana 16 5.5. Exercícios 18 Prof. Daniela ii ____/____/____
  • 3. 6. Medidas de Dispersão 19 6.1. Motivação 19 6.2. Amplitude 19 6.3. Variância e Desvio Padrão 19 6.4. Intervalo Interquartil 21 6.5. Exercícios 21 7. Estatística Gráfica 22 7.1. Gráficos para as Variáveis Qualitativas 22 7.1.1. Gráfico em Barras 22 7.1.2. Gráfico de Composição em Setores (“Pizza”) 23 7.1.3. Gráfico de Pareto 23 7.2. Gráficos para as Variáveis Quantitativas 25 7.2.1. Gráfico em Barras 25 7.2.2. Gráfico de Pontos 26 7.2.3. Histograma 26 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) 27 7.2.5. Ramo-e-Folhas 28 7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot) 29 7.3 Exercícios 31 8. Correlação e Regressão 32 8.1. Estudo da relação entre variáveis 32 8.2. Diagrama de Dispersão 32 8.3. Coeficiente de Correlação 35 8.4. Regressão Linear Simples 37 8.5. Coeficiente de Determinação 39 8.6. Exercícios 40 Lista de Exercícios 1 41 9. Probabilidade 44 9.1. Processo ou Experimento Aleatório 44 9.2. Espaço Amostral (Ω) 44 9.3. Evento 45 9.4. Exercícios 46 9.5. Introdução à Probabilidade 47 Prof. Daniela iii ____/____/____
  • 4. 9.6. Definição Clássica 48 9.7. Definição Freqüentista 49 9.8. Definição Subjetiva 51 9.9. Definição Moderna 51 9.10. Probabilidade Condicional 52 9.11. Independência de Eventos 53 9.12. Regra da Probabilidade Total 54 9.13. Teorema de Bayes 54 10. Variável Aleatória Discreta 56 10.1. Introdução 56 10.2. Esperança Matemática (Média) 57 10.3. Variância 58 10.4. Exercício 58 10.5. Modelo Bernoulli 58 10.6. Modelo Binomial 59 10.7. Exercícios 60 10.8. Distribuição Hipergeométrica 60 10.9 Exercício 61 10.10. Distribuição Poisson 61 10.11. Exercícios 62 11. Variável Aleatória Contínua 63 11.1. Esperança e Variância 65 11.2. Distribuição Normal 66 11.3. Tabela da Distribuição Normal Padrão 69 11.4. Exercícios 73 Lista de Exercícios 2 74 12. Estimação 77 12.1. Inferência Estatística 77 12.2. Estimação Pontual e Intervalar para Proporção 77 12.3. Exercícios 79 12.4. Estimativa Pontual e Intervalar para a Média Populacional 79 12.5. Exercícios 81 12.6. Estimativa para a Média Populacional com Variância Desconhecida 81 12.7. Exercício 83 Prof. Daniela iv ____/____/____
  • 5. 13. Testes de Hipóteses 84 13.1. Introdução 84 13.2. Formulação das Hipóteses 84 13.3. Tipos de Erros possíveis nos Testes de Hipóteses 84 13.4. Nível de Significância de um Teste de Hipótese (α) 85 13.5. Teste de Hipóteses para a Proporção 85 13.6. Exercícios 87 13.7. Teste de Hipóteses para Média com Variância Conhecida 88 13.8 Exercícios 90 13.9 Teste de Hipóteses para Média com Variância Desconhecida 91 13.10. Exercícios 93 Lista de Exercícios 3 94 Apêndice A Gabarito da Lista de Exercícios 1 95 B Gabarito da Lista de Exercícios 2 101 C Gabarito da Lista de Exercícios 3 102 D Aula no Laboratório de Computação 104 Prof. Daniela v ____/____/____
  • 6. 1. INTRODUÇÃO À ESTATÍSTICA 1.1. O que é Estatística? Estatística é uma ciência que nos permite coletar, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento. Estamos denominando por dados a um (ou mais) conjunto de valores, numéricos ou não. A aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas das atividades humanas. Assim, o principal objetivo da Estatística é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas. 1.2. Estatística na Prática Técnicas de amostragem População Amostra (Características) Planejamento de Experimentos Análise descritiva descritiva Inferência Estatística Conclusões Informações sobre as contidas nos características Cálculo de Probabilidades dados da população População: é o conjunto de todos os elementos que nos interessa estudar. Deve ser notado que na terminologia estatística, população refere-se não somente a uma coleção de indivíduos, mas ao alvo no qual reside nosso interesse. Exemplos: todos os clientes de um banco, todos os alunos de uma faculdade, todos os automóveis da Ford, todo o sangue no corpo de uma pessoa, etc. Técnicas de Amostragem: ferramentas que nos auxiliam a coletar amostras. Planejamento de Experimentos: cria esquemas e teorias para verificação de hipóteses científicas. Amostra: é qualquer subconjunto da população. Análise Descritiva: Conjunto de técnicas destinadas a descrever e resumir os dados a fim de tirarmos conclusões a respeito de características de interesse. Probabilidade: Teoria utilizada para se estudar a incerteza associada a fenômenos aleatórios. Inferência Estatística: Técnicas que possibilitam a extrapolação, a um grande conjunto de dados (população), das informações e conclusões obtidas a partir de um subconjunto de valores (amostra). Oliveira, D. C. R. e Oliveira, M. S. 1 ____/____/____
  • 7. 1.3. Um pouco da história da Estatística 5000 AC Registros egípcios de presos de guerra; 2000 AC Censo Chinês; 695 Primeira utilização da média ponderada pelos árabes na contagem de moedas; 1654 Pierre de Fermat e Blaise Pascal estabelecem os Princípios do Cálculo das Probabilidades; 1763 Inferência Estatística (Reverendo Bayes); 1930 Controle de Qualidade nas indústrias; 1959 Estudo retrospectivo de doenças (Mantel & Haenszel); 1996 Profundidade da Regressão (Rousseeuw e Hubert); 1997 Modelos Fatoriais; 2001 100 anos da Biometrika. Maiores detalhes sobre a história da Estatística no site: http://www.redeabe.org.br/historia.htm 1.4. Exercícios – Parte I – A1 1) Para as situações descritas a seguir, identifique a população e a amostra correspondente. (a) Para avaliar a eficácia de uma campanha de vacinação no Estado de Minas Gerais, 200 mães de recém-nascidos durante o primeiro semestre de um dado ano, em uma dada maternidade em Belo Horizonte, foram perguntadas a respeito da última vez que vacinaram seus filhos. População: Amostra: (b) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. População: Amostra: (c) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. População: Amostra: Oliveira, D. C. R. e Oliveira, M. S. 2 ____/____/____
  • 8. 2. VARIÁVEIS 2.1. Definição de Variável Qualquer característica associada a uma população é chamada de variável. Porque o nome variável? Porque ela “varia” de alguma forma. Exemplos: Idade: pode variar de 0, 1 , 2, ... anos Sexo: pode ser masculino ou feminino Estado Civil: pode ser solteiro, casado, divorciado, etc. 2.2. Classificação das Variáveis As variáveis podem ser classificadas como Qualitativas ou Quantitativas. Algumas variáveis como sexo, grau de instrução, estado civil, região de procedência, apresentam como possíveis resultados uma qualidade (ou atributo) do indivíduo pesquisado, logo, estas variáveis são chamadas de variáveis Qualitativas. As variáveis como número de filhos, salário, idade, apresentam como possíveis resultados números resultantes de uma contagem ou mensuração, logo, estas variáveis são chamadas de variáveis Quantitativas. Exemplo: Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socio-econômicos dos empregados da seção de orçamentos de uma empresa. Usando informações obtidas do departamento pessoal, ele elaborou a Tabela 2.1. Tabela 2.1: Informações sobre estado civil, grau de instrução, número de filhos, salário (expresso como fração do salário mínimo), idade (medida em anos e meses) e procedência de 36 empregados da seção de orçamentos de uma Empresa. Idade N° Estado Civil Grau de Instrução N° de Filhos Salário Anos Meses Região de Procedência 1 Solteiro Fundamental ... 4,00 26 3 Interior 2 Casado Fundamental 1 4,56 32 10 Capital ... ... ... ... ... ... ... ... 35 Casado Médio 2 19,40 48 11 Capital 36 Casado Superior 3 23,30 42 2 Interior Fonte: Bussab e Morettin (2002) Observações sobre a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo à realização de uma característica (ou características). Por exemplo, considerando a variável estado civil, para cada empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo). Oliveira, D. C. R. e Oliveira, M. S. 3 ____/____/____
  • 9. Dentre as variáveis Qualitativas, ainda podemos fazer uma distinção entre dois tipos: Variável Qualitativa Nominal: para a qual não existe nenhuma ordenação nos possíveis resultados. Exemplo: Região de Procedência, etc. Variável Qualitativa Ordinal: para a qual existe uma ordem natural nos seus resultados. Exemplo: Grau de instrução, etc. As variáveis Quantitativas também podem sofrer uma classificação dicotômica: Variável Quantitativa Discreta: cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem. Exemplo: Nº de Filhos, etc. Variável Quantitativa Contínua: cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração. Exemplo: Salário, etc. Resumindo Como as variáveis são classificadas e outros exemplos: Nominal Sexo, Cor dos Olhos. Qualitativa Ordinal Estado Civil, Classe social. Discreta Números de carros. Quantitativa Contínua Peso, altura. Para cada tipo de variável existem técnicas apropriadas para resumir as informações dos dados obtidos da amostra. Por exemplo, a utilização de uma tabela é uma forma de escrever os dados de uma forma resumida. Em algumas situações podem-se atribuir valores numéricos às várias qualidades ou atributos de uma variável qualitativa e depois se proceder à análise como se esta fosse quantitativa, desde que o procedimento seja passível de interpretação. Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil: a chamada variável dicotômica. Para essa variável podem ocorrer somente duas realizações, usualmente chamadas de sucesso e fracasso. Exemplos: Sexo (Masculino ou Feminino), Hábito de Fumar (Sim ou Não), etc. Oliveira, D. C. R. e Oliveira, M. S. 4 ____/____/____
  • 10. 2.3. Exercícios – Parte I – A1 1) Um questionário foi aplicado aos alunos do primeiro ano de uma escola fornecendo as seguintes informações: ID: Identificação do aluno; Turma: Turma a que o aluno foi alocado (A ou B); Sexo: Feminino (F) ou Masculino (M); Idade: Idade; Alt: Altura; Peso: Peso; Filh: Número de filhos na família; Fuma: Hábito de fumar (sim ou não); Toler: Tolerância ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M) Incomoda Muito; Exer: Horas de atividade física, por semana; Cine: Número de vezes que vai ao cinema por semana; OpCine: Opinião a respeito das salas de cinema na cidade: (B) regular a boa e (M) muito boa TV: Horas gastas assistindo TV, por semana OpTV: Opinião da programação na TV: (R) Ruim, (M) Média, (B) Boa e (N) não sabe. Tabela 2.2: Informações do questionário estudantil. ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV 1 A F 17 1,60 60,5 2 Não P 0 1 B 16,5 R 2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R ... ... ... ... ... ... ... ... ... ... ... ... ... ... 49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R 50 B M 18 1,83 86,0 1 Não P 7 7 M 20 B Fonte: Magalhães e Lima (2004). Classifique as variáveis da Tabela 2.2. como Variável Qualitativa Nominal: Variável Qualitativa Ordinal: Variável Quantitativa Discreta: Variável Quantitativa Contínua: Oliveira, D. C. R. e Oliveira, M. S. 5 ____/____/____
  • 11. 3. AMOSTRAGEM A amostragem é naturalmente usada em nossa vida diária. Por exemplo, para verificar o tempero de um alimento em preparação, podemos provar (observar) uma pequena porção deste alimento. Estamos fazendo uma amostragem, ou seja, extraindo do todo (população), uma parte (amostra) com propósito de avaliarmos sobre a qualidade do tempero de todo o alimento. 3.1. Por que fazer Amostragem? Existem várias razões para o uso de amostragem em levantamento de grandes populações. Algumas delas são: Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população. Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país. Operacionalidade: É mais fácil realizar operações de pequena escala. Um dos problemas típicos nos grandes censos é o controle dos entrevistadores. 3.2. Quando o uso de amostragem não é interessante? População pequena: Não há necessidade de utilizar técnicas estatísticas, pois neste caso é aconselhável realizar o censo (análise de toda a população). Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se quer observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudança no horário de um turno de trabalho, podemos entrevistar toda a população no próprio local de trabalho. Esta atitude pode ser politicamente mais recomendável. Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo1 Demográfico para estudar diversas característica da população brasileira. Dentre estas características têm- se o número total de habitantes, que é fundamental para o planejamento do país. Desta forma, o número de habitantes precisa ser avaliado com grande precisão e, por isto, se pesquisa toda a população. 3.3. Tipos de Amostragem 3.3.1. Amostragem Aleatória Simples (AAS) A técnica de Amostragem Aleatória Simples (ou Amostragem Casual Simples) é o método mais simples e um dos mais importantes para a seleção de uma amostra. Para a seleção de uma AAS precisamos ter uma lista completa dos elementos da população. Este tipo de amostragem consiste em selecionar a amostra através de um sorteio. Sua principal característica está no fato de todos os elementos da população ter igual probabilidade de serem escolhidos. 1 Censo: estudo de todos os elementos da população. Oliveira, D. C. R. e Oliveira, M. S. 6 ____/____/____
  • 12. Procedimento para o uso deste método: 1) Numerar todos os elementos da população (N elementos); 2) Efetuar sucessivos sorteios até completar o tamanho da amostra (n). Para realizar este sorteio, podemos utilizar urnas, tabelas de números aleatórios ou algum software que gere números aleatórios. A Tabela abaixo foi feita usando o Excel®. Tabela de Números Aleatórios 6 1 0 9 2 6 2 9 8 5 1 1 9 5 7 7 7 9 0 4 5 7 0 0 9 1 2 9 5 9 8 3 5 3 8 7 0 2 0 2 9 4 4 7 4 0 9 9 9 3 8 2 1 3 2 2 4 0 3 3 1 9 7 2 5 5 6 9 8 2 1 6 9 4 2 1 6 6 3 9 5 0 4 0 5 0 5 5 7 9 0 0 5 8 1 7 2 6 3 0 3 8 1 1 5 4 8 9 0 4 1 3 6 9 1 7 3 5 4 8 5 8 9 3 4 2 7 0 1 5 2 8 9 6 2 4 7 5 0 3 0 0 4 5 8 6 6 8 7 9 0 2 5 8 9 6 2 4 8 5 8 0 4 8 9 6 3 2 5 8 1 2 5 8 7 4 6 3 2 1 4 8 9 6 5 4 1 2 3 2 0 1 4 5 2 3 6 9 8 0 1 2 8 7 5 6 3 2 1 0 8 5 6 4 9 7 3 2 1 0 5 9 4 7 6 4 1 2 3 3 0 1 2 5 8 9 7 4 1 0 3 1 4 5 8 7 6 9 3 2 0 1 4 5 6 9 8 7 4 5 9 8 7 4 5 6 3 2 1 5 9 4 5 6 0 2 5 8 0 0 8 5 1 8 9 6 5 4 7 3 1 0 2 5 8 9 6 3 2 0 4 7 8 9 6 3 2 0 1 4 8 2 3 6 8 9 5 2 0 1 0 8 5 8 9 6 3 2 1 4 5 2 5 8 9 6 3 2 1 4 8 5 2 3 0 2 5 7 4 0 8 5 6 3 1 2 5 2 3 0 9 0 1 2 5 9 0 3 6 8 2 0 3 5 8 4 6 1 3 0 5 8 7 9 6 3 2 0 1 8 9 6 3 2 5 8 4 1 0 3 1 9 1 5 8 9 6 3 2 1 7 8 9 6 5 2 0 3 2 5 9 6 3 2 0 1 5 8 9 6 2 1 5 4 7 9 9 4 0 2 2 7 9 1 2 3 5 8 9 6 0 1 5 4 2 0 3 6 9 8 2 5 8 0 2 1 4 8 0 9 5 2 0 3 2 1 2 4 8 9 5 6 1 9 4 5 9 6 3 2 1 4 7 8 9 6 3 0 1 5 1 4 5 8 9 6 3 2 1 4 0 2 1 3 6 5 4 7 8 9 9 2 5 1 2 3 5 8 9 4 3 2 1 4 7 0 2 3 0 0 4 5 6 3 0 0 1 4 5 2 9 3 0 2 5 8 9 2 6 4 6 3 3 1 2 5 8 7 0 3 9 4 7 8 4 1 0 1 3 6 8 7 4 1 2 3 0 2 5 8 6 1 0 2 5 4 6 7 8 9 Exemplo: Estamos interessados em estudar a qualidade da gasolina nos postos de uma determinada cidade. Essa cidade possui N = 40 postos. A empresa que estudará a qualidade pode investigar apenas uma amostra de n = 4 postos. Para selecionarmos uma amostra, utilizando a amostragem casual simples, basta escolhermos uma posição de qualquer linha da tabela de números aleatórios e extrairmos conjuntos de dois algarismos (pois N, que é o tamanho da população, possui 2 casas decimais), até completarmos os 4 elementos da amostra. Se o número sorteado não existir, simplesmente não consideramos e prosseguimos o processo. Escolhendo a primeira linha da Tabela de Números Aleatórios, temos a seguinte amostra de 4 elementos: {09, 26, 29, 11}. Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AAS utilizando a primeira linha da Tabela de Números Aleatórios. 3.3.2. Amostragem Sistemática (AS) É utilizada quando a população está naturalmente ordenada, como listas telefônicas, fichas de cadastramento, produção de garrafas da cervejas, etc. Procedimento para o uso deste método: 1) Seja N o tamanho da população e n o tamanho amostral. Calcula-se o intervalo da amostragem i = N/n (considera-se apenas a parte inteira do número). Oliveira, D. C. R. e Oliveira, M. S. 7 ____/____/____
  • 13. 2) Sorteia-se, utilizando a tabela de números aleatórios, um número x entre 1 e i formando a amostra: x, (x + i), (x + 2*i), ... , (x + (n-1)*i). Exemplo: Numa turma com N = 36 alunos, deseja-se retirar uma amostra de n = 5 elementos para verificar uma característica de interesse. Utilize a técnica de amostragem sistemática para retirar essa amostra. 1) Calcular: i = N/n = 36/5 = 7,2. Considerando a parte inteira do número, temos que i = 7; 2) Sortear um número entre 1 e 7 da Tabela de Números Aleatórios. Escolhendo a última linha e a primeira coluna, temos que o primeiro número que está entre 1 e 7 é 6. Logo a amostra será composta dos elementos: {06, 13, 20, 27, 34} Exemplo: Considere agora, uma população com 500 elementos e, deseja-se retirar dessa população 10 elementos. Obtenha uma AS utilizando a primeira linha da Tabela de Números Aleatórios, quando for necessário. 3.3.3. Amostragem Estratificada (AE) A população é dividida em subgrupos, denominados estratos (por exemplo, por sexo, renda, bairro, etc.) e a AAS é utilizada na seleção de uma amostra de cada estrato. Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo. Aqui, um conhecimento prévio sobre a população em estudo é fundamental. Estrato 1 Subgrupo 1 da amostra Estrato 2 Subgrupo 2 da amostra Amostra ... ... ... Estratificada Estrato k Subgrupo k da amostra A AE tem as seguintes características: • dentro de cada estrato há uma grande homogeneidade (pequena variabilidade); • entre os estratos há uma grande heterogeneidade (grande variabilidade). Em geral, utiliza-se a AE proporcional. Neste caso, a proporcionalidade do tamanho da amostra de cada estrato da população é mantida na amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20% da amostra. Exemplo: Com o objetivo de realizar uma pesquisa de opinião sobre a gestão atual da reitoria em uma determinada universidade, realizaremos um levantamento por amostragem. A população é composta por 100 professores, 100 servidores técnicos administrativos e 300 alunos, que identificaremos da seguinte forma: População Professores P001 P002 … P100 Servidores S001 S002 ... S100 Alunos A001 A002 ... A300 Oliveira, D. C. R. e Oliveira, M. S. 8 ____/____/____
  • 14. Supondo que a opinião sobre a gestão atual da reitoria possa ser relativamente homogêneo dentro de cada categoria, realizaremos uma amostragem estratificada proporcional por categoria, para obter uma amostra global de tamanho n = 10. A tabela a seguir mostra as relações de proporcionalidade. Estrato Proporção na População Tamanho do subgrupo na amostra Professores 100/500 = 0,20 (ou 20%) np = ( 0,20)*10 = 2 Servidores 100/500 = 0,20 (ou 20%) ns = ( 0,20)*10 = 2 Alunos 300/500 = 0,60 (ou 60%) na = ( 0,60)*10 = 6 Para selecionar aleatoriamente dois professores, podemos usar a Tabela de Números Aleatórios, tomando dois números com três algarismos. Usando, por exemplo a primeira linha da tabela de números aleatórios, temos os seguintes professores selecionados: {P045, P020}. Para os servidores, usando a segunda linha da tabela, temos: {S055, S058}. Usando a terceira linha da tabela, temos a seguinte amostra de alunos: {A050, A136, A270, A152, A247, A004}. A amostra {P045, P020, S055, S058, A050, A136, A270, A152, A247, A004} é uma amostra estratificada proporcional da comunidade da universidade. Cada indivíduo desta amostra deverá ser pesquisado para se obter a opinião em relação à gestão atual da reitoria. 3.3.4. Amostragem por Conglomerado (AC) A população é dividida em subpopulações (conglomerados) distintas (quarteirões, residências, famílias, bairros, etc.). Alguns dos conglomerados são selecionados segundo a AAS e todos os indivíduos nos conglomerados selecionados são observados. Em geral, é menos eficiente que a AAS ou AE, mas por outro lado é bem mais econômica. Tal procedimento amostral é adequado quando é possível dividir a população em um grande número de pequenas subpopulações. A AC tem as seguintes características: • dentro de cada conglomerado há uma grande heterogeneidade (grande variabilidade); • entre os conglomerados há uma pequena variabilidade (grande homogeneidade). Exemplo: Realização de uma pesquisa eleitoral em uma cidade com 12 zonas eleitorais. Usando a técnica de amostragem por conglomerados, podemos selecionar aleatoriamente 2 zonas eleitorais e, em seguida, entrevistar todos os eleitores dessas zonas selecionadas 5 3 Zona 9 6 11 1 7 12 2 4 10 8 Entrevistar todos os eleitores dessas zonas Oliveira, D. C. R. e Oliveira, M. S. 9 ____/____/____
  • 15. Obs.: É fácil confundir amostragem estratificada com amostragem por conglomerado, porque ambas envolvem a formação de subgrupos. A diferença é que a amostragem por conglomerado usa todos os membros de uma amostra de conglomerados, enquanto a amostragem estratificada usa uma amostra de membros de todos os estratos. Curiosidade Também podemos encontrar na prática a Técnica de Amostragem de Conveniência que simplesmente usa resultados que sejam muito fáceis de obter. Ei! Você é a favor da pena de m orte? 3.4. Exercícios – Parte I – A1 1) Um administrador especialista em avaliar através de sistemas informatizados as ações da BOVESPA, está interessado em fazer uma pesquisa nos preços das ações, para indicar aos seus clientes se hoje é um dia favorável a fazer investimentos. Ele sabe que existe N = 500 ações em venda. Como o tempo de estudo de cada ação é de aproximadamente 10 minutos, decidiu-se verificar apenas n = 25 ações. Utilizando as técnicas de amostragem aleatória simples, quais ações serão selecionadas (Use a primeira linha da tabela de números aleatórios)? 2) Um gerente de controle de qualidade estudará fontes de computador que passam numa esteira transportadora dentro da empresa onde trabalha. Sabendo que por dia passam N = 85 fontes e na amostra deverá ter n = 10 fontes, quais serão as fontes selecionadas utilizando a técnica de amostragem sistemática? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) 3) Num depósito em uma determinada empresa produtora de materiais eletrônicos possui N = 100 computadores que estão separados em duas qualidades. N1 = 40 computadores Pentium 3 e N2 = 60 computadores Pentium 4. O custo para verificar se cada computador está sob controle é muito alto. O administrador responsável disse que a empresa tem condições de verificar apenas n = 12 computadores. Utilizando a técnica de amostragem estratificada proporcional, quais computadores serão selecionados? (Quando for necessário utilizar a Tabela de Números Aleatórios utilize a primeira linha) Oliveira, D. C. R. e Oliveira, M. S. 10 ____/____/____
  • 16. 4. TABULAÇÃO DE VARIÁVEIS 4.1. Variáveis Qualitativas Unidimensionais Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de seus possíveis resultados. A tabela a seguir apresenta a distribuição de freqüências da variável grau de instrução dos dados da Tabela 2.1. Tabela 4.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 Médio 18 Superior 6 Total n = 36 1,0000 Fonte: Bussab e Morettin (2002) Interpretação da Tabela 4.1.: Nota-se que dos 36 empregados da seção de orçamentos, 33,33% tem nível fundamental, 50% nível médio e apenas 16,67% nível superior. Notação: Usaremos a notação ni para indicar a freqüência (absoluta) de cada classificação ou categoria da variável. A notação fi = ni/n para indicar a proporção (ou freqüência relativa) de cada categoria, sendo o “n” o número total de observações. As proporções são muito úteis quando se querem comparar resultados de duas pesquisas distintas. O próximo exemplo ilustra este fato. Exemplo: Suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB. Digamos que a empresa tenha 2000 empregados e que a distribuição de freqüências seja a tabela abaixo: Tabela 4.2: Freqüências e Porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 650 Médio 1020 0,5100 Superior Total n = 2000 1,0000 Fonte: Bussab e Morettin (2002) Comparação entre a Tabela 4.1. e a Tabela 4.2.: Não podemos comparar diretamente as colunas das freqüências (ni) das duas tabelas pois os totais de empregados são diferentes nos dois casos (n = 36 e n = 2000). Mas as colunas das porcentagens (ou proporções) são comparáveis, pois reduzimos as freqüências relativas a um mesmo total. Oliveira, D. C. R. e Oliveira, M. S. 11 ____/____/____
  • 17. 4.2. Variáveis Quantitativas Unidimensionais A construção de tabelas de freqüências para variáveis quantitativas necessita de certos cuidados. Por exemplo, a construção da tabela de freqüências para a variável Salário da Tabela 2.1., usando o mesmo procedimento que o grau de instrução, não resumirá as 36 observações num grupo menor, pois não existem observações iguais. Solução: Agrupar os dados por faixas de salário. Assim, construímos uma tabela chamada Tabela de Classes de Freqüências. Exemplo: Distribuição de Freqüências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário: Tabela 4.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixas de salário. Classe de Salário Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) 04 |-- 08 10 0,2778 27,78% 08 |-- 12 12 12 |-- 16 8 16 |-- 20 5 20 |-- 24 1 Total 36 1,0000 Obs.: Procedendo desse modo, ao resumir os dados referentes a uma variável quantitativa, perde-se alguma informação. Por exemplo, não sabemos quais são os oito salários da classe de 12 a 16, a não ser que investiguemos a tabela original. Sem perda de muita precisão, poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14. Número de Classes A escolha dos intervalos é arbitrária. A familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes (intervalos) devem ser usadas. Entretanto, deve-se observar que, com um número pequeno de classes, perde-se informação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicado. Solução: Normalmente, sugere-se o uso de 4 a 8 classes com a mesma amplitude. Dentre muitas regras citadas na literatura, duas tem sido universalmente adotadas, caso o pesquisador não tenha idéia alguma sobre o número de classes adotar. O número ideal de classes é um número inteiro próximo de: Regra 1: C = 1 + 3,2 x log n Regra 2: C= n onde n é o número de elementos pesquisado. As duas regras são equivalentes para n ≤ 80. A partir daí, a Regra 2 fornece valores que crescem rapidamente e desse modo a Regra 1, proposta por Sturges tem sido preferida. Oliveira, D. C. R. e Oliveira, M. S. 12 ____/____/____
  • 18. 4.3. Variáveis Qualitativas e Quantitativas Bidimensionais As tabelas usadas neste caso são conhecidas como tabela de dupla entrada, tabela de associação, tabela de contingência ou distribuições conjuntas de freqüências. Tabela 4.4: Distribuição dos funcionários da empresa MB, segundo o conceito em Metodologia e a Seção a que pertence. Seção Conceito em Metodologia Total por A B C Seção Dep. Pessoal 3 1 3 7 Séc. Técnica 0 4 3 7 Sec. Venda 4 3 4 11 Total por Conceito 7 8 10 25 Tabela 4.5: Vendas dos Produtos A, B, C, no supermercado Glória, no Primeiro semestre de 2005. Meses Vendas em 1000 R$ Total por A B C Mês Janeiro 40,0 25,2 8,1 73,3 Fevereiro 40,1 28,0 10,0 78,1 Março 35,1 28,0 15,4 78,5 Abril 28,2 20,2 22,3 70,7 Maio 14,1 25,6 28,1 67,8 Junho 5,0 30,0 35,2 70,2 Total por Produto 162,5 157,0 119,1 438,6 Fonte: Dados Hipotéticos. Tabela 4.6: Distribuição dos alunos da Faculdade Vitória, segundo suas notas em Matemática e Estatística. Estatística Matemática Totais em 0 |- 4 4 |- 7 7 |- 10 Estatística 0 |- 4 32 25 5 62 4 |- 7 20 183 82 285 7 |- 10 7 27 19 53 Totais em 59 235 106 400 Matemática Fonte: Dados Hipotéticos. Oliveira, D. C. R. e Oliveira, M. S. 13 ____/____/____
  • 19. 4.4. Exercícios – Parte I – A1 Tabela 4.7: Conjuntos de dados da empresa MB Indústria e Comércio Func. Seção* Admin. Direito Redação Estat. Inglês Metodologia Política Economia 1 P 8,0 9,0 8,6 9,0 B A 9,0 8,5 2 P 8,0 9,0 7,0 9,0 B C 6,5 8,0 3 P 8,0 9,0 8,0 8,0 D B 9,0 8,5 4 P 6,0 9,0 8,6 8,0 D C 6,0 8,5 5 P 8,0 9,0 8,0 9,0 A A 6,5 9,0 6 P 8,0 9,0 8,5 10,0 B A 6,5 9,5 7 P 8,0 9,0 8,2 8,0 D C 9,0 7,0 8 T 10,0 9,0 7,5 8,0 B C 6,0 8,5 9 T 8,0 9,0 9,4 9,0 B B 10,0 8,0 10 T 10,0 9,0 7,9 8,0 B C 9,0 7,5 11 T 8,0 9,0 8,6 10,0 C B 10,0 8,5 12 T 8,0 9,0 8,3 7,0 D B 6,5 8,0 13 T 6,0 9,0 7,0 7,0 B C 6,0 8,5 14 T 10,0 9,0 8,6 9,0 A B 10,0 7,5 15 V 8,0 9,0 8,6 9,0 C B 10,0 7,0 16 V 8,0 9,0 9,5 7,0 A A 9,0 7,5 17 V 8,0 9,0 6,3 8,0 D C 10,0 7,5 18 V 6,0 9,0 7,6 9,0 C C 6,0 8,5 19 V 6,0 9,0 6,8 4,0 D C 6,0 9,5 20 V 6,0 9,0 7,5 7,0 C B 6,0 8,5 21 V 8,0 9,0 7,7 7,0 D B 6,5 8,0 22 V 6,0 9,0 8,7 8,0 C A 6,0 9,0 23 V 8,0 9,0 7,3 10,0 C C 9,0 7,0 24 V 8,0 9,0 8,5 9,0 A A 6,5 9,0 25 V 8,0 9,0 7,0 9,0 B A 9,0 8,5 (*) P = Departamento Pessoal; T = Seção Técnica e V = Seção de Vendas. Fonte: Bussab e Morettin (2002) 1) Baseado na Tabela 4.7., construa a distribuição de freqüências da variável Metodologia, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 2) Ainda baseado na Tabela 4.7., construa uma Tabela de Classes de Freqüências para a variável Redação, com as freqüências absoluta e relativa, as porcentagens, dê um título e interprete. 3) Construa uma tabela de dupla entrada para as variáveis “seção” e conceito tirado em “Inglês” da Tabela 4.7. 4) Construa uma tabela de contingência para as variáveis “seção” e “notas em estatística” da Tabela 4.7. 5) Construa uma tabela de contingência para as variáveis “notas em redação” e “política” da Tabela 4.7. Oliveira, D. C. R. e Oliveira, M. S. 14 ____/____/____
  • 20. 5. MEDIDAS DE POSIÇÃO 5.1. Mínimo e Máximo O mínimo é a menor observação do conjunto de dados, enquanto que o máximo é a maior observação. Exemplo: Considere o seguinte conjunto de dados: 4, 5, 4, 6, 5, 8, 4. Logo, Min = __ e Max = __. 5.2. Moda Valor ou atributo que ocorre com maior freqüência. Exemplo (a): 2, 5, 2, 7, 8 Moda = __ . Exemplo (b): 3, 4, 2, 2, 4, 5 Moda = __ e __. “Conjunto _ _ _ _ _ _ _” Exemplo (c): 1, 2, 3, 4, 5 Moda = não tem “Conjunto _ _ _ _ _ _” Moda para dados agrupados em Tabelas de Freqüências Exemplo: Uma empresa de segurança deseja estudar qual o número de ligações a cobrar mais freqüentes que são recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Foram selecionadas 30 residências e observadas 10 ligações em cada residência. O resultado foi: Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30 Moda = __. Interpretação: __ ligações a cobrar foi o que ocorreu com maior freqüência. 5.3. Média Valor que representa o centro do conjunto de dados. Considere n observações de um conjunto de dados representados por x1, x2, ..., xn. A média desse conjunto é obtida pela soma das n observações dividido por n, ou seja, n x1 + x 2 + x3 + L + x n ∑x i x= = i =1 (5.1) n n Exemplo: Considere o seguinte conjunto de notas: 2, 5, 3, 7, 8. A média das notas é ___. Oliveira, D. C. R. e Oliveira, M. S. 15 ____/____/____
  • 21. Média para dados agrupados em Tabelas de Freqüências Exemplo: Considere novamente o exemplo da empresa de segurança, mas suponha que o interesse seja estudar o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Números de Ligações a Cobrar (xi) Número de Residências (ni) 0 2 1 5 2 15 3 8 Total 30 Nesse caso, a média é calculada levando em conta as freqüências de cada valor da variável, da seguinte forma: v ∑x n i i , x= i =1 (5.2) n onde v é a quantidade de resultados que a variável contém e ni a respectiva freqüência da i-ésima classe. Assim, para o exemplo temos: n ∑x n 0 x 2 + 1x5 + 2 x15 + 3x8 i i x= i =1 = = ___. n 30 Logo, o número médio de ligações a cobrar recebido em um determinado bairro de classe alta da cidade de São Paulo no mês de março é ___. 5.4. Mediana É o valor que divide os dados, isto é, metade dos dados será maior ou igual que a mediana e metade será menor ou igual. Considere a seguinte série de valores: 5, 2, 6, 13, 9, 15, 10. De acordo com a definição de mediana, o primeiro passo a ser dado é ordenar o conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a série em duas partes iguais é 9. Logo, a mediana é 9. Método prático para o cálculo da Mediana para dados em Rol 1) Ordenar os valores do menor para o maior, isto é, x(1),...., x(n), onde x(1) é o mínimo e x(n) é o máximo. n +1 2) Calcular em que posição estará a mediana nos dados ordenados através da fórmula: p = . 2 3) O valor da mediana será: (a) Se p for um número inteiro, então a mediana será o valor que está na posição p nos dados ordenados, isto é Mediana = x(p) Oliveira, D. C. R. e Oliveira, M. S. 16 ____/____/____
  • 22. (b) Se p não for inteiro, considere p- e p+ os inteiros imediatamente abaixo e acima de p, respectivamente. A mediana será a média dos valores que estão nas posições p- e p+ nos dados ordenados, ou seja, x (P− ) + x (P+ ) Mediana = 2 Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 2, 5 1º ordenar a série: __, __, __, __, __, __, __, __, __. n = __ . Logo, P = (n + 1)/2 é dado por P = (__+1)/2 = 5, ou seja, o 5º elemento da série ordenada será a mediana. Assim, mediana = __ . Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 1º ordenar a série: __, __, __, __, __, __, __, __, __, __. n = __. P = (n + 1)/2 é dado por P = (__+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º elementos da série ordenada, que representam os seguintes valores: __ e __, respectivamente. Pela definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja, Mediana = (2+3)/2 = 2,5. Notas: 1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. 2) Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2 elementos centrais da série. 3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor. 4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos: Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10, isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma. Mediana para dados agrupados em Tabelas de Freqüências Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana. Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a freqüência acumulada. Oliveira, D. C. R. e Oliveira, M. S. 17 ____/____/____
  • 23. Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 0 2 1 5 2 15 3 8 Total 30 Como o rol é par, pois n = __, a mediana é a média dos valores que estão nas posições 15 e 16. Ambos valores que estão nestas posições são __ ligações a cobrar recebida por residência, pois F3 é a primeira freqüência acumulada que contém os elementos 15 e 16. 5.5. Exercícios – Parte I – A1 1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 44, 60. Calcule o mínimo, máximo, moda, média e mediana. 2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir. Tabela 5.1: Dados Brutos (em horas) Máquina # Tempo de Falha Máquina # Tempo de Falha 1 150 14 171 2 291 15 197 3 93 16 200 4 53 17 262 5 2 18 255 6 65 19 286 7 183 20 206 8 144 21 179 9 223 22 232 10 197 23 165 11 187 24 155 12 197 25 203 13 213 Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete os resultados. 3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as seguintes: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela. Oliveira, D. C. R. e Oliveira, M. S. 18 ____/____/____
  • 24. 6. MEDIDAS DE DISPERSÃO 6.1. Motivação Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas na tabela abaixo: Tabela 6.1: Distribuição das Notas Provas Candidatos 1 2 3 4 5 6 A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7,0 8,0 8,0 9,0 10,0 C 7,5 8,0 8,0 8,0 8,0 8,5 Fonte: Dados Hipotéticos Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas: Candidatos A B C Média De modo análogo, nem adianta pensar em moda ou mediana, pois: Candidatos A B C Moda Mediana Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas, isto é, aquele que apresentou menor dispersão das notas. 6.2. Amplitude A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja, Amplitude = Máximo – Mínimo (6.1) Exemplo: Para os três candidatos temos: Candidatos A B C Amplitude 6.3. Variância e Desvio Padrão A variância mede a dispersão dos dados em torno de sua média. n ( x − x ) 2 + ( x 2 − x ) 2 + ( x3 − x ) 2 + L + ( x n − x ) 2 ∑ (x i − x)2 s2 = 1 = i =1 (6.2) n −1 n −1 Oliveira, D. C. R. e Oliveira, M. S. 19 ____/____/____
  • 25. O desvio padrão é simplesmente a raiz quadrada positiva da variância s = s2 (6.3) Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos: Notas Média Candidato A 7,0 7,5 8,0 8,0 8,5 9,0 8,0 (7 − 8) 2 + (7,5 − 8) 2 + (8 − 8) 2 + (8 − 8) 2 + (8,5 − 8) 2 + (9 − 8) 2 2,5 sA = 2 = = 0,5 s A = 0,5 ≅ 0,7 6 −1 5 Notas Média Candidato B 6,0 7,0 8,0 8,0 9,0 10,0 8,0 sB = 2 = = sB = 6 −1 5 Notas Média Candidato C 7,5 8,0 8,0 8,0 8,0 8,5 8,0 sC = 2 = = sC = 6 −1 5 Resumindo Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão A 8,0 8,0 8,0 B 8,0 8,0 8,0 C 8,0 8,0 8,0 Fórmula alternativa para o cálculo da variância Podemos calcular a variância através da seguinte fórmula alternativa: 1 ⎡⎛ n 2 ⎞ 2⎤ s2 = ⎢⎜ ∑ xi ⎟ − n ( x ) ⎥ (6.4) n − 1 ⎣⎝ i =1 ⎠ ⎦ . A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta tem a facilidade de apenas necessitar da informação da média ( x ) e da soma dos valores ao quadrado da variável ∑ xi . 2 ( ) Oliveira, D. C. R. e Oliveira, M. S. 20 ____/____/____
  • 26. 6.4. Intervalo Interquartil O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja, IQ = Q3 – Q1. (6.5) Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de dados ordenados. 6.5. Exercícios – Parte I – A1 1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular a variância, sabendo que a média é 5,4. 2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi: Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6 6,5 9 7 Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua decisão. 3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foram os seguintes: A 5 10 7 15 16 12 4 8 10 13 B 10 9 10 9 11 8 9 7 8 9 C 10 11 9 10 10 9 11 12 8 10 Em medidas clínicas três termos são utilizados freqüentemente: Precisão: refere-se à dispersão dos resultados Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor” Exato: refere-se ao instrumento preciso e não-viciado (a) Descreva os três instrumentos em termos das definições acima. (b) Qual instrumento lhe parece recomendável? Justifique sua resposta. Oliveira, D. C. R. e Oliveira, M. S. 21 ____/____/____
  • 27. 7. ESTATÍSTICA GRÁFICA 7.1. Gráficos para as Variáveis Qualitativas A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade. Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto. 7.1.1. Gráfico em Barras O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução. Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução. Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3333 33,33% Médio 18 0,5000 50,00% Superior 6 0,1667 16,67% Total n = 36 1,0000 100,00% Fonte: Bussab e Morettin (2002) 18 18 16 14 12 12 Freqüência (ni) 10 8 6 6 4 2 0 Fundamental Médio Superior Grau de Instrução Figura 7.1: Gráfico em Barras para a variável Grau de Instrução Oliveira, D. C. R. e Oliveira, M. S. 22 ____/____/____
  • 28. 7.1.2. Gráfico de Composição em Setores (“Pizza”) O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional. Para o exemplo anterior temos o seguinte gráfico: 50% Fundamental Médio 33% Superior 17% Figura 7.2: Gráfico em Setores para a variável Grau de Instrução 7.1.3. Gráfico de Pareto O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior freqüência, e assim por diante. 500 100 400 80 Porcentagem Acumulada Frequencia Absoluta 300 60 200 40 100 20 0 0 Modelo-Aviões MD-737 MD-777 MD-757 MD-767 MD-717 MD-747 MD-11 MD-90 Count 281 55 45 44 32 25 4 3 Percent 57,5 11,2 9,2 9,0 6,5 5,1 0,8 0,6 Cum % 57,5 68,7 77,9 86,9 93,5 98,6 99,4 100,0 Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company) Oliveira, D. C. R. e Oliveira, M. S. 23 ____/____/____
  • 29. A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 777, 757, 767, 717, 747, MD-11 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do total dos aviões produzidos em 2000. 90 Porcentagem Acumulada 80 100 Número de Defeitos 70 80 60 50 60 40 30 40 30 21 20 20 10 6 6 5 5 4 4 0 0 Tipo de Defeito o s s a s es s s rn da ra ci da nt va ro nto ra hu ên ca ie oi ut co pa ra n qü ifi sa l s/ g O o la s/ se br s da d a lu a m ro de o rte fe n or fu ra nã Pa s/ es e F rt d Fo te s he Pa lta ar al nt Fa P E Count 30 21 6 6 5 5 4 4 Percent 37,0 25,9 7,4 7,4 6,2 6,2 4,9 4,9 Cum % 37,0 63,0 70,4 77,8 84,0 90,1 95,1 100,0 Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta. Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou eliminá-los. Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) pertence à minoria da população (20%). Oliveira, D. C. R. e Oliveira, M. S. 24 ____/____/____
  • 30. 7.2. Gráficos para as Variáveis Quantitativas Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas. 7.2.1. Gráfico em Barras O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas. Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados. Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos. Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20 1 5 25 2 7 35 3 3 15 4 0 0 5 1 5 Total n = 20 100 Fonte: Bussab e Morettin (2002) Figura 7.5: Gráfico de Barras para a variável Números de Filhos Oliveira, D. C. R. e Oliveira, M. S. 25 ____/____/____
  • 31. 7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot) Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos. Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10. 2 3 4 5 6 7 8 9 10 Figura 7.6: Gráfico de Dispersão – Dot Plot 7.2.3. Histograma O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma será 1 (um). Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados: Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário Classe de Freqüência Proporção Porcentagem Densidade de Freqüência Salário (ni) (fi) (100 x fi) (di = fi/ai) 04 |-- 08 10 0,2778 27,78 0,0695 08 |-- 12 12 0,3333 33,33 0,0833 12 |-- 16 8 0,2222 22,22 0,0556 16 |-- 20 5 0,1389 13,89 0,0347 20 |-- 24 1 0,0278 2,78 0,0070 Total n = 36 1,0000 100,00 Oliveira, D. C. R. e Oliveira, M. S. 26 ____/____/____
  • 32. 0,09 0,08 0,07 0,0833 ensidade de Freqüência 0,06 0,0695 0,05 0,0556 0,04 0,03 0,0347 D 0,02 0,01 0,007 0 04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24 Classes de Salários Figura 7.7: Histograma da variável Salário 7.2.4. Gráfico em Linhas (ou Gráfico Temporal) É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo. Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. Ano Dívida Ano Dívida Ano Dívida 1956 2736 1973 14857 1990 123439 1957 2491 1974 20032 1991 123910 1958 2870 1975 25115 1992 135949 1959 3160 1976 32145 1993 145726 1960 3738 1977 37951 1994 148295 1961 3291 1978 52187 1995 159256 1962 3533 1979 55803 1996 179935 1963 3612 1980 64259 1997 199998 1964 3294 1981 73963 1998 241644 1965 3823 1982 85487 1999 241468 1966 3771 1983 93745 2000 236156 1967 3440 1984 102127 2001 226067 1968 4092 1985 105171 2002 227689 1969 4635 1986 111203 2003 235414 1970 6240 1987 121188 2004 220182 1971 8284 1988 113511 2005 187987 1972 11464 1989 115506 2006 191999 Fonte: IPEADATA Oliveira, D. C. R. e Oliveira, M. S. 27 ____/____/____