Cap´
   ıtulo 1

Introdu¸˜o
       ca

1.1     O que ´ Estat´
              e      ıstica?
N˜o h´ uma defini¸ao unica para Estat´
  a a                 c˜ ´               ıstica assim listaremos algumas possi-
bilidades. Kendall e Stuart, no seu manual cl´ssico A Teoria Avan¸ada de
                                                    a                     c
Estat´stica sugere: “A Estat´stica ´ o ramo do m´todo cient´fico que lida com
       ı                      ı     e                 e        ı
dados obtidos via contagem ou mensura¸ao de propriedades de popula¸oes de
                                         c˜                                c˜
fenˆmenos naturais”.
    o
    J´ Keeping em seu Introdu¸ao a Inferˆncia Estat´stica sugere:“A Estat´stica
      a                          c˜ `     e             ı                     ı
lida com vari´veis que flutuam de maneira mais ou menos imprevis´vel ... Car-
              a                                                        ı
acter´stica que denominamos aleatoriedade”.
      ı
    Hoel em Introdu¸ao a Estat´stica Matem´tica afirma: “Os m´todos estat´s-
                       c˜ `       ı            a                    e            ı
ticos s˜o, essencialmente, m´todos para lidar com dados que foram obtidos por
         a                    e
opera¸oes repetitivas”.
       c˜
    As trˆs defini¸oes acima s˜o consideradas Cl´ssicas ou Frequentistas. No en-
            e      c˜          a                  a
tanto, h´ alternativas, por exemplo, Chernoff e Moses em seu Teoria Elementar
           a
da Decis˜o ressaltam o car´ter de teoria de decis˜o da Estat´
            a                a                        a          ıstica: “H´ anos
                                                                            a
atr´s um estatistico poderia dizer que a Estat´stica lida com o processamento
    a                                            ı
de dados... hoje em dia um estat´stico, com mais probabilidade, diria que a
                                     ı
Estat´stica lida com a tomada de decis˜o frente a incertezas”.
       ı                               a
    J´ Savage em Os Fundamentos da Estat´stica adota um ponto de vista con-
      a                                      ı
hecido como Bayesiano afirmando: “Por Inferˆncia Estat´stica eu entendo a
                                                   e         ı
forma como entendemos as coisas ... e como ocorre que n´s adquirimos opini˜es
                                                          o                     o
praticamente idˆnticas com base nas mesmas evidˆncias”.
                 e                                   e


1.2     Partes da Est´
                     ıstica
1.2.1    Estat´
              ıstica Descritiva
Os dados brutos podem ocorrer em grandes quantidades. A Estat´    ıstica Des-
critiva preocupa-se em extrair informa¸ao util desses dados para isso utiliza-
                                      c˜ ´

                                        5
6                                                 CAP´               ¸˜
                                                     ITULO 1. INTRODUCAO

se de t´cnicas para organiza¸ao (tabelas e bancos de dados), representa¸ao
         e                     c˜                                            c˜
gr´fica (gr´ficos e t´cnicas de visualiza¸ao de dados multidimensionais) e re-
  a          a        e                  c˜
sumo (m´dias, medianas, modas, dispers˜es). Historicamente, foi justamente a
           e                              o
Estat´ıstica Descritiva que surgiu primeiro. Esta parte da Estat´
                                                                ıstica, j´ tendo
                                                                         a
sido objeto da disciplina Tratamento e An´lise de Dados e Informa¸oes, n˜o
                                             a                         c˜     a
ser´ objeto deste curso.
   a

1.2.2     Inferˆncia Estat´
               e          ıstica
Quando a informa¸ao se baseia em uma amostra dos casos poss´
                     c˜                                              ıveis ´ neces-
                                                                            e
s´rio generalizar a partir do particular n´ mero de casos estudados o universo
 a                                         u
de casos poss´ ıveis. Este processo de generaliza¸ao ´ conhecido como Inferˆncia
                                                 c˜ e                           e
Estat´ıstica. Por exemplo, dois exemplos claros onde a inferˆncia estat´
                                                               e             ıstica ´e
necess´ria s˜o a generaliza¸ao de resultados de pesquisas eleitorais e a utiliza¸ao
       a     a               c˜                                                   c˜
                            c˜                                           ´
de amostras para verifica¸ao da qualidade de materiais industriais. E poss´        ıvel
prever o resultado de uma elei¸ao envolvendo milh˜es de eleitores colhendo
                                  c˜                    o
amostras de alguns poucos milhares. Da mesma forma, a qualidade de mat´rias     e
primas ou de produtos manufaturados pode ser verificada monitorando apenas
uma pequena fra¸ao. A pergunta central ´: como ´ poss´ projetar resultados
                   c˜                      e        e     ıvel
da popula¸ao inteira com base em resultados obtidos em pequenas amostras?
           c˜
    Essa proje¸ao depende da introdu¸ao de Modelos Probabil´
                c˜                      c˜                       ısticos, que ser˜oa
um dos objetos centrais na primeira parte deste curso. T´cnicas avan¸adas de
                                                            e              c
inferˆncia estat´
     e           ıstica aparecer˜o no meio e no final deste curso.
                                a

1.2.3     Decis˜o Estat´
               a       ıstica
De posse de um Modelo Probabil´   ıstico e de um conjunto de dados ´ necess´rio
                                                                    e      a
tomar decis˜es quanto a validade do modelo dada a evidˆncia presente nos
            o                                                e
dados. Para isso a Estat´
                        ıstica fornece uma s´rie de t´cnicas na forma de Testes
                                              e      e
de Hip´teses que permitem tomar decis˜es de forma controlada.Os Testes de
      o                                   o
Hip´teses formam a segunda parte deste curso.
   o


1.3      Um pouco de Hist´ria
                         o
O primeiro a utilizar a palavra Statistik foi o alem˜o Gottfried Achenwall (1719-
                                                    a
1772), significando, aritm´tica do estado. Em sua origem a Estat´
                            e                                            ıstica es-
tava mais relacionada `s tarefas de coleta, tabula¸ao e apresenta¸ao de dados
                        a                            c˜             c˜
num´ricos, o que atualmente reconhecemos como Estat´
     e                                                   ıstica Descritiva.
    No Egito antigo coletavam-se dados populacionais e contabilizavam-se rique-
zas pelo menos desde 3050 a.C.. H´ documentos chineses contendo estat´
                                    a                                        ısticas
j´ em 2030 a.C.. Dois censos israelitas s˜o registrados no livro dos N´ meros do
 a                                         a                            u
Antigo Testamento e census fiscais j´ ocorriam na Gr´cia pelo menos em 594
                                       a                 e
a.C.. Sabe-se que um censo populacional ocorreu em Atenas em 309 a.C. e que
os romanos realizavam levantamentos extensivos de todos os tipos em todas as
partes de suas prov´ıncias.
´
1.3. UM POUCO DE HISTORIA                                                                   7

    Durante a idade m´dia h´ poucos relatos de levantamentos estat´
                           e      a                                             ısticos. H´  a
apenas levantamentos detalhados de terras da Igreja encomendados por Carlos
Magno em 762 e registros de terra franceses em anos subsequentes. O renasci-
mento dos levantamentos estat´        ısticos ocorreu no s´culo 16 com compila¸oes de
                                                             e                      c˜
dados organizadas por Sebastian M¨ nster na Alemanha, e Francesco Sansovino
                                            u
(1502) e Giovanni Votero (1589) na It´lia. Na Inglaterra iniciou-se no ano de
                                               a
1532 o registro de mortes e nascimentos em Londres.
    A era moderna da Estat´       ıstica teve in´   ıcio com a publica¸ao, em 1662, de
                                                                         c˜
Observa¸oes Pol´ticas e Naturais sobre as Taxas de Mortalidade em Londres
          c˜         ı
pelo inglˆs John Graunt (1620-1674). Graunt inaugurou nova fase, n˜o se con-
           e                                                                     a
tentando em fazer apenas uma contagem de casos, mas devotando particular
aten¸ao `s regularidades presentes nos fenˆmenos sociais. Passava assim da
     c˜ a                                             o
Estat´ ıstica Descritiva para os prim´rdios da Inferˆncia Estat´
                                           o                e           ıstica.
    A teoria de probabilidades conecta a Estat´          ıstica ` Matem´tica, fornecendo
                                                                 a        a
os fundamentos para a Inferˆncia Estat´
                                   e              ıstica. Assim, os pioneiros da teoria
estat´ıstica foram todos matem´ticos. Pierre Simon, o Marquˆs de Laplace (1749-
                                    a                                 e
1827), um dos grandes nomes da teoria de probabilidades, escreveu que uma
quest˜o formulada pelo jogador Chevalier de M´r´ teria “levado ` inven¸ao
       a                                                     e e                a          c˜
do c´lculo de probabilidades”ao alimentar uma polˆmica entre os matem´ticos
     a                                                        e                        a
Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665).
    Foi Carl Friedrich Gauss (1777-1855) que primeiro aplicou a teoria de prob-
abilidades ` investiga¸ao dos erros de observa¸ao, utilizando t´cnicas baseadas
              a           c˜                            c˜                e
no trabalho de Laplace. Gauss estava interessado em dados provenientes de ob-
serva¸oes astronˆmicas, tais como medidas repetidas da distˆncia entre a Terra
      c˜             o                                                 a
e o Sol. Gauss raciocinou que estas medidas seriam determinadas em parte pela
“verdadeira”distˆncia, mas tamb´m seriam afetadas por erros de observa¸ao em
                     a                  e                                            c˜
cada medida individual causados por uma multiplicidade de fatores. Ao estudar
as caracter´  ısticas destes erros, Gauss estava investigando basicamente os mes-
mos princ´   ıpios que determinam, por exemplo, como a porcentagem de eleitores
favorencendo um certo candidato em uma amostra difere da porcentagem real
da popula¸ao inteira. O paralelo ´ imediato: a porcentagem na amostra ´ de-
             c˜                           e                                             e
terminada primordialmente pela porcentagem real na popula¸ao, mas tamb´m c˜                e
varia segundo fatores particulares ` amostra. Assim pode-se dizer que h´ um
                                           a                                           a
erro de medida ao estimarmos a porcentagem da popula¸ao com base em uma
                                                                   c˜
amostra.
    O belga Adolph Quetelet (1796-1874) foi quem primeiro aplicou as id´ias da       e
inferˆncia estat´
     e             ıstica ` sociologia e pol´
                          a                    ıtica introduzindo o conceito de homem
m´dio. O inglˆs Francis Galton (1822-1911), primo de Charles Darwin, ini-
  e                e
ciou a grande onda que levou ` Estat´  a        ıstica como conhecemos hoje. Ap´s a      o
leitura de A Origem das Esp´cies de Darwin, Galton direcionou suas pesquisas
                                  e
a
` gen´tica, publicando em 1889 Heran¸a Natural. Outro inglˆs, Karl Pearson
       e                                       c                          e
(1857-1936) escreveria algum tempo depois, sobre o trabalho de Galton: “Eu
interpretei que... Galton ... quiz dizer que h´ uma categoria mais ampla do
                                                         a
que a conex˜o causal, que ´ a correla¸ao,... e que este novo conceito de cor-
                a               e             c˜
rela¸ao fez da psicologia, da antropologia, da medicina e da sociologia pass´veis
    c˜                                                                                   ı
de tratamento matem´tico. Foi Galton quem primeiro me libertou do precon-
                          a
8                                               CAP´               ¸˜
                                                   ITULO 1. INTRODUCAO

ceito de que boa matem´tica poderia apenas ser aplicada a conex˜es de causa e
                             a                                        o
efeito em fenˆmenos naturais. Ali, pela primeira vez havia a possibilidade ... de
                 o
adquirir conhecimento – t˜o v´lido quanto acredita-se que o conhecimento f´sico
                               a a                                            ı
seja – no campo das formas vivas e acima de tudo na area da conduta humana.”
                                                         ´
    Influenciado por Galton, Pearson fez um grande n´ mero de contribui¸oes
                                                            u                  c˜
a
` Inferˆncia Estat´
         e             ıstica desenvolvendo o conceito de correla¸ao, m´todos de
                                                                   c˜     e
regress˜o e introduzindo o teste de Qui-quadrado. Em 1906, William Gosset
         a
(1876-1937), assistiu a um dos cursos de Pearson. Gosset trabalhava para a
a cervejaria Guinness e, orientado por Pearson, foi o pioneiro da aplica¸ao da
                                                                            c˜
Estat´ ıstica ao controle de qualidade ao publicar, sob o pseudˆnimo Student,
                                                                    o
um trabalho no qual descrevia, pela primeira vez, a distribui¸ao t de Student.
                                                                  c˜
Ronald A. Fisher (1890-1962) graduou-se em Astronomia em Cambridge em
1912. Em 1913, Fisher enviou uma carta a Gosset em resposta a um artigo
na revista Biometrika, a carta continha uma justificativa te´rica para a dis-
                                                                  o
tribui¸ao t de Student. Em 1919 Fisher foi contratado pela Esta¸ao de Exper-
       c˜                                                             c˜
imentos Agr´    ıcolas de Rothamstead, l´ ele permaneceu por 14 anos e fez suas
                                          a
maiores contribui¸oes criando t´cnicas de estima¸ao, planejamento experimental
                      c˜            e               c˜
e an´lise de variˆncia. Em 1931 Fisher viajou para os EUA e passou um ver˜o
     a              a                                                            a
dando cursos em Iowa. Na audiˆncia estava o Professor George W. Snedecor
                                      e
(1882-1974) que foi respons´vel por popularizar o trabalho de Fisher nos EUA,
                                a
al´m de contribuir para a teoria da an´lise de variˆncia com as distribui¸oes F
  e                                        a           a                    c˜
de Snedecor.
    O livro A Gram´tica da Ciˆncia, publicado por Karl Pearson em 1892, teve
                        a          e
grande influˆncia sobre outro professor de Cambridge, Harold Jeffreys. Jef-
                e
freys retomou uma linha de trabalhos sobre l´gica indutiva de James Bernoulli
                                                 o
(1713), Thomas Bayes (1793) e Laplace (1812) e desenvolveu o novo conceito
de probabilidades subjetivas. Ao publicar artigos na Philosophical Magazine
em 1919 e 1921 (e o livro Theory of Pobability de 1939), Jeffreys deu in´     ıcio `
                                                                                  a
Inferˆncia Bayesiana e a uma polˆmica com Fisher em torno dos fundamentos
     e                                 e
da Estat´  ıstica que continua at´ os dias de hoje.
                                   e
    Em 1925 chegou a Londres, vindo da fronteira da Romˆnia com a R´ ssia,
                                                                e            u
Jerzy Neyman (1894-1981) com o objetivo de estudar com Karl Pearson. Logo
em sua chegada Neyman conheceu Gosset(Student) que o apresentou a Fisher.
Com o tempo Neyman tornou-se amigo pessoal do filho (e assistente) de Karl
Pearson, Egon Pearson (1895-1980), dessa amizade surgiu a, hoje cl´ssica, teoria
                                                                        a
dos testes de hip´teses. Quase toda Estat´
                     o                       ıstica que estudaremos neste curso foi
formulada at´ no m´ximo 1930, dessa maneira, paramos nossa hist´ria por aqui.
                e       a                                              o


1.4     Aplica¸˜es
              co
1.4.1    Administra¸˜o
                   ca
O conceito moderno de Sistemas de Informa¸ao vislumbra a integra¸ao de dados
                                          c˜                     c˜
provenientes das mais variadas ´reas de uma empresa e tamb´m a possibilidade
                                a                           e
de utilizar estes dados brutos na tomada de decis˜es sob incerteza. O modelo
                                                 o
1.5. PLANO DE CURSO                                                           9

b´sico contempla, portanto, o uso extensivo de ferramentas estat´
 a                                                              ısticas. A ´rea
                                                                           a
que estuda este tipo de aplica¸ao ´ conhecida como Inteligˆncia de Neg´cios
                               c˜ e                         e             o
(Business Intelligence).




1.4.2    Inteligˆncia Artificial
                e



Hoje em dia h´ dois paradigmas em Inteligˆncia Artificial: os sistemas especial-
                a                            e
istas e os sistemas adaptativos. Nos sistemas especialistas constroem-se ´rvores
                                                                          a
de decis˜o contemplando o m´ximo de possibilidades poss´ e uma fun¸ao que
         a                    a                            ıvel          c˜
determina qual ´ a decis˜o ´tima em uma dada circusntˆncia. Um exemplo pop-
                  e     a o                              a
ular de sistema especialista s˜o os jogadores artificiais de xadrez como o Deep
                              a
Blue da IBM que , recentemente, tem conseguido vencer grandes mestres. J´      a
os sistemas adaptativos utilizam a Estat´ ıstica Bayesiana para aprender atrav´s
                                                                              e
de exemplos. Nesta categoria est˜o as Redes Neurais Artificiais e as Redes
                                    a
Bayesianas utilizadas, por exemplo, no programa de aux´ dispon´ no sis-
                                                           ılio      ıvel
tema Windows.




1.5     Plano de Curso



O presente curso seguir´ o seguinte programa:
                       a
10                                             CAP´               ¸˜
                                                  ITULO 1. INTRODUCAO

     Data     Conte´do
                     u
     08/mar   Apresenta¸ao do curso, Introdu¸ao ` Teoria de Probabilidades
                           c˜                       c˜ a
     10/mar   Probabilidade F´     ısica e Probabilidade Subjetiva
     15/mar   Vari´veis Aleat´rias Discretas
                   a              o
     17/mar   Distribui¸ao Binomial e Multinomial
                          c˜
     22/mar   Poisson e Hipergeom´trica   e
     24/mar   Vari´veis Aleat´rias Cont´
                   a              o           ınuas
     29/mar   Distribui¸ao Normal (Gauss) e Aproxima¸ao ` Binomial
                          c˜                                c˜ a
     31/mar   Uniforme, Exponencial e Beta
     05/abr   Gama, Chi-Quadrado, t-Student e F-Snedecor
     07/abr   Vari´veis Aleat´rias Multidimensionais
                   a              o
     19/abr   Momentos e Momentos Centrais
     26/abr   PROVA 1 (PESO 1)
     28/abr   No¸oes de Simula¸ao
                 c˜                   c˜
     03/mai   Gera¸ao de N´ meros Aleat´rios
                    c˜          u               o
     05/mai   Importance Sampling e Rejection Sampling
     10/mai   Distribui¸oes Amostrais (M´dia e Propor¸ao)
                          c˜                     e          c˜
     12/mai   Estima¸ao Cl´ssica
                       c˜      a
     17/mai   Intervalos de Confian¸a      c
     19/mai   Prioris e Intervalos de Probabilidade
     24/mai   Utilidade e Introdu¸ao ` Teoria da Decis˜o
                                        c˜ a               a
     26/mai   Testes de Hip´teseo
     31/mai   Tomada de Decis˜o sobre M´dias
                                     a            e
     02/jun   Teste Cl´ssico para M´dia
                         a                  e
     07/jun   Testes para Propor¸oes    c˜
     09/jun   Testes para Variˆncia a
     14/jun   Inferˆncia para duas popula¸oes
                   e                             c˜
     23/jun   Regress˜o Linear
                        a
     28/jun   Regress˜o N˜o Linear
                        a     a
     30/jun   PROVA FINAL (PESO 2)
     05/jul   PROVA SUBSTITUTIVA


1.6      Referˆncias
              e
Para uma discuss˜o aprofundada das defini¸oes e partes da Estat´
                a                       c˜                    ıstica:
     • Barnett V., Comparative Statistical Inference, john Wiley & Sons, 1973.
Sobre a hist´ria da Estat´
            o            ıstica:
     • Eves, H.W., A very brief history os statistics, College Mathematics Jour-
       nal, Sep. 2002.
     • Peters, W.S., Counting for Something: Statistical Principles and Person-
       alities, Springer-Verlag, 1987.
     • David, F.N., Games, Gods and Gambling, Charles Griffin & Co., 1962.
ˆ
1.6. REFERENCIAS                                                            11

   • Stingler, S.M., Statistics on the Table, Harvard University Press, 1999.
   • The University of York, Life and Work of Statisticians,
     http://www.york.ac.uk/depts/maths/histstat/lifework.htm,
     vers˜o de 15/10/2005.
         a
Sobre as aplica¸oes citadas veja:
               c˜
   • Barbieri, C., BI- Business Inteligence: Modelagem e Tecnologia, Axcel
     Books , 2001.
   • Russel, S., Norvig P., Inteligˆncia Artificial, Ed. Campus, 2003.
                                   e
12   CAP´               ¸˜
        ITULO 1. INTRODUCAO

Estatística: introdução

  • 1.
    Cap´ ıtulo 1 Introdu¸˜o ca 1.1 O que ´ Estat´ e ıstica? N˜o h´ uma defini¸ao unica para Estat´ a a c˜ ´ ıstica assim listaremos algumas possi- bilidades. Kendall e Stuart, no seu manual cl´ssico A Teoria Avan¸ada de a c Estat´stica sugere: “A Estat´stica ´ o ramo do m´todo cient´fico que lida com ı ı e e ı dados obtidos via contagem ou mensura¸ao de propriedades de popula¸oes de c˜ c˜ fenˆmenos naturais”. o J´ Keeping em seu Introdu¸ao a Inferˆncia Estat´stica sugere:“A Estat´stica a c˜ ` e ı ı lida com vari´veis que flutuam de maneira mais ou menos imprevis´vel ... Car- a ı acter´stica que denominamos aleatoriedade”. ı Hoel em Introdu¸ao a Estat´stica Matem´tica afirma: “Os m´todos estat´s- c˜ ` ı a e ı ticos s˜o, essencialmente, m´todos para lidar com dados que foram obtidos por a e opera¸oes repetitivas”. c˜ As trˆs defini¸oes acima s˜o consideradas Cl´ssicas ou Frequentistas. No en- e c˜ a a tanto, h´ alternativas, por exemplo, Chernoff e Moses em seu Teoria Elementar a da Decis˜o ressaltam o car´ter de teoria de decis˜o da Estat´ a a a ıstica: “H´ anos a atr´s um estatistico poderia dizer que a Estat´stica lida com o processamento a ı de dados... hoje em dia um estat´stico, com mais probabilidade, diria que a ı Estat´stica lida com a tomada de decis˜o frente a incertezas”. ı a J´ Savage em Os Fundamentos da Estat´stica adota um ponto de vista con- a ı hecido como Bayesiano afirmando: “Por Inferˆncia Estat´stica eu entendo a e ı forma como entendemos as coisas ... e como ocorre que n´s adquirimos opini˜es o o praticamente idˆnticas com base nas mesmas evidˆncias”. e e 1.2 Partes da Est´ ıstica 1.2.1 Estat´ ıstica Descritiva Os dados brutos podem ocorrer em grandes quantidades. A Estat´ ıstica Des- critiva preocupa-se em extrair informa¸ao util desses dados para isso utiliza- c˜ ´ 5
  • 2.
    6 CAP´ ¸˜ ITULO 1. INTRODUCAO se de t´cnicas para organiza¸ao (tabelas e bancos de dados), representa¸ao e c˜ c˜ gr´fica (gr´ficos e t´cnicas de visualiza¸ao de dados multidimensionais) e re- a a e c˜ sumo (m´dias, medianas, modas, dispers˜es). Historicamente, foi justamente a e o Estat´ıstica Descritiva que surgiu primeiro. Esta parte da Estat´ ıstica, j´ tendo a sido objeto da disciplina Tratamento e An´lise de Dados e Informa¸oes, n˜o a c˜ a ser´ objeto deste curso. a 1.2.2 Inferˆncia Estat´ e ıstica Quando a informa¸ao se baseia em uma amostra dos casos poss´ c˜ ıveis ´ neces- e s´rio generalizar a partir do particular n´ mero de casos estudados o universo a u de casos poss´ ıveis. Este processo de generaliza¸ao ´ conhecido como Inferˆncia c˜ e e Estat´ıstica. Por exemplo, dois exemplos claros onde a inferˆncia estat´ e ıstica ´e necess´ria s˜o a generaliza¸ao de resultados de pesquisas eleitorais e a utiliza¸ao a a c˜ c˜ c˜ ´ de amostras para verifica¸ao da qualidade de materiais industriais. E poss´ ıvel prever o resultado de uma elei¸ao envolvendo milh˜es de eleitores colhendo c˜ o amostras de alguns poucos milhares. Da mesma forma, a qualidade de mat´rias e primas ou de produtos manufaturados pode ser verificada monitorando apenas uma pequena fra¸ao. A pergunta central ´: como ´ poss´ projetar resultados c˜ e e ıvel da popula¸ao inteira com base em resultados obtidos em pequenas amostras? c˜ Essa proje¸ao depende da introdu¸ao de Modelos Probabil´ c˜ c˜ ısticos, que ser˜oa um dos objetos centrais na primeira parte deste curso. T´cnicas avan¸adas de e c inferˆncia estat´ e ıstica aparecer˜o no meio e no final deste curso. a 1.2.3 Decis˜o Estat´ a ıstica De posse de um Modelo Probabil´ ıstico e de um conjunto de dados ´ necess´rio e a tomar decis˜es quanto a validade do modelo dada a evidˆncia presente nos o e dados. Para isso a Estat´ ıstica fornece uma s´rie de t´cnicas na forma de Testes e e de Hip´teses que permitem tomar decis˜es de forma controlada.Os Testes de o o Hip´teses formam a segunda parte deste curso. o 1.3 Um pouco de Hist´ria o O primeiro a utilizar a palavra Statistik foi o alem˜o Gottfried Achenwall (1719- a 1772), significando, aritm´tica do estado. Em sua origem a Estat´ e ıstica es- tava mais relacionada `s tarefas de coleta, tabula¸ao e apresenta¸ao de dados a c˜ c˜ num´ricos, o que atualmente reconhecemos como Estat´ e ıstica Descritiva. No Egito antigo coletavam-se dados populacionais e contabilizavam-se rique- zas pelo menos desde 3050 a.C.. H´ documentos chineses contendo estat´ a ısticas j´ em 2030 a.C.. Dois censos israelitas s˜o registrados no livro dos N´ meros do a a u Antigo Testamento e census fiscais j´ ocorriam na Gr´cia pelo menos em 594 a e a.C.. Sabe-se que um censo populacional ocorreu em Atenas em 309 a.C. e que os romanos realizavam levantamentos extensivos de todos os tipos em todas as partes de suas prov´ıncias.
  • 3.
    ´ 1.3. UM POUCODE HISTORIA 7 Durante a idade m´dia h´ poucos relatos de levantamentos estat´ e a ısticos. H´ a apenas levantamentos detalhados de terras da Igreja encomendados por Carlos Magno em 762 e registros de terra franceses em anos subsequentes. O renasci- mento dos levantamentos estat´ ısticos ocorreu no s´culo 16 com compila¸oes de e c˜ dados organizadas por Sebastian M¨ nster na Alemanha, e Francesco Sansovino u (1502) e Giovanni Votero (1589) na It´lia. Na Inglaterra iniciou-se no ano de a 1532 o registro de mortes e nascimentos em Londres. A era moderna da Estat´ ıstica teve in´ ıcio com a publica¸ao, em 1662, de c˜ Observa¸oes Pol´ticas e Naturais sobre as Taxas de Mortalidade em Londres c˜ ı pelo inglˆs John Graunt (1620-1674). Graunt inaugurou nova fase, n˜o se con- e a tentando em fazer apenas uma contagem de casos, mas devotando particular aten¸ao `s regularidades presentes nos fenˆmenos sociais. Passava assim da c˜ a o Estat´ ıstica Descritiva para os prim´rdios da Inferˆncia Estat´ o e ıstica. A teoria de probabilidades conecta a Estat´ ıstica ` Matem´tica, fornecendo a a os fundamentos para a Inferˆncia Estat´ e ıstica. Assim, os pioneiros da teoria estat´ıstica foram todos matem´ticos. Pierre Simon, o Marquˆs de Laplace (1749- a e 1827), um dos grandes nomes da teoria de probabilidades, escreveu que uma quest˜o formulada pelo jogador Chevalier de M´r´ teria “levado ` inven¸ao a e e a c˜ do c´lculo de probabilidades”ao alimentar uma polˆmica entre os matem´ticos a e a Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665). Foi Carl Friedrich Gauss (1777-1855) que primeiro aplicou a teoria de prob- abilidades ` investiga¸ao dos erros de observa¸ao, utilizando t´cnicas baseadas a c˜ c˜ e no trabalho de Laplace. Gauss estava interessado em dados provenientes de ob- serva¸oes astronˆmicas, tais como medidas repetidas da distˆncia entre a Terra c˜ o a e o Sol. Gauss raciocinou que estas medidas seriam determinadas em parte pela “verdadeira”distˆncia, mas tamb´m seriam afetadas por erros de observa¸ao em a e c˜ cada medida individual causados por uma multiplicidade de fatores. Ao estudar as caracter´ ısticas destes erros, Gauss estava investigando basicamente os mes- mos princ´ ıpios que determinam, por exemplo, como a porcentagem de eleitores favorencendo um certo candidato em uma amostra difere da porcentagem real da popula¸ao inteira. O paralelo ´ imediato: a porcentagem na amostra ´ de- c˜ e e terminada primordialmente pela porcentagem real na popula¸ao, mas tamb´m c˜ e varia segundo fatores particulares ` amostra. Assim pode-se dizer que h´ um a a erro de medida ao estimarmos a porcentagem da popula¸ao com base em uma c˜ amostra. O belga Adolph Quetelet (1796-1874) foi quem primeiro aplicou as id´ias da e inferˆncia estat´ e ıstica ` sociologia e pol´ a ıtica introduzindo o conceito de homem m´dio. O inglˆs Francis Galton (1822-1911), primo de Charles Darwin, ini- e e ciou a grande onda que levou ` Estat´ a ıstica como conhecemos hoje. Ap´s a o leitura de A Origem das Esp´cies de Darwin, Galton direcionou suas pesquisas e a ` gen´tica, publicando em 1889 Heran¸a Natural. Outro inglˆs, Karl Pearson e c e (1857-1936) escreveria algum tempo depois, sobre o trabalho de Galton: “Eu interpretei que... Galton ... quiz dizer que h´ uma categoria mais ampla do a que a conex˜o causal, que ´ a correla¸ao,... e que este novo conceito de cor- a e c˜ rela¸ao fez da psicologia, da antropologia, da medicina e da sociologia pass´veis c˜ ı de tratamento matem´tico. Foi Galton quem primeiro me libertou do precon- a
  • 4.
    8 CAP´ ¸˜ ITULO 1. INTRODUCAO ceito de que boa matem´tica poderia apenas ser aplicada a conex˜es de causa e a o efeito em fenˆmenos naturais. Ali, pela primeira vez havia a possibilidade ... de o adquirir conhecimento – t˜o v´lido quanto acredita-se que o conhecimento f´sico a a ı seja – no campo das formas vivas e acima de tudo na area da conduta humana.” ´ Influenciado por Galton, Pearson fez um grande n´ mero de contribui¸oes u c˜ a ` Inferˆncia Estat´ e ıstica desenvolvendo o conceito de correla¸ao, m´todos de c˜ e regress˜o e introduzindo o teste de Qui-quadrado. Em 1906, William Gosset a (1876-1937), assistiu a um dos cursos de Pearson. Gosset trabalhava para a a cervejaria Guinness e, orientado por Pearson, foi o pioneiro da aplica¸ao da c˜ Estat´ ıstica ao controle de qualidade ao publicar, sob o pseudˆnimo Student, o um trabalho no qual descrevia, pela primeira vez, a distribui¸ao t de Student. c˜ Ronald A. Fisher (1890-1962) graduou-se em Astronomia em Cambridge em 1912. Em 1913, Fisher enviou uma carta a Gosset em resposta a um artigo na revista Biometrika, a carta continha uma justificativa te´rica para a dis- o tribui¸ao t de Student. Em 1919 Fisher foi contratado pela Esta¸ao de Exper- c˜ c˜ imentos Agr´ ıcolas de Rothamstead, l´ ele permaneceu por 14 anos e fez suas a maiores contribui¸oes criando t´cnicas de estima¸ao, planejamento experimental c˜ e c˜ e an´lise de variˆncia. Em 1931 Fisher viajou para os EUA e passou um ver˜o a a a dando cursos em Iowa. Na audiˆncia estava o Professor George W. Snedecor e (1882-1974) que foi respons´vel por popularizar o trabalho de Fisher nos EUA, a al´m de contribuir para a teoria da an´lise de variˆncia com as distribui¸oes F e a a c˜ de Snedecor. O livro A Gram´tica da Ciˆncia, publicado por Karl Pearson em 1892, teve a e grande influˆncia sobre outro professor de Cambridge, Harold Jeffreys. Jef- e freys retomou uma linha de trabalhos sobre l´gica indutiva de James Bernoulli o (1713), Thomas Bayes (1793) e Laplace (1812) e desenvolveu o novo conceito de probabilidades subjetivas. Ao publicar artigos na Philosophical Magazine em 1919 e 1921 (e o livro Theory of Pobability de 1939), Jeffreys deu in´ ıcio ` a Inferˆncia Bayesiana e a uma polˆmica com Fisher em torno dos fundamentos e e da Estat´ ıstica que continua at´ os dias de hoje. e Em 1925 chegou a Londres, vindo da fronteira da Romˆnia com a R´ ssia, e u Jerzy Neyman (1894-1981) com o objetivo de estudar com Karl Pearson. Logo em sua chegada Neyman conheceu Gosset(Student) que o apresentou a Fisher. Com o tempo Neyman tornou-se amigo pessoal do filho (e assistente) de Karl Pearson, Egon Pearson (1895-1980), dessa amizade surgiu a, hoje cl´ssica, teoria a dos testes de hip´teses. Quase toda Estat´ o ıstica que estudaremos neste curso foi formulada at´ no m´ximo 1930, dessa maneira, paramos nossa hist´ria por aqui. e a o 1.4 Aplica¸˜es co 1.4.1 Administra¸˜o ca O conceito moderno de Sistemas de Informa¸ao vislumbra a integra¸ao de dados c˜ c˜ provenientes das mais variadas ´reas de uma empresa e tamb´m a possibilidade a e de utilizar estes dados brutos na tomada de decis˜es sob incerteza. O modelo o
  • 5.
    1.5. PLANO DECURSO 9 b´sico contempla, portanto, o uso extensivo de ferramentas estat´ a ısticas. A ´rea a que estuda este tipo de aplica¸ao ´ conhecida como Inteligˆncia de Neg´cios c˜ e e o (Business Intelligence). 1.4.2 Inteligˆncia Artificial e Hoje em dia h´ dois paradigmas em Inteligˆncia Artificial: os sistemas especial- a e istas e os sistemas adaptativos. Nos sistemas especialistas constroem-se ´rvores a de decis˜o contemplando o m´ximo de possibilidades poss´ e uma fun¸ao que a a ıvel c˜ determina qual ´ a decis˜o ´tima em uma dada circusntˆncia. Um exemplo pop- e a o a ular de sistema especialista s˜o os jogadores artificiais de xadrez como o Deep a Blue da IBM que , recentemente, tem conseguido vencer grandes mestres. J´ a os sistemas adaptativos utilizam a Estat´ ıstica Bayesiana para aprender atrav´s e de exemplos. Nesta categoria est˜o as Redes Neurais Artificiais e as Redes a Bayesianas utilizadas, por exemplo, no programa de aux´ dispon´ no sis- ılio ıvel tema Windows. 1.5 Plano de Curso O presente curso seguir´ o seguinte programa: a
  • 6.
    10 CAP´ ¸˜ ITULO 1. INTRODUCAO Data Conte´do u 08/mar Apresenta¸ao do curso, Introdu¸ao ` Teoria de Probabilidades c˜ c˜ a 10/mar Probabilidade F´ ısica e Probabilidade Subjetiva 15/mar Vari´veis Aleat´rias Discretas a o 17/mar Distribui¸ao Binomial e Multinomial c˜ 22/mar Poisson e Hipergeom´trica e 24/mar Vari´veis Aleat´rias Cont´ a o ınuas 29/mar Distribui¸ao Normal (Gauss) e Aproxima¸ao ` Binomial c˜ c˜ a 31/mar Uniforme, Exponencial e Beta 05/abr Gama, Chi-Quadrado, t-Student e F-Snedecor 07/abr Vari´veis Aleat´rias Multidimensionais a o 19/abr Momentos e Momentos Centrais 26/abr PROVA 1 (PESO 1) 28/abr No¸oes de Simula¸ao c˜ c˜ 03/mai Gera¸ao de N´ meros Aleat´rios c˜ u o 05/mai Importance Sampling e Rejection Sampling 10/mai Distribui¸oes Amostrais (M´dia e Propor¸ao) c˜ e c˜ 12/mai Estima¸ao Cl´ssica c˜ a 17/mai Intervalos de Confian¸a c 19/mai Prioris e Intervalos de Probabilidade 24/mai Utilidade e Introdu¸ao ` Teoria da Decis˜o c˜ a a 26/mai Testes de Hip´teseo 31/mai Tomada de Decis˜o sobre M´dias a e 02/jun Teste Cl´ssico para M´dia a e 07/jun Testes para Propor¸oes c˜ 09/jun Testes para Variˆncia a 14/jun Inferˆncia para duas popula¸oes e c˜ 23/jun Regress˜o Linear a 28/jun Regress˜o N˜o Linear a a 30/jun PROVA FINAL (PESO 2) 05/jul PROVA SUBSTITUTIVA 1.6 Referˆncias e Para uma discuss˜o aprofundada das defini¸oes e partes da Estat´ a c˜ ıstica: • Barnett V., Comparative Statistical Inference, john Wiley & Sons, 1973. Sobre a hist´ria da Estat´ o ıstica: • Eves, H.W., A very brief history os statistics, College Mathematics Jour- nal, Sep. 2002. • Peters, W.S., Counting for Something: Statistical Principles and Person- alities, Springer-Verlag, 1987. • David, F.N., Games, Gods and Gambling, Charles Griffin & Co., 1962.
  • 7.
    ˆ 1.6. REFERENCIAS 11 • Stingler, S.M., Statistics on the Table, Harvard University Press, 1999. • The University of York, Life and Work of Statisticians, http://www.york.ac.uk/depts/maths/histstat/lifework.htm, vers˜o de 15/10/2005. a Sobre as aplica¸oes citadas veja: c˜ • Barbieri, C., BI- Business Inteligence: Modelagem e Tecnologia, Axcel Books , 2001. • Russel, S., Norvig P., Inteligˆncia Artificial, Ed. Campus, 2003. e
  • 8.
    12 CAP´ ¸˜ ITULO 1. INTRODUCAO