SlideShare uma empresa Scribd logo
1 de 40
Métodos Quantitativos em
Ciência da Computação
Unidade 4: Comparando Sistemas Experimentais
Alexandre Duarte
PPGI/UFPB
Apresentação derivada dos slides originais de
Jussara Almeida.
Metodologia de Comparação de
Sistemas Experimentais
• Comparando quantitativamente sistemas
experimentais
• Algoritmos, protótipos, modelos, etc
• Significado de uma amostra
• Intervalos de Confiança
• Tomando decisões e comparando alternativas
• Considerações especiais sobre intervalo de
confiança
• Tamanho das amostras
Estimando os Intervalos de
Confiança
• Duas fórmulas para intervalo de confiança
– Acima de 30 amostras de qualquer distribuição:
distribuição-z
– Pequenas amostras de populações normalmente
distribuídas: distribuição-t (Student)
• Um erro comum: usar distribuição-t para
populações não normalmente distribuídas
Intervalo de Confiança da Média
da Amostra
• Chave: Teorema Central do Limite
– As médias de amostras são distribuídas pela
Normal
– Desde que sejam independentes
– Média das médias converge para a média da
população
A Distribuição-z
• Intervalo em cada lado da média
• O nível de significância α é pequeno para
níveis maiores de confiança (100*(1-α)%)
• Existem tabelas para a variável z!
A Distribuição t
• Fórmula quase a mesma
• Usável para populações normalmente distribuídas!
• Funciona para pequenas amostras
• Similar a Normal (bell-shaped, porém mais
espalhada) e depende do tamanho da amostra n
Tomando decisões sobre os dados
experimentais
• Sumarizar o erro na média da amostra (ou
qualquer outra estatística obtida a partir dela)
– Confiança = 1 – α
– Precisão = 100% - metade do intervalo/média
• Prover elementos para saber se a amostra é
significativa (estatísticamente)
• Permitir comparações à luz dos erros
Testando a Média Zero
• A média da população é significativamente não-zero?
• Se o intervalo de confiança inclui 0, a resposta é não!
• Pode-se testar para qualquer valor:
• Suponha IC de 90% para precisão da média do método A
– 0.875 ± 0.12 (0.755, 0.995)
• A precisão pode ser 0.96?
– Sim, com 90% de confiança, já que o IC contém 0.96
• Qual o erro máximo na minha estimativa da precisão média?
• Com 90% de confiança, o erro máximo é
– (0.995-0.875)/0.875 = 13.2%
Comparando Alternativas
• Num projeto de pesquisa, geralmente procura-se o
melhor sistema, o melhor algoritmo
– Exemplos:
• Determinar o sistema que apresenta a melhor relação QoS-preço,
onde QoS é medido experimentalmente
• Mostrar que um algoritmo Y executa mais rápido que outros
existentes e sejam similares funcionalmente
• Métodos diferentes para observações pareadas (com
par) e não pareadas (sem par)
– Pareadas se o i-ésimo teste em cada sistema foi o mesmo
– Não pareadas, caso contrário
Comparando Observações
Pareadas: método
1. Tratar o problema como uma amostra de n pares
2. Para cada teste: calcule as diferenças dos resultados
3. Calcule o intervalo de confiança para a diferença média
4. Se o intervalo inclui 0 (zero), os objetos de comparação (ex.:
sistemas, algoritmos, etc) não são diferentes com a dada
confiança
5. Se o intervalo não inclui zero, o sinal da diferença indica qual
dos objetos é melhor, baseado nos dados experimentais.
Exemplo: Comparando
Observações Pareadas
• Considere dois métodos de busca A e B que são avaliados em função # de
documentos relevantes (em um total de 100) que cada um retorna
• Num testes com várias consultas, o algoritmo A retorna mais documentos
relevantes que o B?
• Amostra de testes com 14 consultas:
Exemplo: Comparando
observações pareadas
• Diferenças entre os algoritmos A – B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1
-1 6
• Média 1.4, intervalo de 90% => (-0.75, 3.6)
– Não se pode rejeitara a hipótese de que a diferença é 0 e que
portanto os algoritmos têm desempenho similar
– Intervalo de 79% é (0.10, 2.76), A tem desempenho melhor que B
Comparando Observações Não
Pareadas
o número de experimentos comuns não é o mesmo!
• Considere as médias amostrais para
cada uma das alternativas A e B
• Comece com os intervalos de
confiança
– Se não houver sobreposição:
• Algoritmos são diferentes e a maior média
é melhor (pelas métricas usadas)
– Se houver sobreposição e cada IC
contém a outra média
• Algoritmos não são direrentes neste nível
– Se houver sobreposição e uma média
não está no outro IC
• É preciso fazer o teste-t
O Teste-t (1)
1. Compute as médias amostrais xa e xb
2. Compute os desvio-padrões (sa e sb)
3. Compute a diferença das médias xa - xb
4. Compute o desvio padrão das diferenças
O teste-t (2)
5. Compute os graus efetivos de liberdade
6. Compute o intervalo de confiança
7. Se o intervalo inclui zero, não há diferença
Exemplo
• O tempo de processamento necessário para executar
uma tarefa foi medido em dois sistemas
– Os tempos no sistema A foram: {5.36, 16.57, 0.62, 1.41,
0.64, 7.26}
– Os tempos no sistema B foram: {19.12, 3.52, 3.38, 2.50,
3.60, 1.74}
• Os dois sistemas são significativamente diferentes?
Exemplo:
• Sistema A:
– Média xA = 5.31
– Variância s2
A = 37.92
– nA = 6
• Sistema B:
– Média xB = 5.64
– Variância s2
B = 44.11
– nB = 6
Exemplo
• Diferença das médias xA – xB = -0.33
• Desvio padrão das diferenças s = 3.698
• Graus de liberdade v = 11.921
• 0.95-quantil da VA t com 12 graus de liberdade
– t[0.95,12]= 1.71
• IC de 95% para a diferença das médias = -0,33 ± 1.71
* 3.698 = (-6.64, 5.99)
IC inclui 0, logo os dois sistemas NÃO são diferentes
neste nível de confiança
Comparando Proporções
• Se n1 de n experimentos dão um certo resultado, então
pode-se dizer que a proporção das amostras é dada
por p = n1 / n
• Exemplos:
– A precisão do algoritmo A de recuperação de informação
foi superior a precisão de B em 55 dos 100 casos
analisados. Com 90% de confiança pode-se dizer que A
superar B em precisão?
– Em uma amostra com 5000 elementos, 1000 tem
percentual de “system time” inferior a 20%. Com 95% de
confiança, qual o intervalo de confiança onde o sistema
operacional gasta menos de 20% dos recursos?
Comparando Proporções
• Se n1 de n experimentos dão um certo
resultado, então o intervalo de confiança (IC)
para a proporção é:
• A fórmula acima é baseada numa
aproximação da distribuição binomial por uma
normal que é valida somente se np > 10
Exemplo
• Um experimento foi repetido em dois
sistemas 40 vezes. O sistema A foi superior ao
B em 26 repetições. Podemos dizer que, com
confiança de 99%, o sistema A é superior ao
sistema B? E com uma confiança de 90%?
Exemplo
• Proporção p = 26/40 = 0.65
• Desvio padrão da estimativa de proporção:
• IC de 99% = 0.65 ± 2.576 * 0.075 = (0.46, 0.84)
– IC inclui 0.5, logo A não é superior a B neste nível de
confiança
• IC de 90% = 0.65 ± 1.645 * 0.075 = (0.53, 0.77)
– IC não inclui 0.5, logo A é superior a B neste nível de
confiança
Considerações Especiais
1. Selecionar um intervalo de confiança para
trabalhar
2. Teste de Hipótese
3. Intervalos de confiança de um único lado
A Seleção de um Intervalo de
Confiança
• Depende do custo de se estar errado!!!
– Produção de um paper científico
– Demonstração de um novo algoritmo experimentalmente
– Geração de um produto
• Os níveis de confiança entre 90% e 95% são os valores
comuns para papers científicos (em Computação)
• Em geral, use o maior valor que lhe permita
estabelecer conclusões sólidas num processo
experimental!
• Mas é melhor ser consistente durante todo o paper
que se está trabalhando
Teste de Hipótese
• A hipótese nula (H0) é comum em estatísticas e
tratamento de dados experimentais
• Pode ser confuso em negativas duplas
• Provê menos informação que intervalos de
confiança
• É em geral mais difícil de interpretar/entender
• Deve-se entender que rejeitar a hipótese nula
significa que o resultado é significativo
Intervalos de Confiança e Testes de
Hipótese
• Teste de hipótese
– Hipótese nula H0 versus hipótese alternativa HA
• H0 = métodos A e B geram resultados estatisticamente iguais
– (H0: μA = μB)
• HA = métodos geram resultados estatisticamente diferentes
– (HA: μA ≠ μB)
– Computa alguma estatística dos dados que permita testar as
hipótese
• Computa
• Faz referência a alguma distribuição que mostra como a
estatística seria distribuída se a hipótese nula fosse
verdadeira
• Ex. Já sabemos que a distribuição das médias segue uma
distribuição Normal
xA − xB
Intervalos de Confiança e Testes de
Hipótese
• Com base na distribuição de referência, computa a
probabilidade de se obter uma discrepância tão grande
quanto a observada e H0 ainda ser verdadeira
– p-value
• Quanto menor o p-value, menos provável é que a
hipótese nula seja verdade e, mais significativo
(estatisticamente) o resultado é
– Quanto menor o p-value, maior a chance de: μA ≠ μB
• Rejeita hipótese nula se p-value < nível de significância
α
• Nível de significância: probabilidade de rejeitar a
hipótese nula quando ela é verdadeira
Intervalos de Confiança de um-
Lado
• Intervalos de dois lados testam se a média está fora
ou dentro de uma variação definida pelos dois lados
do intervalo
• Teste de intervalos de um único lado são úteis
somente quanto se está interessado em um limite
– Ex.: Com 90% de confiança, qual o intervalo para o tempo
médio de resposta ser menor que determinado valor (e.g.
a média alcançada)
Intervalos de Confiança de um-
Lado
• Limite inferior
Limite superior
Intervalos de Confiança de um-
Lado: Exemplo
• Tempo entre quedas foi medido em dois
sistemas A e B. Os valores de média e desvio
padrão obtidos estão listados abaixo. O
sistema A é mais sucetível a falhas do que o
sistema B
Sistema Número Média Desvio Padrão
A 972 124.10 198.20
B 153 141.47 226.11
Exemplo
• Solução: obter IC para diferença média usando procedimento
de análise das observações não pareadas
• Diferença das médias: XA – XB = 124.1 – 141.47 = -17.37
• Desvio padrão da diferença média
Exemplo
• Como os graus de liberdade são mais que 30,
podemos usar a normal unitária ao invés da
distribuição t. Além disto, como é um intervalo de
um único lado, usamos z90 = 1.28 para um IC de 90%
• Como o IC contém valores positivos, não podemos
dizer que A é mais suscetível a falhas do que B
ICs: 1 lado ou 2 lados?
• Se usarmos ICs de 2 lados, podemos dizer:
– Tenho 90% de confiança de que a média está
entre os dois extremos
• Se usamos ICs de 1 lado, podemos dizer:
– Tenho 90% de confiança de que a média é no
máximo (no mínimo) o extremo superior (inferior)
Tamanho das Amostras
• Amostras maiores levam a intervalos mais
estreitos
– Obtem-se menores valores de t à medida que n
cresce
• Coleta de amostras pode ser um processo caro!
– Qual o mínimo que se pode querer num
experimento?
• Comece com um pequeno número de medições
preliminares para estimar a variância
Escolha do Tamanho da Amostra
• Suponha que queremos determinar o intervalo de
confiança x com uma certa largura
Escolhendo o tamanho da amostra
• Para obter um erro percentual de ± r%
• Para uma proporção p = n1/n
Escolha do Tamanho da Amostra:
Exemplo 1
• Cinco execuções de uma query levaram 22.5,
19.8, 21.1, 26.7, 20.2 segundos
• Quantas execuções devem se executadas para
obter ± 5% em um IC com nível de confiança
de 90% ?
• x =22.1, s = 2.8, t = 2.132
Escolha do Tamanho da Amostra:
Exemplo 2
• Suponha que o tempo médio para gravar um arquivo
é 7,94 seg com desvio padrão de 2,14.
Aproximadamente, quantas medidas serão
requeridas se nós desejamos um IC de 90% e que a
média esteja dentro de um intervalo de 3,5%.
Escolha do Tamanho da Amostra:
Exemplo 3
• Dois algoritmos para transmissao de pacotes foram analisados. Medicoes
preliminares mostraram que o algoritmo A perde 0.5% dos pacotes e o
algoritmo B perde 0.6%. Quantos pacotes precisamos observar para
podermos dizer com confianca de 95% que o algoritmo A e melhor que o
algoritmo B?
Escolha do Tamanho da Amostra:
Exemplo 3
• Para podermos dizer que algoritmo A e melhor que algoritmo
B, com 95% de confianca, o limite superior do intervalo de A
tem que ser menor que o limite inferior do intervalo de B

Mais conteúdo relacionado

Mais procurados

Apresentação | Gestão de QA | Modelo Human driven | Qualidade de software | ...
Apresentação | Gestão de QA |  Modelo Human driven | Qualidade de software | ...Apresentação | Gestão de QA |  Modelo Human driven | Qualidade de software | ...
Apresentação | Gestão de QA | Modelo Human driven | Qualidade de software | ...Rosa Sampaio
 
Aula09 SD - Replicação e Consistência
Aula09 SD - Replicação e ConsistênciaAula09 SD - Replicação e Consistência
Aula09 SD - Replicação e ConsistênciaMessias Batista
 
A Evolucao dos Processos de Desenvolvimento de Software
A Evolucao dos Processos de Desenvolvimento de SoftwareA Evolucao dos Processos de Desenvolvimento de Software
A Evolucao dos Processos de Desenvolvimento de SoftwareRobson Silva Espig
 
Qualidade de Software - Introdução
Qualidade de Software - Introdução Qualidade de Software - Introdução
Qualidade de Software - Introdução Elaine Cecília Gatto
 
1 requisitos funcionais e não funcionais ok
1  requisitos funcionais e não funcionais ok1  requisitos funcionais e não funcionais ok
1 requisitos funcionais e não funcionais okMarcos Morais de Sousa
 
Aps lista de exercícios
Aps lista de exercíciosAps lista de exercícios
Aps lista de exercíciosGuilherme
 
Aula básica de informática - Hardware e Software
Aula básica de informática - Hardware e SoftwareAula básica de informática - Hardware e Software
Aula básica de informática - Hardware e Softwarepassecursinho
 
Sistemas de Telecomunicações - Aula 15 - História da fibra óptica
Sistemas de Telecomunicações - Aula 15 - História da fibra ópticaSistemas de Telecomunicações - Aula 15 - História da fibra óptica
Sistemas de Telecomunicações - Aula 15 - História da fibra ópticaLeinylson Fontinele
 
Aula 2. Fatores Humanos em IHC
Aula 2. Fatores Humanos em IHCAula 2. Fatores Humanos em IHC
Aula 2. Fatores Humanos em IHCSilvia Dotta
 
Atividade fundamentos-de-redes
Atividade fundamentos-de-redesAtividade fundamentos-de-redes
Atividade fundamentos-de-redesArlimar Jacinto
 

Mais procurados (20)

Apresentação | Gestão de QA | Modelo Human driven | Qualidade de software | ...
Apresentação | Gestão de QA |  Modelo Human driven | Qualidade de software | ...Apresentação | Gestão de QA |  Modelo Human driven | Qualidade de software | ...
Apresentação | Gestão de QA | Modelo Human driven | Qualidade de software | ...
 
Aula09 SD - Replicação e Consistência
Aula09 SD - Replicação e ConsistênciaAula09 SD - Replicação e Consistência
Aula09 SD - Replicação e Consistência
 
Transmissão serial e paralela
Transmissão serial e paralelaTransmissão serial e paralela
Transmissão serial e paralela
 
A Evolucao dos Processos de Desenvolvimento de Software
A Evolucao dos Processos de Desenvolvimento de SoftwareA Evolucao dos Processos de Desenvolvimento de Software
A Evolucao dos Processos de Desenvolvimento de Software
 
Qualidade de Software - Introdução
Qualidade de Software - Introdução Qualidade de Software - Introdução
Qualidade de Software - Introdução
 
Aula 07 - Os tipos de computador - Operador de computador
Aula 07 - Os tipos de computador - Operador de computadorAula 07 - Os tipos de computador - Operador de computador
Aula 07 - Os tipos de computador - Operador de computador
 
1 requisitos funcionais e não funcionais ok
1  requisitos funcionais e não funcionais ok1  requisitos funcionais e não funcionais ok
1 requisitos funcionais e não funcionais ok
 
Fases de um projeto
Fases de um projetoFases de um projeto
Fases de um projeto
 
Aps lista de exercícios
Aps lista de exercíciosAps lista de exercícios
Aps lista de exercícios
 
Algoritmos - Pseudocódigo
Algoritmos - PseudocódigoAlgoritmos - Pseudocódigo
Algoritmos - Pseudocódigo
 
Prototipação
PrototipaçãoPrototipação
Prototipação
 
Aula básica de informática - Hardware e Software
Aula básica de informática - Hardware e SoftwareAula básica de informática - Hardware e Software
Aula básica de informática - Hardware e Software
 
Sistemas de Telecomunicações - Aula 15 - História da fibra óptica
Sistemas de Telecomunicações - Aula 15 - História da fibra ópticaSistemas de Telecomunicações - Aula 15 - História da fibra óptica
Sistemas de Telecomunicações - Aula 15 - História da fibra óptica
 
Aula 2. Fatores Humanos em IHC
Aula 2. Fatores Humanos em IHCAula 2. Fatores Humanos em IHC
Aula 2. Fatores Humanos em IHC
 
So-mod-1
So-mod-1So-mod-1
So-mod-1
 
Introdução a IHC
Introdução a IHCIntrodução a IHC
Introdução a IHC
 
Atividade fundamentos-de-redes
Atividade fundamentos-de-redesAtividade fundamentos-de-redes
Atividade fundamentos-de-redes
 
Programacao para Web I Plano de Ensinodoc
Programacao para Web I Plano de EnsinodocProgramacao para Web I Plano de Ensinodoc
Programacao para Web I Plano de Ensinodoc
 
Aula 6 - SAM - Imagens
Aula 6 - SAM - ImagensAula 6 - SAM - Imagens
Aula 6 - SAM - Imagens
 
Qualidade de software
Qualidade de softwareQualidade de software
Qualidade de software
 

Semelhante a Comparando Sistemas Experimentais: Intervalos de Confiança e Testes de Hipótese

Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Kleverton Saath
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricosRosario Cação
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatísticaJuliano van Melis
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 
Calibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em SaúdeCalibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em SaúdeTazio Vanni
 
Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Douglas Mendes
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalssuser98ac96
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoAlexandre Duarte
 
Apresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostasApresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostasBianca Galvão
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxNunoSilva599593
 

Semelhante a Comparando Sistemas Experimentais: Intervalos de Confiança e Testes de Hipótese (20)

Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 
Aula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdfAula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdf
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Tópico 2 Intervalo de Confiança
Tópico 2   Intervalo de ConfiançaTópico 2   Intervalo de Confiança
Tópico 2 Intervalo de Confiança
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
Conceitos Básicos de Estatística II
Conceitos Básicos de Estatística IIConceitos Básicos de Estatística II
Conceitos Básicos de Estatística II
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatística
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Calibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em SaúdeCalibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em Saúde
 
CONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdfCONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdf
 
Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
 
Metricas forecasting
Metricas forecastingMetricas forecasting
Metricas forecasting
 
Apresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostasApresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostas
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 
Teoria de Erros
Teoria de Erros Teoria de Erros
Teoria de Erros
 

Mais de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Último

Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxfabiolalopesmartins1
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinhaMary Alvarenga
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024Jeanoliveira597523
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
Aula 1, 2 Bacterias Características e Morfologia.pptx
Aula 1, 2  Bacterias Características e Morfologia.pptxAula 1, 2  Bacterias Características e Morfologia.pptx
Aula 1, 2 Bacterias Características e Morfologia.pptxpamelacastro71
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxLuizHenriquedeAlmeid6
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxOsnilReis1
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfmirandadudu08
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
FCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirFCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirIedaGoethe
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfAdrianaCunha84
 

Último (20)

Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
HORA DO CONTO4_BECRE D. CARLOS I_2023_2024
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptx
 
Bullying - Texto e cruzadinha
Bullying        -     Texto e cruzadinhaBullying        -     Texto e cruzadinha
Bullying - Texto e cruzadinha
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
Aula 1, 2 Bacterias Características e Morfologia.pptx
Aula 1, 2  Bacterias Características e Morfologia.pptxAula 1, 2  Bacterias Características e Morfologia.pptx
Aula 1, 2 Bacterias Características e Morfologia.pptx
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
 
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptxATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
ATIVIDADE AVALIATIVA VOZES VERBAIS 7º ano.pptx
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdf
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
FCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirFCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimir
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdf
 

Comparando Sistemas Experimentais: Intervalos de Confiança e Testes de Hipótese

  • 1. Métodos Quantitativos em Ciência da Computação Unidade 4: Comparando Sistemas Experimentais Alexandre Duarte PPGI/UFPB Apresentação derivada dos slides originais de Jussara Almeida.
  • 2. Metodologia de Comparação de Sistemas Experimentais • Comparando quantitativamente sistemas experimentais • Algoritmos, protótipos, modelos, etc • Significado de uma amostra • Intervalos de Confiança • Tomando decisões e comparando alternativas • Considerações especiais sobre intervalo de confiança • Tamanho das amostras
  • 3. Estimando os Intervalos de Confiança • Duas fórmulas para intervalo de confiança – Acima de 30 amostras de qualquer distribuição: distribuição-z – Pequenas amostras de populações normalmente distribuídas: distribuição-t (Student) • Um erro comum: usar distribuição-t para populações não normalmente distribuídas
  • 4. Intervalo de Confiança da Média da Amostra • Chave: Teorema Central do Limite – As médias de amostras são distribuídas pela Normal – Desde que sejam independentes – Média das médias converge para a média da população
  • 5. A Distribuição-z • Intervalo em cada lado da média • O nível de significância α é pequeno para níveis maiores de confiança (100*(1-α)%) • Existem tabelas para a variável z!
  • 6. A Distribuição t • Fórmula quase a mesma • Usável para populações normalmente distribuídas! • Funciona para pequenas amostras • Similar a Normal (bell-shaped, porém mais espalhada) e depende do tamanho da amostra n
  • 7. Tomando decisões sobre os dados experimentais • Sumarizar o erro na média da amostra (ou qualquer outra estatística obtida a partir dela) – Confiança = 1 – α – Precisão = 100% - metade do intervalo/média • Prover elementos para saber se a amostra é significativa (estatísticamente) • Permitir comparações à luz dos erros
  • 8. Testando a Média Zero • A média da população é significativamente não-zero? • Se o intervalo de confiança inclui 0, a resposta é não! • Pode-se testar para qualquer valor: • Suponha IC de 90% para precisão da média do método A – 0.875 ± 0.12 (0.755, 0.995) • A precisão pode ser 0.96? – Sim, com 90% de confiança, já que o IC contém 0.96 • Qual o erro máximo na minha estimativa da precisão média? • Com 90% de confiança, o erro máximo é – (0.995-0.875)/0.875 = 13.2%
  • 9. Comparando Alternativas • Num projeto de pesquisa, geralmente procura-se o melhor sistema, o melhor algoritmo – Exemplos: • Determinar o sistema que apresenta a melhor relação QoS-preço, onde QoS é medido experimentalmente • Mostrar que um algoritmo Y executa mais rápido que outros existentes e sejam similares funcionalmente • Métodos diferentes para observações pareadas (com par) e não pareadas (sem par) – Pareadas se o i-ésimo teste em cada sistema foi o mesmo – Não pareadas, caso contrário
  • 10. Comparando Observações Pareadas: método 1. Tratar o problema como uma amostra de n pares 2. Para cada teste: calcule as diferenças dos resultados 3. Calcule o intervalo de confiança para a diferença média 4. Se o intervalo inclui 0 (zero), os objetos de comparação (ex.: sistemas, algoritmos, etc) não são diferentes com a dada confiança 5. Se o intervalo não inclui zero, o sinal da diferença indica qual dos objetos é melhor, baseado nos dados experimentais.
  • 11. Exemplo: Comparando Observações Pareadas • Considere dois métodos de busca A e B que são avaliados em função # de documentos relevantes (em um total de 100) que cada um retorna • Num testes com várias consultas, o algoritmo A retorna mais documentos relevantes que o B? • Amostra de testes com 14 consultas:
  • 12. Exemplo: Comparando observações pareadas • Diferenças entre os algoritmos A – B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1 -1 6 • Média 1.4, intervalo de 90% => (-0.75, 3.6) – Não se pode rejeitara a hipótese de que a diferença é 0 e que portanto os algoritmos têm desempenho similar – Intervalo de 79% é (0.10, 2.76), A tem desempenho melhor que B
  • 13. Comparando Observações Não Pareadas o número de experimentos comuns não é o mesmo! • Considere as médias amostrais para cada uma das alternativas A e B • Comece com os intervalos de confiança – Se não houver sobreposição: • Algoritmos são diferentes e a maior média é melhor (pelas métricas usadas) – Se houver sobreposição e cada IC contém a outra média • Algoritmos não são direrentes neste nível – Se houver sobreposição e uma média não está no outro IC • É preciso fazer o teste-t
  • 14. O Teste-t (1) 1. Compute as médias amostrais xa e xb 2. Compute os desvio-padrões (sa e sb) 3. Compute a diferença das médias xa - xb 4. Compute o desvio padrão das diferenças
  • 15. O teste-t (2) 5. Compute os graus efetivos de liberdade 6. Compute o intervalo de confiança 7. Se o intervalo inclui zero, não há diferença
  • 16. Exemplo • O tempo de processamento necessário para executar uma tarefa foi medido em dois sistemas – Os tempos no sistema A foram: {5.36, 16.57, 0.62, 1.41, 0.64, 7.26} – Os tempos no sistema B foram: {19.12, 3.52, 3.38, 2.50, 3.60, 1.74} • Os dois sistemas são significativamente diferentes?
  • 17. Exemplo: • Sistema A: – Média xA = 5.31 – Variância s2 A = 37.92 – nA = 6 • Sistema B: – Média xB = 5.64 – Variância s2 B = 44.11 – nB = 6
  • 18. Exemplo • Diferença das médias xA – xB = -0.33 • Desvio padrão das diferenças s = 3.698 • Graus de liberdade v = 11.921 • 0.95-quantil da VA t com 12 graus de liberdade – t[0.95,12]= 1.71 • IC de 95% para a diferença das médias = -0,33 ± 1.71 * 3.698 = (-6.64, 5.99) IC inclui 0, logo os dois sistemas NÃO são diferentes neste nível de confiança
  • 19. Comparando Proporções • Se n1 de n experimentos dão um certo resultado, então pode-se dizer que a proporção das amostras é dada por p = n1 / n • Exemplos: – A precisão do algoritmo A de recuperação de informação foi superior a precisão de B em 55 dos 100 casos analisados. Com 90% de confiança pode-se dizer que A superar B em precisão? – Em uma amostra com 5000 elementos, 1000 tem percentual de “system time” inferior a 20%. Com 95% de confiança, qual o intervalo de confiança onde o sistema operacional gasta menos de 20% dos recursos?
  • 20. Comparando Proporções • Se n1 de n experimentos dão um certo resultado, então o intervalo de confiança (IC) para a proporção é: • A fórmula acima é baseada numa aproximação da distribuição binomial por uma normal que é valida somente se np > 10
  • 21. Exemplo • Um experimento foi repetido em dois sistemas 40 vezes. O sistema A foi superior ao B em 26 repetições. Podemos dizer que, com confiança de 99%, o sistema A é superior ao sistema B? E com uma confiança de 90%?
  • 22. Exemplo • Proporção p = 26/40 = 0.65 • Desvio padrão da estimativa de proporção: • IC de 99% = 0.65 ± 2.576 * 0.075 = (0.46, 0.84) – IC inclui 0.5, logo A não é superior a B neste nível de confiança • IC de 90% = 0.65 ± 1.645 * 0.075 = (0.53, 0.77) – IC não inclui 0.5, logo A é superior a B neste nível de confiança
  • 23. Considerações Especiais 1. Selecionar um intervalo de confiança para trabalhar 2. Teste de Hipótese 3. Intervalos de confiança de um único lado
  • 24. A Seleção de um Intervalo de Confiança • Depende do custo de se estar errado!!! – Produção de um paper científico – Demonstração de um novo algoritmo experimentalmente – Geração de um produto • Os níveis de confiança entre 90% e 95% são os valores comuns para papers científicos (em Computação) • Em geral, use o maior valor que lhe permita estabelecer conclusões sólidas num processo experimental! • Mas é melhor ser consistente durante todo o paper que se está trabalhando
  • 25. Teste de Hipótese • A hipótese nula (H0) é comum em estatísticas e tratamento de dados experimentais • Pode ser confuso em negativas duplas • Provê menos informação que intervalos de confiança • É em geral mais difícil de interpretar/entender • Deve-se entender que rejeitar a hipótese nula significa que o resultado é significativo
  • 26. Intervalos de Confiança e Testes de Hipótese • Teste de hipótese – Hipótese nula H0 versus hipótese alternativa HA • H0 = métodos A e B geram resultados estatisticamente iguais – (H0: μA = μB) • HA = métodos geram resultados estatisticamente diferentes – (HA: μA ≠ μB) – Computa alguma estatística dos dados que permita testar as hipótese • Computa • Faz referência a alguma distribuição que mostra como a estatística seria distribuída se a hipótese nula fosse verdadeira • Ex. Já sabemos que a distribuição das médias segue uma distribuição Normal xA − xB
  • 27. Intervalos de Confiança e Testes de Hipótese • Com base na distribuição de referência, computa a probabilidade de se obter uma discrepância tão grande quanto a observada e H0 ainda ser verdadeira – p-value • Quanto menor o p-value, menos provável é que a hipótese nula seja verdade e, mais significativo (estatisticamente) o resultado é – Quanto menor o p-value, maior a chance de: μA ≠ μB • Rejeita hipótese nula se p-value < nível de significância α • Nível de significância: probabilidade de rejeitar a hipótese nula quando ela é verdadeira
  • 28. Intervalos de Confiança de um- Lado • Intervalos de dois lados testam se a média está fora ou dentro de uma variação definida pelos dois lados do intervalo • Teste de intervalos de um único lado são úteis somente quanto se está interessado em um limite – Ex.: Com 90% de confiança, qual o intervalo para o tempo médio de resposta ser menor que determinado valor (e.g. a média alcançada)
  • 29. Intervalos de Confiança de um- Lado • Limite inferior Limite superior
  • 30. Intervalos de Confiança de um- Lado: Exemplo • Tempo entre quedas foi medido em dois sistemas A e B. Os valores de média e desvio padrão obtidos estão listados abaixo. O sistema A é mais sucetível a falhas do que o sistema B Sistema Número Média Desvio Padrão A 972 124.10 198.20 B 153 141.47 226.11
  • 31. Exemplo • Solução: obter IC para diferença média usando procedimento de análise das observações não pareadas • Diferença das médias: XA – XB = 124.1 – 141.47 = -17.37 • Desvio padrão da diferença média
  • 32. Exemplo • Como os graus de liberdade são mais que 30, podemos usar a normal unitária ao invés da distribuição t. Além disto, como é um intervalo de um único lado, usamos z90 = 1.28 para um IC de 90% • Como o IC contém valores positivos, não podemos dizer que A é mais suscetível a falhas do que B
  • 33. ICs: 1 lado ou 2 lados? • Se usarmos ICs de 2 lados, podemos dizer: – Tenho 90% de confiança de que a média está entre os dois extremos • Se usamos ICs de 1 lado, podemos dizer: – Tenho 90% de confiança de que a média é no máximo (no mínimo) o extremo superior (inferior)
  • 34. Tamanho das Amostras • Amostras maiores levam a intervalos mais estreitos – Obtem-se menores valores de t à medida que n cresce • Coleta de amostras pode ser um processo caro! – Qual o mínimo que se pode querer num experimento? • Comece com um pequeno número de medições preliminares para estimar a variância
  • 35. Escolha do Tamanho da Amostra • Suponha que queremos determinar o intervalo de confiança x com uma certa largura
  • 36. Escolhendo o tamanho da amostra • Para obter um erro percentual de ± r% • Para uma proporção p = n1/n
  • 37. Escolha do Tamanho da Amostra: Exemplo 1 • Cinco execuções de uma query levaram 22.5, 19.8, 21.1, 26.7, 20.2 segundos • Quantas execuções devem se executadas para obter ± 5% em um IC com nível de confiança de 90% ? • x =22.1, s = 2.8, t = 2.132
  • 38. Escolha do Tamanho da Amostra: Exemplo 2 • Suponha que o tempo médio para gravar um arquivo é 7,94 seg com desvio padrão de 2,14. Aproximadamente, quantas medidas serão requeridas se nós desejamos um IC de 90% e que a média esteja dentro de um intervalo de 3,5%.
  • 39. Escolha do Tamanho da Amostra: Exemplo 3 • Dois algoritmos para transmissao de pacotes foram analisados. Medicoes preliminares mostraram que o algoritmo A perde 0.5% dos pacotes e o algoritmo B perde 0.6%. Quantos pacotes precisamos observar para podermos dizer com confianca de 95% que o algoritmo A e melhor que o algoritmo B?
  • 40. Escolha do Tamanho da Amostra: Exemplo 3 • Para podermos dizer que algoritmo A e melhor que algoritmo B, com 95% de confianca, o limite superior do intervalo de A tem que ser menor que o limite inferior do intervalo de B