SlideShare uma empresa Scribd logo
Métodos Quantitativos em
Ciência da Computação
Unidade 4: Comparando Sistemas Experimentais
Alexandre Duarte
PPGI/UFPB
Apresentação derivada dos slides originais de
Jussara Almeida.
Metodologia de Comparação de
Sistemas Experimentais
• Comparando quantitativamente sistemas
experimentais
• Algoritmos, protótipos, modelos, etc
• Significado de uma amostra
• Intervalos de Confiança
• Tomando decisões e comparando alternativas
• Considerações especiais sobre intervalo de
confiança
• Tamanho das amostras
Estimando os Intervalos de
Confiança
• Duas fórmulas para intervalo de confiança
– Acima de 30 amostras de qualquer distribuição:
distribuição-z
– Pequenas amostras de populações normalmente
distribuídas: distribuição-t (Student)
• Um erro comum: usar distribuição-t para
populações não normalmente distribuídas
Intervalo de Confiança da Média
da Amostra
• Chave: Teorema Central do Limite
– As médias de amostras são distribuídas pela
Normal
– Desde que sejam independentes
– Média das médias converge para a média da
população
A Distribuição-z
• Intervalo em cada lado da média
• O nível de significância α é pequeno para
níveis maiores de confiança (100*(1-α)%)
• Existem tabelas para a variável z!
A Distribuição t
• Fórmula quase a mesma
• Usável para populações normalmente distribuídas!
• Funciona para pequenas amostras
• Similar a Normal (bell-shaped, porém mais
espalhada) e depende do tamanho da amostra n
Tomando decisões sobre os dados
experimentais
• Sumarizar o erro na média da amostra (ou
qualquer outra estatística obtida a partir dela)
– Confiança = 1 – α
– Precisão = 100% - metade do intervalo/média
• Prover elementos para saber se a amostra é
significativa (estatísticamente)
• Permitir comparações à luz dos erros
Testando a Média Zero
• A média da população é significativamente não-zero?
• Se o intervalo de confiança inclui 0, a resposta é não!
• Pode-se testar para qualquer valor:
• Suponha IC de 90% para precisão da média do método A
– 0.875 ± 0.12 (0.755, 0.995)
• A precisão pode ser 0.96?
– Sim, com 90% de confiança, já que o IC contém 0.96
• Qual o erro máximo na minha estimativa da precisão média?
• Com 90% de confiança, o erro máximo é
– (0.995-0.875)/0.875 = 13.2%
Comparando Alternativas
• Num projeto de pesquisa, geralmente procura-se o
melhor sistema, o melhor algoritmo
– Exemplos:
• Determinar o sistema que apresenta a melhor relação QoS-preço,
onde QoS é medido experimentalmente
• Mostrar que um algoritmo Y executa mais rápido que outros
existentes e sejam similares funcionalmente
• Métodos diferentes para observações pareadas (com
par) e não pareadas (sem par)
– Pareadas se o i-ésimo teste em cada sistema foi o mesmo
– Não pareadas, caso contrário
Comparando Observações
Pareadas: método
1. Tratar o problema como uma amostra de n pares
2. Para cada teste: calcule as diferenças dos resultados
3. Calcule o intervalo de confiança para a diferença média
4. Se o intervalo inclui 0 (zero), os objetos de comparação (ex.:
sistemas, algoritmos, etc) não são diferentes com a dada
confiança
5. Se o intervalo não inclui zero, o sinal da diferença indica qual
dos objetos é melhor, baseado nos dados experimentais.
Exemplo: Comparando
Observações Pareadas
• Considere dois métodos de busca A e B que são avaliados em função # de
documentos relevantes (em um total de 100) que cada um retorna
• Num testes com várias consultas, o algoritmo A retorna mais documentos
relevantes que o B?
• Amostra de testes com 14 consultas:
Exemplo: Comparando
observações pareadas
• Diferenças entre os algoritmos A – B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1
-1 6
• Média 1.4, intervalo de 90% => (-0.75, 3.6)
– Não se pode rejeitara a hipótese de que a diferença é 0 e que
portanto os algoritmos têm desempenho similar
– Intervalo de 79% é (0.10, 2.76), A tem desempenho melhor que B
Comparando Observações Não
Pareadas
o número de experimentos comuns não é o mesmo!
• Considere as médias amostrais para
cada uma das alternativas A e B
• Comece com os intervalos de
confiança
– Se não houver sobreposição:
• Algoritmos são diferentes e a maior média
é melhor (pelas métricas usadas)
– Se houver sobreposição e cada IC
contém a outra média
• Algoritmos não são direrentes neste nível
– Se houver sobreposição e uma média
não está no outro IC
• É preciso fazer o teste-t
O Teste-t (1)
1. Compute as médias amostrais xa e xb
2. Compute os desvio-padrões (sa e sb)
3. Compute a diferença das médias xa - xb
4. Compute o desvio padrão das diferenças
O teste-t (2)
5. Compute os graus efetivos de liberdade
6. Compute o intervalo de confiança
7. Se o intervalo inclui zero, não há diferença
Exemplo
• O tempo de processamento necessário para executar
uma tarefa foi medido em dois sistemas
– Os tempos no sistema A foram: {5.36, 16.57, 0.62, 1.41,
0.64, 7.26}
– Os tempos no sistema B foram: {19.12, 3.52, 3.38, 2.50,
3.60, 1.74}
• Os dois sistemas são significativamente diferentes?
Exemplo:
• Sistema A:
– Média xA = 5.31
– Variância s2
A = 37.92
– nA = 6
• Sistema B:
– Média xB = 5.64
– Variância s2
B = 44.11
– nB = 6
Exemplo
• Diferença das médias xA – xB = -0.33
• Desvio padrão das diferenças s = 3.698
• Graus de liberdade v = 11.921
• 0.95-quantil da VA t com 12 graus de liberdade
– t[0.95,12]= 1.71
• IC de 95% para a diferença das médias = -0,33 ± 1.71
* 3.698 = (-6.64, 5.99)
IC inclui 0, logo os dois sistemas NÃO são diferentes
neste nível de confiança
Comparando Proporções
• Se n1 de n experimentos dão um certo resultado, então
pode-se dizer que a proporção das amostras é dada
por p = n1 / n
• Exemplos:
– A precisão do algoritmo A de recuperação de informação
foi superior a precisão de B em 55 dos 100 casos
analisados. Com 90% de confiança pode-se dizer que A
superar B em precisão?
– Em uma amostra com 5000 elementos, 1000 tem
percentual de “system time” inferior a 20%. Com 95% de
confiança, qual o intervalo de confiança onde o sistema
operacional gasta menos de 20% dos recursos?
Comparando Proporções
• Se n1 de n experimentos dão um certo
resultado, então o intervalo de confiança (IC)
para a proporção é:
• A fórmula acima é baseada numa
aproximação da distribuição binomial por uma
normal que é valida somente se np > 10
Exemplo
• Um experimento foi repetido em dois
sistemas 40 vezes. O sistema A foi superior ao
B em 26 repetições. Podemos dizer que, com
confiança de 99%, o sistema A é superior ao
sistema B? E com uma confiança de 90%?
Exemplo
• Proporção p = 26/40 = 0.65
• Desvio padrão da estimativa de proporção:
• IC de 99% = 0.65 ± 2.576 * 0.075 = (0.46, 0.84)
– IC inclui 0.5, logo A não é superior a B neste nível de
confiança
• IC de 90% = 0.65 ± 1.645 * 0.075 = (0.53, 0.77)
– IC não inclui 0.5, logo A é superior a B neste nível de
confiança
Considerações Especiais
1. Selecionar um intervalo de confiança para
trabalhar
2. Teste de Hipótese
3. Intervalos de confiança de um único lado
A Seleção de um Intervalo de
Confiança
• Depende do custo de se estar errado!!!
– Produção de um paper científico
– Demonstração de um novo algoritmo experimentalmente
– Geração de um produto
• Os níveis de confiança entre 90% e 95% são os valores
comuns para papers científicos (em Computação)
• Em geral, use o maior valor que lhe permita
estabelecer conclusões sólidas num processo
experimental!
• Mas é melhor ser consistente durante todo o paper
que se está trabalhando
Teste de Hipótese
• A hipótese nula (H0) é comum em estatísticas e
tratamento de dados experimentais
• Pode ser confuso em negativas duplas
• Provê menos informação que intervalos de
confiança
• É em geral mais difícil de interpretar/entender
• Deve-se entender que rejeitar a hipótese nula
significa que o resultado é significativo
Intervalos de Confiança e Testes de
Hipótese
• Teste de hipótese
– Hipótese nula H0 versus hipótese alternativa HA
• H0 = métodos A e B geram resultados estatisticamente iguais
– (H0: μA = μB)
• HA = métodos geram resultados estatisticamente diferentes
– (HA: μA ≠ μB)
– Computa alguma estatística dos dados que permita testar as
hipótese
• Computa
• Faz referência a alguma distribuição que mostra como a
estatística seria distribuída se a hipótese nula fosse
verdadeira
• Ex. Já sabemos que a distribuição das médias segue uma
distribuição Normal
xA − xB
Intervalos de Confiança e Testes de
Hipótese
• Com base na distribuição de referência, computa a
probabilidade de se obter uma discrepância tão grande
quanto a observada e H0 ainda ser verdadeira
– p-value
• Quanto menor o p-value, menos provável é que a
hipótese nula seja verdade e, mais significativo
(estatisticamente) o resultado é
– Quanto menor o p-value, maior a chance de: μA ≠ μB
• Rejeita hipótese nula se p-value < nível de significância
α
• Nível de significância: probabilidade de rejeitar a
hipótese nula quando ela é verdadeira
Intervalos de Confiança de um-
Lado
• Intervalos de dois lados testam se a média está fora
ou dentro de uma variação definida pelos dois lados
do intervalo
• Teste de intervalos de um único lado são úteis
somente quanto se está interessado em um limite
– Ex.: Com 90% de confiança, qual o intervalo para o tempo
médio de resposta ser menor que determinado valor (e.g.
a média alcançada)
Intervalos de Confiança de um-
Lado
• Limite inferior
Limite superior
Intervalos de Confiança de um-
Lado: Exemplo
• Tempo entre quedas foi medido em dois
sistemas A e B. Os valores de média e desvio
padrão obtidos estão listados abaixo. O
sistema A é mais sucetível a falhas do que o
sistema B
Sistema Número Média Desvio Padrão
A 972 124.10 198.20
B 153 141.47 226.11
Exemplo
• Solução: obter IC para diferença média usando procedimento
de análise das observações não pareadas
• Diferença das médias: XA – XB = 124.1 – 141.47 = -17.37
• Desvio padrão da diferença média
Exemplo
• Como os graus de liberdade são mais que 30,
podemos usar a normal unitária ao invés da
distribuição t. Além disto, como é um intervalo de
um único lado, usamos z90 = 1.28 para um IC de 90%
• Como o IC contém valores positivos, não podemos
dizer que A é mais suscetível a falhas do que B
ICs: 1 lado ou 2 lados?
• Se usarmos ICs de 2 lados, podemos dizer:
– Tenho 90% de confiança de que a média está
entre os dois extremos
• Se usamos ICs de 1 lado, podemos dizer:
– Tenho 90% de confiança de que a média é no
máximo (no mínimo) o extremo superior (inferior)
Tamanho das Amostras
• Amostras maiores levam a intervalos mais
estreitos
– Obtem-se menores valores de t à medida que n
cresce
• Coleta de amostras pode ser um processo caro!
– Qual o mínimo que se pode querer num
experimento?
• Comece com um pequeno número de medições
preliminares para estimar a variância
Escolha do Tamanho da Amostra
• Suponha que queremos determinar o intervalo de
confiança x com uma certa largura
Escolhendo o tamanho da amostra
• Para obter um erro percentual de ± r%
• Para uma proporção p = n1/n
Escolha do Tamanho da Amostra:
Exemplo 1
• Cinco execuções de uma query levaram 22.5,
19.8, 21.1, 26.7, 20.2 segundos
• Quantas execuções devem se executadas para
obter ± 5% em um IC com nível de confiança
de 90% ?
• x =22.1, s = 2.8, t = 2.132
Escolha do Tamanho da Amostra:
Exemplo 2
• Suponha que o tempo médio para gravar um arquivo
é 7,94 seg com desvio padrão de 2,14.
Aproximadamente, quantas medidas serão
requeridas se nós desejamos um IC de 90% e que a
média esteja dentro de um intervalo de 3,5%.
Escolha do Tamanho da Amostra:
Exemplo 3
• Dois algoritmos para transmissao de pacotes foram analisados. Medicoes
preliminares mostraram que o algoritmo A perde 0.5% dos pacotes e o
algoritmo B perde 0.6%. Quantos pacotes precisamos observar para
podermos dizer com confianca de 95% que o algoritmo A e melhor que o
algoritmo B?
Escolha do Tamanho da Amostra:
Exemplo 3
• Para podermos dizer que algoritmo A e melhor que algoritmo
B, com 95% de confianca, o limite superior do intervalo de A
tem que ser menor que o limite inferior do intervalo de B

Mais conteúdo relacionado

Mais procurados

UFCD 0754 - Processador de Texto
UFCD 0754  - Processador de TextoUFCD 0754  - Processador de Texto
UFCD 0754 - Processador de Texto
Gonçalo Cruz Matos
 
Media Training
Media TrainingMedia Training
Media Training
weca.lab
 
Tutorial básico google docs
Tutorial básico google docs Tutorial básico google docs
Tutorial básico google docs
lilianrmedeiros
 
1 requisitos funcionais e não funcionais ok
1  requisitos funcionais e não funcionais ok1  requisitos funcionais e não funcionais ok
1 requisitos funcionais e não funcionais ok
Marcos Morais de Sousa
 
Processo Unificado(RUP)
Processo Unificado(RUP)Processo Unificado(RUP)
Processo Unificado(RUP)
elliando dias
 

Mais procurados (20)

ufcd779-utilitariodeapresentacoesgrafica25horas.docx
ufcd779-utilitariodeapresentacoesgrafica25horas.docxufcd779-utilitariodeapresentacoesgrafica25horas.docx
ufcd779-utilitariodeapresentacoesgrafica25horas.docx
 
Analise de Requisitos Software
Analise de Requisitos SoftwareAnalise de Requisitos Software
Analise de Requisitos Software
 
UFCD 0754 - Processador de Texto
UFCD 0754  - Processador de TextoUFCD 0754  - Processador de Texto
UFCD 0754 - Processador de Texto
 
MC - Aula 05 - Memória e Dispositivos de Armazenamento
MC - Aula 05 - Memória e Dispositivos de ArmazenamentoMC - Aula 05 - Memória e Dispositivos de Armazenamento
MC - Aula 05 - Memória e Dispositivos de Armazenamento
 
Batata chips e palha pdf
Batata chips e palha   pdfBatata chips e palha   pdf
Batata chips e palha pdf
 
O que Evitar na Escrita de Criterios de Aceite
O que Evitar na Escrita de Criterios de AceiteO que Evitar na Escrita de Criterios de Aceite
O que Evitar na Escrita de Criterios de Aceite
 
Projeto e Desenvolvimento de Software
Projeto e Desenvolvimento de SoftwareProjeto e Desenvolvimento de Software
Projeto e Desenvolvimento de Software
 
Media Training
Media TrainingMedia Training
Media Training
 
SISTEMAS OPERACIOANIS 20.01.2023.pptx
SISTEMAS OPERACIOANIS 20.01.2023.pptxSISTEMAS OPERACIOANIS 20.01.2023.pptx
SISTEMAS OPERACIOANIS 20.01.2023.pptx
 
Tutorial básico google docs
Tutorial básico google docs Tutorial básico google docs
Tutorial básico google docs
 
Periféricos - Curso de Informática
Periféricos - Curso de InformáticaPeriféricos - Curso de Informática
Periféricos - Curso de Informática
 
Mini Curso - Design de Interface para Dispositivos Móveis
Mini Curso - Design de Interface para Dispositivos MóveisMini Curso - Design de Interface para Dispositivos Móveis
Mini Curso - Design de Interface para Dispositivos Móveis
 
Engenharia dos cargos de UI, UX, PM
Engenharia dos cargos de UI, UX, PMEngenharia dos cargos de UI, UX, PM
Engenharia dos cargos de UI, UX, PM
 
Caderno de exercícios excel 2010
Caderno de exercícios excel 2010Caderno de exercícios excel 2010
Caderno de exercícios excel 2010
 
Versões de software - releases
Versões de software - releasesVersões de software - releases
Versões de software - releases
 
Eng.ª do Software - 2. Requisitos
Eng.ª do Software - 2. RequisitosEng.ª do Software - 2. Requisitos
Eng.ª do Software - 2. Requisitos
 
1 requisitos funcionais e não funcionais ok
1  requisitos funcionais e não funcionais ok1  requisitos funcionais e não funcionais ok
1 requisitos funcionais e não funcionais ok
 
Processo Unificado(RUP)
Processo Unificado(RUP)Processo Unificado(RUP)
Processo Unificado(RUP)
 
Aula 7 - Modelagem de Software
Aula 7 - Modelagem de SoftwareAula 7 - Modelagem de Software
Aula 7 - Modelagem de Software
 
Treinamento sobre o GIMP
Treinamento sobre o GIMPTreinamento sobre o GIMP
Treinamento sobre o GIMP
 

Semelhante a Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimentais

Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
Rosario Cação
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
ssuser98ac96
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
Alexandre Duarte
 
Apresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostasApresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostas
Bianca Galvão
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
NunoSilva599593
 

Semelhante a Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimentais (20)

Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4Exercicios de estatistica resolvido.4
Exercicios de estatistica resolvido.4
 
Aula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdfAula 2 - Validação de um método análitico.pdf
Aula 2 - Validação de um método análitico.pdf
 
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
Testes de especificação, diagnóstico e interpretação de Modelo OLS (Ordinary ...
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Tópico 2 Intervalo de Confiança
Tópico 2   Intervalo de ConfiançaTópico 2   Intervalo de Confiança
Tópico 2 Intervalo de Confiança
 
Testes parametricos e nao parametricos
Testes parametricos e nao parametricosTestes parametricos e nao parametricos
Testes parametricos e nao parametricos
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
Conceitos Básicos de Estatística II
Conceitos Básicos de Estatística IIConceitos Básicos de Estatística II
Conceitos Básicos de Estatística II
 
Fundamentos da bioestatística
Fundamentos da bioestatísticaFundamentos da bioestatística
Fundamentos da bioestatística
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Calibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em SaúdeCalibração/Validação de Modelos Econômicos em Saúde
Calibração/Validação de Modelos Econômicos em Saúde
 
CONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdfCONTROLO DE QUALIDADE SLIDE.pdf
CONTROLO DE QUALIDADE SLIDE.pdf
 
Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023
 
estatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamentalestatística é uma disciplina ampla e fundamental
estatística é uma disciplina ampla e fundamental
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
 
Metricas forecasting
Metricas forecastingMetricas forecasting
Metricas forecasting
 
Apresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostasApresentação Questionários - Como analisar respostas
Apresentação Questionários - Como analisar respostas
 
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptxAMD - Aula n.º 3 - duas amostras emparelhadas.pptx
AMD - Aula n.º 3 - duas amostras emparelhadas.pptx
 
Teoria de Erros
Teoria de Erros Teoria de Erros
Teoria de Erros
 

Mais de Alexandre Duarte

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Último

GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdfGRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
rarakey779
 
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdfmanual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
rarakey779
 
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdfHans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
rarakey779
 
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdfGRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
rarakey779
 

Último (20)

Atividade com a música Xote da Alegria - Falamansa
Atividade com a música Xote  da  Alegria    -   FalamansaAtividade com a música Xote  da  Alegria    -   Falamansa
Atividade com a música Xote da Alegria - Falamansa
 
Atividades-Sobre-o-Conto-Venha-Ver-o-Por-Do-Sol.docx
Atividades-Sobre-o-Conto-Venha-Ver-o-Por-Do-Sol.docxAtividades-Sobre-o-Conto-Venha-Ver-o-Por-Do-Sol.docx
Atividades-Sobre-o-Conto-Venha-Ver-o-Por-Do-Sol.docx
 
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdfGRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
 
Memórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
Memórias_póstumas_de_Brás_Cubas_ Machado_de_AssisMemórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
Memórias_póstumas_de_Brás_Cubas_ Machado_de_Assis
 
Exercícios de Clima no brasil e no mundo.pdf
Exercícios de Clima no brasil e no mundo.pdfExercícios de Clima no brasil e no mundo.pdf
Exercícios de Clima no brasil e no mundo.pdf
 
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdfmanual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
manual-de-introduc3a7c3a3o-ao-direito-25-10-2011.pdf
 
Apresentação Formação em Prevenção ao Assédio
Apresentação Formação em Prevenção ao AssédioApresentação Formação em Prevenção ao Assédio
Apresentação Formação em Prevenção ao Assédio
 
Apresentação sobre as etapas do desenvolvimento infantil
Apresentação sobre as etapas do desenvolvimento infantilApresentação sobre as etapas do desenvolvimento infantil
Apresentação sobre as etapas do desenvolvimento infantil
 
00Certificado - MBA - Gestão de projetos
00Certificado - MBA - Gestão de projetos00Certificado - MBA - Gestão de projetos
00Certificado - MBA - Gestão de projetos
 
Os Padres de Assaré - CE. Prof. Francisco Leite
Os Padres de Assaré - CE. Prof. Francisco LeiteOs Padres de Assaré - CE. Prof. Francisco Leite
Os Padres de Assaré - CE. Prof. Francisco Leite
 
Junho Violeta - Sugestão de Ações na Igreja
Junho Violeta - Sugestão de Ações na IgrejaJunho Violeta - Sugestão de Ações na Igreja
Junho Violeta - Sugestão de Ações na Igreja
 
Evangelismo e Missões Contemporânea Cristã.pdf
Evangelismo e Missões Contemporânea Cristã.pdfEvangelismo e Missões Contemporânea Cristã.pdf
Evangelismo e Missões Contemporânea Cristã.pdf
 
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdfHans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
 
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
Slides Lição 8, Betel, Ordenança para confessar os pecados e perdoar as ofens...
 
04_GuiaDoCurso_Neurociência, Psicologia Positiva e Mindfulness.pdf
04_GuiaDoCurso_Neurociência, Psicologia Positiva e Mindfulness.pdf04_GuiaDoCurso_Neurociência, Psicologia Positiva e Mindfulness.pdf
04_GuiaDoCurso_Neurociência, Psicologia Positiva e Mindfulness.pdf
 
DIFERENÇA DO INGLES BRITANICO E AMERICANO.pptx
DIFERENÇA DO INGLES BRITANICO E AMERICANO.pptxDIFERENÇA DO INGLES BRITANICO E AMERICANO.pptx
DIFERENÇA DO INGLES BRITANICO E AMERICANO.pptx
 
Slides Lição 9, Betel, Ordenança para uma vida de santificação, 2Tr24.pptx
Slides Lição 9, Betel, Ordenança para uma vida de santificação, 2Tr24.pptxSlides Lição 9, Betel, Ordenança para uma vida de santificação, 2Tr24.pptx
Slides Lição 9, Betel, Ordenança para uma vida de santificação, 2Tr24.pptx
 
Administração (Conceitos e Teorias sobre a Administração)
Administração (Conceitos e Teorias sobre a Administração)Administração (Conceitos e Teorias sobre a Administração)
Administração (Conceitos e Teorias sobre a Administração)
 
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdfGRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
GRAMÁTICA NORMATIVA DA LÍNGUA PORTUGUESA UM GUIA COMPLETO DO IDIOMA.pdf
 
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdfHans Kelsen - Teoria Pura do Direito - Obra completa.pdf
Hans Kelsen - Teoria Pura do Direito - Obra completa.pdf
 

Métodos Quantitativos em Ciência da Computação: Comparando Sistemas Experimentais

  • 1. Métodos Quantitativos em Ciência da Computação Unidade 4: Comparando Sistemas Experimentais Alexandre Duarte PPGI/UFPB Apresentação derivada dos slides originais de Jussara Almeida.
  • 2. Metodologia de Comparação de Sistemas Experimentais • Comparando quantitativamente sistemas experimentais • Algoritmos, protótipos, modelos, etc • Significado de uma amostra • Intervalos de Confiança • Tomando decisões e comparando alternativas • Considerações especiais sobre intervalo de confiança • Tamanho das amostras
  • 3. Estimando os Intervalos de Confiança • Duas fórmulas para intervalo de confiança – Acima de 30 amostras de qualquer distribuição: distribuição-z – Pequenas amostras de populações normalmente distribuídas: distribuição-t (Student) • Um erro comum: usar distribuição-t para populações não normalmente distribuídas
  • 4. Intervalo de Confiança da Média da Amostra • Chave: Teorema Central do Limite – As médias de amostras são distribuídas pela Normal – Desde que sejam independentes – Média das médias converge para a média da população
  • 5. A Distribuição-z • Intervalo em cada lado da média • O nível de significância α é pequeno para níveis maiores de confiança (100*(1-α)%) • Existem tabelas para a variável z!
  • 6. A Distribuição t • Fórmula quase a mesma • Usável para populações normalmente distribuídas! • Funciona para pequenas amostras • Similar a Normal (bell-shaped, porém mais espalhada) e depende do tamanho da amostra n
  • 7. Tomando decisões sobre os dados experimentais • Sumarizar o erro na média da amostra (ou qualquer outra estatística obtida a partir dela) – Confiança = 1 – α – Precisão = 100% - metade do intervalo/média • Prover elementos para saber se a amostra é significativa (estatísticamente) • Permitir comparações à luz dos erros
  • 8. Testando a Média Zero • A média da população é significativamente não-zero? • Se o intervalo de confiança inclui 0, a resposta é não! • Pode-se testar para qualquer valor: • Suponha IC de 90% para precisão da média do método A – 0.875 ± 0.12 (0.755, 0.995) • A precisão pode ser 0.96? – Sim, com 90% de confiança, já que o IC contém 0.96 • Qual o erro máximo na minha estimativa da precisão média? • Com 90% de confiança, o erro máximo é – (0.995-0.875)/0.875 = 13.2%
  • 9. Comparando Alternativas • Num projeto de pesquisa, geralmente procura-se o melhor sistema, o melhor algoritmo – Exemplos: • Determinar o sistema que apresenta a melhor relação QoS-preço, onde QoS é medido experimentalmente • Mostrar que um algoritmo Y executa mais rápido que outros existentes e sejam similares funcionalmente • Métodos diferentes para observações pareadas (com par) e não pareadas (sem par) – Pareadas se o i-ésimo teste em cada sistema foi o mesmo – Não pareadas, caso contrário
  • 10. Comparando Observações Pareadas: método 1. Tratar o problema como uma amostra de n pares 2. Para cada teste: calcule as diferenças dos resultados 3. Calcule o intervalo de confiança para a diferença média 4. Se o intervalo inclui 0 (zero), os objetos de comparação (ex.: sistemas, algoritmos, etc) não são diferentes com a dada confiança 5. Se o intervalo não inclui zero, o sinal da diferença indica qual dos objetos é melhor, baseado nos dados experimentais.
  • 11. Exemplo: Comparando Observações Pareadas • Considere dois métodos de busca A e B que são avaliados em função # de documentos relevantes (em um total de 100) que cada um retorna • Num testes com várias consultas, o algoritmo A retorna mais documentos relevantes que o B? • Amostra de testes com 14 consultas:
  • 12. Exemplo: Comparando observações pareadas • Diferenças entre os algoritmos A – B: 2 -2 -7 5 6 -1 -7 6 7 3 2 1 -1 6 • Média 1.4, intervalo de 90% => (-0.75, 3.6) – Não se pode rejeitara a hipótese de que a diferença é 0 e que portanto os algoritmos têm desempenho similar – Intervalo de 79% é (0.10, 2.76), A tem desempenho melhor que B
  • 13. Comparando Observações Não Pareadas o número de experimentos comuns não é o mesmo! • Considere as médias amostrais para cada uma das alternativas A e B • Comece com os intervalos de confiança – Se não houver sobreposição: • Algoritmos são diferentes e a maior média é melhor (pelas métricas usadas) – Se houver sobreposição e cada IC contém a outra média • Algoritmos não são direrentes neste nível – Se houver sobreposição e uma média não está no outro IC • É preciso fazer o teste-t
  • 14. O Teste-t (1) 1. Compute as médias amostrais xa e xb 2. Compute os desvio-padrões (sa e sb) 3. Compute a diferença das médias xa - xb 4. Compute o desvio padrão das diferenças
  • 15. O teste-t (2) 5. Compute os graus efetivos de liberdade 6. Compute o intervalo de confiança 7. Se o intervalo inclui zero, não há diferença
  • 16. Exemplo • O tempo de processamento necessário para executar uma tarefa foi medido em dois sistemas – Os tempos no sistema A foram: {5.36, 16.57, 0.62, 1.41, 0.64, 7.26} – Os tempos no sistema B foram: {19.12, 3.52, 3.38, 2.50, 3.60, 1.74} • Os dois sistemas são significativamente diferentes?
  • 17. Exemplo: • Sistema A: – Média xA = 5.31 – Variância s2 A = 37.92 – nA = 6 • Sistema B: – Média xB = 5.64 – Variância s2 B = 44.11 – nB = 6
  • 18. Exemplo • Diferença das médias xA – xB = -0.33 • Desvio padrão das diferenças s = 3.698 • Graus de liberdade v = 11.921 • 0.95-quantil da VA t com 12 graus de liberdade – t[0.95,12]= 1.71 • IC de 95% para a diferença das médias = -0,33 ± 1.71 * 3.698 = (-6.64, 5.99) IC inclui 0, logo os dois sistemas NÃO são diferentes neste nível de confiança
  • 19. Comparando Proporções • Se n1 de n experimentos dão um certo resultado, então pode-se dizer que a proporção das amostras é dada por p = n1 / n • Exemplos: – A precisão do algoritmo A de recuperação de informação foi superior a precisão de B em 55 dos 100 casos analisados. Com 90% de confiança pode-se dizer que A superar B em precisão? – Em uma amostra com 5000 elementos, 1000 tem percentual de “system time” inferior a 20%. Com 95% de confiança, qual o intervalo de confiança onde o sistema operacional gasta menos de 20% dos recursos?
  • 20. Comparando Proporções • Se n1 de n experimentos dão um certo resultado, então o intervalo de confiança (IC) para a proporção é: • A fórmula acima é baseada numa aproximação da distribuição binomial por uma normal que é valida somente se np > 10
  • 21. Exemplo • Um experimento foi repetido em dois sistemas 40 vezes. O sistema A foi superior ao B em 26 repetições. Podemos dizer que, com confiança de 99%, o sistema A é superior ao sistema B? E com uma confiança de 90%?
  • 22. Exemplo • Proporção p = 26/40 = 0.65 • Desvio padrão da estimativa de proporção: • IC de 99% = 0.65 ± 2.576 * 0.075 = (0.46, 0.84) – IC inclui 0.5, logo A não é superior a B neste nível de confiança • IC de 90% = 0.65 ± 1.645 * 0.075 = (0.53, 0.77) – IC não inclui 0.5, logo A é superior a B neste nível de confiança
  • 23. Considerações Especiais 1. Selecionar um intervalo de confiança para trabalhar 2. Teste de Hipótese 3. Intervalos de confiança de um único lado
  • 24. A Seleção de um Intervalo de Confiança • Depende do custo de se estar errado!!! – Produção de um paper científico – Demonstração de um novo algoritmo experimentalmente – Geração de um produto • Os níveis de confiança entre 90% e 95% são os valores comuns para papers científicos (em Computação) • Em geral, use o maior valor que lhe permita estabelecer conclusões sólidas num processo experimental! • Mas é melhor ser consistente durante todo o paper que se está trabalhando
  • 25. Teste de Hipótese • A hipótese nula (H0) é comum em estatísticas e tratamento de dados experimentais • Pode ser confuso em negativas duplas • Provê menos informação que intervalos de confiança • É em geral mais difícil de interpretar/entender • Deve-se entender que rejeitar a hipótese nula significa que o resultado é significativo
  • 26. Intervalos de Confiança e Testes de Hipótese • Teste de hipótese – Hipótese nula H0 versus hipótese alternativa HA • H0 = métodos A e B geram resultados estatisticamente iguais – (H0: μA = μB) • HA = métodos geram resultados estatisticamente diferentes – (HA: μA ≠ μB) – Computa alguma estatística dos dados que permita testar as hipótese • Computa • Faz referência a alguma distribuição que mostra como a estatística seria distribuída se a hipótese nula fosse verdadeira • Ex. Já sabemos que a distribuição das médias segue uma distribuição Normal xA − xB
  • 27. Intervalos de Confiança e Testes de Hipótese • Com base na distribuição de referência, computa a probabilidade de se obter uma discrepância tão grande quanto a observada e H0 ainda ser verdadeira – p-value • Quanto menor o p-value, menos provável é que a hipótese nula seja verdade e, mais significativo (estatisticamente) o resultado é – Quanto menor o p-value, maior a chance de: μA ≠ μB • Rejeita hipótese nula se p-value < nível de significância α • Nível de significância: probabilidade de rejeitar a hipótese nula quando ela é verdadeira
  • 28. Intervalos de Confiança de um- Lado • Intervalos de dois lados testam se a média está fora ou dentro de uma variação definida pelos dois lados do intervalo • Teste de intervalos de um único lado são úteis somente quanto se está interessado em um limite – Ex.: Com 90% de confiança, qual o intervalo para o tempo médio de resposta ser menor que determinado valor (e.g. a média alcançada)
  • 29. Intervalos de Confiança de um- Lado • Limite inferior Limite superior
  • 30. Intervalos de Confiança de um- Lado: Exemplo • Tempo entre quedas foi medido em dois sistemas A e B. Os valores de média e desvio padrão obtidos estão listados abaixo. O sistema A é mais sucetível a falhas do que o sistema B Sistema Número Média Desvio Padrão A 972 124.10 198.20 B 153 141.47 226.11
  • 31. Exemplo • Solução: obter IC para diferença média usando procedimento de análise das observações não pareadas • Diferença das médias: XA – XB = 124.1 – 141.47 = -17.37 • Desvio padrão da diferença média
  • 32. Exemplo • Como os graus de liberdade são mais que 30, podemos usar a normal unitária ao invés da distribuição t. Além disto, como é um intervalo de um único lado, usamos z90 = 1.28 para um IC de 90% • Como o IC contém valores positivos, não podemos dizer que A é mais suscetível a falhas do que B
  • 33. ICs: 1 lado ou 2 lados? • Se usarmos ICs de 2 lados, podemos dizer: – Tenho 90% de confiança de que a média está entre os dois extremos • Se usamos ICs de 1 lado, podemos dizer: – Tenho 90% de confiança de que a média é no máximo (no mínimo) o extremo superior (inferior)
  • 34. Tamanho das Amostras • Amostras maiores levam a intervalos mais estreitos – Obtem-se menores valores de t à medida que n cresce • Coleta de amostras pode ser um processo caro! – Qual o mínimo que se pode querer num experimento? • Comece com um pequeno número de medições preliminares para estimar a variância
  • 35. Escolha do Tamanho da Amostra • Suponha que queremos determinar o intervalo de confiança x com uma certa largura
  • 36. Escolhendo o tamanho da amostra • Para obter um erro percentual de ± r% • Para uma proporção p = n1/n
  • 37. Escolha do Tamanho da Amostra: Exemplo 1 • Cinco execuções de uma query levaram 22.5, 19.8, 21.1, 26.7, 20.2 segundos • Quantas execuções devem se executadas para obter ± 5% em um IC com nível de confiança de 90% ? • x =22.1, s = 2.8, t = 2.132
  • 38. Escolha do Tamanho da Amostra: Exemplo 2 • Suponha que o tempo médio para gravar um arquivo é 7,94 seg com desvio padrão de 2,14. Aproximadamente, quantas medidas serão requeridas se nós desejamos um IC de 90% e que a média esteja dentro de um intervalo de 3,5%.
  • 39. Escolha do Tamanho da Amostra: Exemplo 3 • Dois algoritmos para transmissao de pacotes foram analisados. Medicoes preliminares mostraram que o algoritmo A perde 0.5% dos pacotes e o algoritmo B perde 0.6%. Quantos pacotes precisamos observar para podermos dizer com confianca de 95% que o algoritmo A e melhor que o algoritmo B?
  • 40. Escolha do Tamanho da Amostra: Exemplo 3 • Para podermos dizer que algoritmo A e melhor que algoritmo B, com 95% de confianca, o limite superior do intervalo de A tem que ser menor que o limite inferior do intervalo de B