Revisão do Exercício da aula passada 2. Ditribuições de probabilidades (revisão de conceitos básicos) 3. Aplicação do assunto da aula 1 e 2 com uma base de dados real
Mitos, (nem tao) verdades (assim) e aplicacoes de valuation
Aula 2 - Distribuição de probabilidade
1. Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis
Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PB
Telefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: ppgcc@ccsa.ufpb.br
DISTRIBUIÇÕES DE
PROBABILIDADES E OUTLIERS
Felipe Pontes
www.contabilidademq.blogspot.com
1. Revisão do Exercício da aula passada 2. Ditribuições de
probabilidades (revisão de conceitos básicos) 3. Aplicação do
assunto da aula 1 e 2 com uma base de dados real
2. www.contabilidademq.blogspot.com Felipe Pontes 22
it
k
k
ktk
k
kitk
j
jitjit XCustosIncAD 1
,,2,,10
𝑃𝑡 =
𝜏=1
∞
𝑅𝑓−𝑡
𝐸𝜏 𝑑 𝑡+𝜏
youtube.com/contabilidademq
@felfelipepontes
@contabilidademq
Slideshare.net/felipepontes16
/pontesfelipe Se inscreva em nosso canal e
ative as notificações para não
perder nada!
3. INTRODUÇÃO
• Na aula passada vimos como descrever um conjunto de variáveis (estatísticas
descritivas). Isso nos permite identificar certos padrões e tendências. Vamos
discutir sobre as suas respostas da aula passada: 1) questões do livro, 2)
explicação rápida sobre as estatísticas descritivas de um artigo e 3) explicação
rápida sobre a análise descritiva dos dados da aula passada.
• ATENÇÃO: hoje faremos alguns exercícios. Façam de forma organizada em
uma planilha do Excel, ou no Word, e me enviem pela “tarefa” do SIGAA.
• Importância do assunto de hoje: o fundamento da tomada de decisões (teste de
hipóteses) é a probabilidade (LEVIN; FOX; FORD, 2012), pois envolve a incerteza.
• Probabilidade teórica (50% de chance de nascer homem) x Probabilidade
empírica (51% de chance de nascer homem com dados de longo prazo)
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 3
4. DEFINIÇÃO:
• As variáveis econômicas são, por sua natureza, aleatórias. Não sabemos quais serão seus valores,
até observá-los (“experimentando”).
• Como são aleatórias, a ocorrência de seus valores é incerta. A probabilidade é uma forma de
expressar esta incerteza.
VARIÁVEL ALEATÓRIA X VARIÁVEL DE UMA EQUAÇÃO ALGÉBRICA
• 10 + X = 13 .:. X = 3 X é um valor desconhecido que pode ser calculado
• No processo de jogar 2 dados, a variável X pode ser qualquer valor entre 2 e 12
VARIÁVEIS ALEATÓRIAS
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 4
5. EXPERIMENTO CONTROLADO E NÃO CONTROLADO
• Controlado variável não aleatória
• Não controlado variável aleatória
VARIÁVEIS ALEATÓRIAS
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 5
“O Lado B do Insider Trading”: a) empresa sem operações dos insiders e b) empresa com operações dos
insiders (QI e QII)
Tudo é constante, exceto uma “variável”
6. VARIÁVEIS ALEATÓRIAS
• Sobre a importância dos experimentos, leiam o capítulo 2 do livro
Superprevisores.
• Apesar de não haver perfeição em nossas pesquisas, os experimentos são
melhores do que apenas “sabichões coçando o queixo” e pessoas com
“complexo de deus”.
• Para conhecer um pouco mais sobre o livro, leia a minha review lá no blog:
http://contabilidademq.blogspot.com.br/2017/03/review-superprevisores-
arte-e-ciencia-de-antecipar-o-futuro.html
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 6
7. VARIÁVEIS ALEATÓRIAS
• As variáveis aleatórias podem ser contínuas ou discretas. Classifique as
variáveis abaixo em um dos dois grupos.
www.contabilidademq.blogspot.com Felipe Pontes 7
Lançamento
de moedas
Retorno das
ações da bolsa
Quantidade de M&Ms azuis
Lançamento
de dados
Lucro das
empresas da
bolsa
8. VARIÁVEIS ALEATÓRIAS
• Para trabalhar com variáveis aleatórias e testar hipóteses, precisamos de
uma distribuição de probabilidades (contínuas ou discretas).
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 8
http://isomorphism.es/post/18913494015/probability-distributions
9. VARIÁVEIS ALEATÓRIAS
• No mundo real
• http://isomorphism.es/
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 9
11. DISTRIBUIÇÃO DE
PROBABILIDADES
• A é o resultado de um evento qualquer, a partir de um experimento não
controlado. A probabilidade de A, representada por P(A), é a frequência
relativa com que o resultado A ocorre em muitas provas repetidas do
experimento. Para qualquer evento, 0≤P(A)≤1 e Σp(A)= 1.
• Função de probabilidade – quando se relacionam os valores de uma
variável aleatória discreta com sua probabilidade de ocorrência, o
resultado é uma função de probabilidade. No caso de uma variável
continua temos a função densidade de probabilidade (f.d.p ou p.d.f).
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 11
12. NORMAL
• É um modelo teórico (ou ideal) muito usado em econometria básica (foco
desta disciplina). Por meio dela o pesquisador pode generalizar seus
resultados de amostras para populações.
CARACTERÍSTICAS BÁSICAS:
1. Formato de sino
2. Simétrica
3. Unimodal (só tem um pico de máxima probabilidade)
4. Média = Moda = Mediana
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 12
https://www.mathsisfun.com/data/standard-normal-distribution.html
IMPLICAÇÃO: por exemplo, teríamos poucas
empresas com retornos extremos (positivos ou
negativos) – as empresas não devem gerar lucros
“anormais” para sempre.
13. NORMAL
• Na prática, o que encontramos são coisas assim:
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 13
0
2
4
6
8
10
12
14
16
18
20
-0.1 0 0.1 0.2 0.3
acc_disc_abs
acc_disc_abs
N(0.036252,0.051882)
Test statistic for normality:
Chi-square(2) = 356.744 [0.0000]
0
5
10
15
20
25
30
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Series: ACC_DISC_ABS
Sample 1 89
Observations 89
Mean 0.036252
Median 0.020848
Maximum 0.334798
Minimum 6.94e-18
Std. Dev. 0.051882
Skewness 3.665601
Kurtosis 18.70847
Jarque-Bera 1114.363
Probability 0.000000
05
101520
0 .1 .2 .3 .4
acc_disc_abs
A assimetria é muito maior do que 0,5.
Regra geral: -0,5 < Skew < 0,5.
A Normal tem curtose = 3.
A partir dessa análise, o que pode ter
gerado nosso “problema”?
No Eviews, GRETL e Stata.
14. NORMAL
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 14
0246
Density
0 .2 .4 .6 .8 1
rpegaverage
0
10203040
Frequency
0 5 10 15 20
cob_eps
0
.1.2.3.4
Density
18 20 22 24 26
lnvm
O que é mais próximo da
normalidade?
0
1.0e-112.0e-113.0e-114.0e-11
Density
0 1.000e+11 2.000e+11 3.000e+11 4.000e+11
valor_de_mercado
15. NORMAL
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 15
0
.1.2.3.4
Os pontos fora da “caixa” são outliers
(maiores que 0,1 nesse caso)
A linha dentro da caixa é a mediana, como não
está no meio... Evidencia assimetria.
O limite superior da caixa indica o percentil 75%
e o limite inferior representa 25%.
O “bigode” de cima é o limite superior = P75% -
1,5*(P75% - P25%)
O “bigode” de baixo é o limite inferior = P25% -
1,5*(P75% - P25%)
16. 0
.2.4.6.8
1
NORMAL
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 16
Os pontos fora da “caixa” são outliers
(maiores que 0,4 nesse caso)
A linha dentro da caixa é a mediana, como não
está no meio... Evidencia assimetria.
O limite superior da caixa indica o percentil 75%
e o limite inferior representa 25%.
O “bigode” de cima é o limite superior = P75% -
1,5*(P75% - P25%)
O “bigode” de baixo é o limite inferior = P25% -
1,5*(P75% - P25%)
18. 1820222426
lnvm
Consumer Discretionary Consumer Staples Energy Health Care Industrials Information Technology Materials Telecommunication Services Utilities
NORMAL
Comando: graph box lnvm, over(gics_sector)
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 18
Quais são os setores
mais homogêneos e
heterogêneos?
Quais são os setores com
mais outliers?
Por causa dessa
heterogeneidade, temos
que controlar esses
fatores (qreg, painel etc).
19. NORMAL
• Se a distribuição for normal, os pontos ficarão em cima da reta
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 19
-.1
0
.1.2.3
acc_disc_abs
-.1 -.05 0 .05 .1 .15
Inverse Normal
20. NORMAL
1820222426
lnvm
18 20 22 24 26
Inverse Normal
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 20
-5
05
101520
cob_eps
-5 0 5 10 15 20
Inverse Normal
Quem é discreto e quem é contínuo?
21. NORMAL
• Algumas vezes, transformações resolvem nosso problema: log 10, ln, sqrt
(assimetria à direita), quadrática, cúbica (assimetria à esquerda) etc.
• Plotem o histograma da variável vm (valor de mercado) (histogram vm).
Qual é o tipo de assimetria? Depois compare com o histograma da variável
lnvm.
• O comando para transformar a variável é “generate
NOME_DA_NOVA_VARIÁVEL=TIPO_DE_TRANSF(inserir a variável a
ser transformada)”
• generate lnvm=ln(vm)
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 21
22. NORMAL
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 22
1/cubic 1/(vm^3) . 0.000
1/square 1/(vm^2) . 0.000
inverse 1/vm . 0.000
1/(square root) 1/sqrt(vm) . 0.000
log log(vm) 3.25 0.197
square root sqrt(vm) . 0.000
identity vm . 0.000
square vm^2 . 0.000
cubic vm^3 . 0.000
Transformation formula chi2(2) P(chi2)
. ladder vm
O comando ladder do Stata nos diz qual é a melhor transformação (você não precisa ficar
calculando uma por uma). Faça com a variável vm.
26. NORMAL
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 26
1/cubic 1/(cob_eps^3) . .
1/square 1/(cob_eps^2) . .
inverse 1/cob_eps . .
1/(square root) 1/sqrt(cob_eps) . .
log log(cob_eps) . .
square root sqrt(cob_eps) 43.48 0.000
identity cob_eps 63.13 0.000
square cob_eps^2 34.52 0.000
cubic cob_eps^3 42.33 0.000
Transformation formula chi2(2) P(chi2)
. ladder cob_eps Por que será que nenhuma transformação deu jeito? Pense e
confirme o raciocínio no próximo slide
27. NORMAL
• Dá para perceber a diferença com relação aos gráficos anteriores?
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 27
0
5.0e-04
.001
.0015
.002
.0025
0 2000 4000 6000
cubic
0
.005
.01
.015
.02
.025
0 100 200 300
square
0
.1.2.3
0 5 10 15 20
identity
0
.5
1
1.5 0 1 2 3 4
sqrt
cob_eps
Histograms by transformation
28. NORMAL
NO SLIDE ANTERIOR ESTÁVAMOS
TENTANDO ADEQUAR UMA
VARIÁVEL DISCRETA A UMA
DISTRIBUIÇÃO CONTÍNUA!
www.contabilidademq.blogspot.com Felipe Pontes 28
32. NORMAL
• É importante fazer essa análise antes de rodar o modelo final, para
detectar os problemas e tratá-los, se possível ou ter ideia das possíveis
limitações da sua análise: usar outros estimadores que não o OLS, por
exemplo.
• Esses gráficos precisam estar na versão final do artigo? Definitivamente
Não!
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 32
33. NORMAL
• Utilize os seguintes comandos com os dados do “sysuse nlsw88, clear”.
Analise a variável wage e tenure.
• Analise brevemente e salve os gráficos em um arquivo do Word, no final
faremos um exercício completo:
• histogram wage, normal
• graph box wage
• qnorm wage
• ladder wage
• gladder wage
• sktest wage
• ** testa a normalidade univariada
• ** Use transformações para testar, a exemplo de:
• g logwage=log(wage) ou lnwage=ln(wage)
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 33
34. NORMAL
ESCORE PADRÃO (Z) E A CURVA NORMAL
• O Z-escore nos diz quantos desvios-padrão um valor X está acima ou
abaixo da média.
• Tem algumas utilidades quando trabalhamos com a Normal e também é
utilizado para identificar outliers univariados (geralmente 3 DP da média
– mas fiquem de olho no tamanho da amostra, as pequenas são mais
sensíveis). Também é usada para tratar o efeito do uso de diferentes
escalas na análise multivariada.
• Para identificar outliers com o Z-escore, presume-se a normalidade dos
dados. Quando os dados não são normalmente distribuídos, o box-plot é
uma ferramenta melhor para detectá-los.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 34
36. NORMAL
ESCORE PADRÃO (Z) E A CURVA NORMAL
• Supondo que os dados são normalmente distribuídos e que têm média 9,5
e desvio-padrão de 17, qual é o Z-Escore de uma observação X = 53?
• Calcule o Z-Escore da variável FCO, na planilha “Pasta 1”, de modo a
encontrar possíveis outliers.
• Quais são os outliers, usando 2 DP da média, por ser uma amostra
pequena?
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 36
37. NORMAL
• Como padronizar variáveis no Stata, com o Z-escore (exemplo com Wage):
• sum wage
• ** A média foi 7.766949 e o desvio-padrão foi 5.755523. Aplicamos isso
na fórmula do Z-escore para padronizar a variável, fazendo com que
ela fique com média zero e variância constante
• ** Crio a nova variável
• g Zwage=(wage-7.766949)/5.755523
• ** Verificando:
• sum Zwage
• Para calcular o Z-Escore, existe também a função “padronizar” no Excel.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 37
38. AMOSTRAS E POPULAÇÕES
• A contabilidade é uma ciência social aplicada, isso implica dizer que temos
tempo e recursos escassos (por exemplo não dá para entrevistar todos os
auditores do mundo). Para tirar nossas conclusões, partimos de um grupo
pequeno de indivíduos (amostra) e fazemos inferências sobre o grupo de
todos os indivíduos (população).
• Amostragem aleatória x não aleatória (intencional)
• O resultado obtido na amostragem dificilmente será
igual ao da população, devido ao “erro amostral”.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 38
Todos têm a mesma chance de
estar na amostra
Não estamos falando de “erro intencional”: cada amostra terá características
“próprias”, mas não intencionais. Ex.: QIC apenas em empresas do Novo Mercado
39. AMOSTRAS E POPULAÇÕES
INTERVALO DE CONFIANÇA
• Nós convencionamos usar 95% como nível de confiança (Z = 1,96 para cada lado,
– 47,5% e + 47,5% = 95% - VER NA TABELA NORMAL = 5%/2 = 2,5%).
• Mesmo usando os 95% de nível de confiança, podemos ter a “sorte” de selecionar
uma amostra que gere uma média dentro dos 5% restantes. Exemplo com várias
amostras da idade da turma.
• Calcule a média do FCO e utilize o nível de 95% para estimar um intervalo de
confiança: Média amostral + ou – 1,96*[DP/(N^0,5)]. Considere que o desvio-
padrão da amostra é igual ao da população.
• Considerando que a um nível de significância de 90% o Z é 1,645 (90%/2 = 0,45
buscando 0,45 na Tabela Normal, temos 1,645 aproximadamente), estime o IC do
FCO.
• Agora considere um nível de 99% (Z = 2,575) para o mesmo FCO.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 39
40. AMOSTRAS E POPULAÇÕES
DISTRIBUIÇÃO t
• Anteriormente consideramos que sabíamos o desvio-padrão da população.
Isso faz pouco sentido!
• Para poder usar o DP amostral, basta utilizar o ajuste nos graus de
liberdade que vimos na aula passada: Média amostral + ou – t*{DP/[(N –
1)^0,5]}.
• Em amostras grandes isso faz pouca diferença. À medida que aumentamos
os GL a t tende à normal.
• A tabela t de Student é um pouco diferente da normal, ela usa os GL (N-1)
e o alfa. Lembrem de dividir por 2, porque estamos falando de duas
caudas.
• Refaça os exercícios do slide anterior, considerando a tabela t.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 40
41. APLICAÇÃO 1
• Vamos usar outras metodologias de detecção de outliers.
• Use a base “dados para aula de normalidade” para detector outliers na
variável “rpegaverage”, comparando com a variável “cob_eps”:
• sum rpegaverage cob_eps
• extremes rpegaverage cob_eps
• scatter rpegaverage cob_eps
www.contabilidademq.blogspot.com Felipe Pontes 41
42. APLICAÇÃO 2
• Utilize a base de dados da aula de hoje (Plan1) para efetuar uma análise
descritiva (estatísticas descritivas, testes de normalidade, detecção de
outliers etc).
• Escreva um relatório, como se fosse um artigo. Por isso vocês analisaram
as estatísticas descritivas de um artigo na semana passada!
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 42
43. Questões para a próxima aula
1. Por que experimentos controlados são importantes?
2. Defina variáveis aleatórias e diferencie as contínuas das discretas.
3. Como calcular o valor esperado de uma variável aleatória?
4. Cite 2 exemplos de experimentos controlados. 1 deles deve ser um artigo
publicado em uma revista A1, A2 ou B1.
5. Cite algumas maneiras de se “induzir” a normalidade dos dados (não se limite
aos slides). A ideia é buscar maneiras de se “corrigir” esse problema.
6. Diferencie amostragem aleatória da não aleatória. Quais são as vantagens e
desvantagens de cada uma delas?
7. O que é amostragem por cotas, por julgamento, aleatória simples, sistemática e
estratificada?
8. Como se pode estimar o tamanho de uma amostra confiável?
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 43
44. Para ter acesso a mais conteúdos,
acesse:
• Blogs
www.ContabilidadeMQ.blogspot.com
www.FinancasAplicadasBrasil.blogspot.com
• Facebook:
www.facebook.com/ContabilidadeMQ
• Twitter:
www.twitter.com/ContabilidadeMQ
• YouTube:
www.youtube.com/ContabilidadeMQ
44
45. www.contabilidademq.blogspot.com Felipe Pontes 4545
it
k
k
ktk
k
kitk
j
jitjit XCustosIncAD 1
,,2,,10
𝑃𝑡 =
𝜏=1
∞
𝑅𝑓−𝑡
𝐸𝜏 𝑑 𝑡+𝜏
youtube.com/contabilidademq
@felfelipepontes
@contabilidademq
Slideshare.net/felipepontes16
/pontesfelipe Se inscreva em nosso canal e
ative as notificações para não
perder nada!