SlideShare uma empresa Scribd logo
1 de 46
Laboratoris Estadística FIB P09                                                    Guió S1 Introducció




Sessió 1. Introducció al Paquet Estadístic MINITAB

Les pràctiques de laboratori s’efectuen en MINITAB per Windows. Es veuran els mòduls més
directament relacionats amb l’assignatura: lectura/escriptura d’arxius, DESCRIBE, BOXPLOT,
HISTOGRAM (estadística descriptiva), taules encreuades (CROSS TABLES), les macros,
generació de mostres, etc.; tanmateix com un resum d’utilitats d’operació que permeten de
realitzar anàlisis coherents i complertes dels conjunts de dades que es proposen.
Un directori del servidor conté tots els arxius de dades (ASCII i .mtw) que s’usaran al llarg del
curs, una descripció exhaustiva dels quals es pot trobar en el propi guió de la pràctica.
Els documents de les sessions de laboratori presenten la descripció i exercicis de cada pràctica,
la lectura de la qual es considera imprescindible abans de l’inici de la sessió de laboratori
corresponent: el contingut de l’enunciat és en molts casos necesari per a la complimentació dels
qüestionaris proposats, i com a pauta general no es tornaran a explicar a les sessions de
laboratori.
La resolució dels qüestionaris proposats a les sessions de pràctiques es realitzarà amb alguns dels
arxius indicats en cada cas.


Recomanacions pràctiques:
    •    Un cop dintre del MINITAB, per obrir fitxers de més de 10000 cel·les en versions
         anteriors a la 12 de MINITAB cal fer:
         EDIT --> Save Preferences --> General --> i aquí canviar el Worksheet Size, per
         exemple posant-hi 100000.
    •    Cal observar si surt el prompt MTB>, per a poder usar comandes MINITAB sense haver
         d´utilitzar el menú de WINDOWS. Si no surt, cal fer (amb la finestra Session activa):
                                     Editor --> Enable Commands




    •    Per copiar arxius de dades de l’assignatura ESTADÍSTICA s’ha d´accedir al servidor
         dins del domini SMBFIBP on es troba una carpeta dita ASSIG que conté el directoris
         amb els fitxers de dades de les assignatures i entre elles l’Estadística .
    •    Per qüestions de concurrència es pot produir un error de lectura si tothom vol obrir alhora
         el mateix fitxer. En aquests casos resulta recomanable que cada grup de pràctiques es
         copïi el fitxer a analitzar sobre el seu compte i treballi en local.



Departament d’Estadística i Investigació Operativa UPC                                  Guió S1 pàg 1
Laboratoris Estadística FIB P09                                                    Guió S1 Introducció




El paquet estadístic MINITAB per Windows té un funcionament interactiu interpretat. Realitza
operacions sobre un full de dades (worksheet) que es pot considerar com una matriu de dades on
les columnes s’identifiquen amb les variables que tenen com a nom per defecte c1, c2, c3, etc, i
les files representen les observacions de les variables. Les variables poden tenir un nombre
d’observacions diferent segons les necessitats o transformacions realitzades per l’usuari. Els fulls
de dades es representen a nivell de sistema operatiu com a arxius amb una extensió per defecte
.mtw.


A més de columnes, existeixen d’altres estructures de dades en MINITAB, però en aquest punt
només resulta d’interès comentar la possibilitat d’usar constants, que per defecte s’anomenen k1,
k2, k3, etc. Tant les variables, com les constants poden tenir noms particularitzats a l’aplicació
de l’usuari i això s’assoleix amb la comanda NAME:


         MTB> NAME K1 ‘DADES’
         Alerta! Qualsevol referència posterior, en comandes, a la variable dades
         ha de fer-se amb la cadena de caràcters entre cometes.



El MINITAB en entorn WINDOWS s’articula en dues pantalles bàsiques: una amb el full de
dades (Data Window) i una altra amb el diàleg amb l’usuari i els resultats de l’execució dels
procediment requerits (Session Window). Per defecte, existeixen dues finestres auxiliars visibles
a petició de l’usuari: History Window i Info Window, respectivament amb la llista de les
darreres comandes sol·licitades per l’usuari i la síntesi de continguts del full de dades.


L’estructura de les comandes és:


         MTB > COMANDA paràmetres1 ; return
         SUBC> Subcomanda            paràmetres2 ; return
         SUBC> Subcomanda            paràmetres3 . return


Les comandes poden tenir subcomandes i per entrar en aquest nivell cal introduir un punt i coma
";" abans de prémer return, per sortir del nivell de subcomandes i executar cal introduir un
punt "." abans del return .


El HELP és molt satisfactori i en les sessions de pràctiques és recomanable el seu us, de manera
que l’alumne assoleixi en finalitzar el curs prou agilitat amb el sistema com per poder consultar i
entendre l’ús de comandes que desconegui sintàcticament. No cal oblidar que l’entorn
MINITAB té un gran nombre de comandes i possibilitats i la gran majoria d’usuari només
coneixen una fracció molt petita de les seves possibilitats. En entorn Windows, el HELP és
sensitiu al context i es pot invocar des de qualsevol punt.




Departament d’Estadística i Investigació Operativa UPC                                  Guió S1 pàg 2
Laboratoris Estadística FIB P09                                                    Guió S1 Introducció




En versions no WINDOWS (o des de llenguatge de comandes), la comanda STOP permet
d’aturar una sessió MINITAB i retornar l’usuari a nivell de sistema operatiu i la comanda
OUTFILE possibilita la creació d’un arxiu de seguiment de la sessió, és a dir un arxiu on es
guarden les comandes sol·licitades per l’usuari i a la vegada els resultats d’executar-les.


En entorn WINDOWS, sortir del sistema MINITAB s’assoleix amb la selecció d’icones File
Exit. Pel recull de la sessió de treball en un arxiu de text s’activa la finestra File Save Session
Window As o bé es seleccionen les icones File Save Project as (salva fulls i icones de resultats
oberts, text i gràfics) o File SaveWorksheet As només per salvar el full de dades actual.


Una manera ràpida de consultar el nombre de columnes/variables existents en un full de dades és
la comanda INFO, que a la vegada informa de l’existència de noms lligats per l’usuari a les
variables i del nombre d’observacions de cadascuna. En entorn Windows cal seleccionar les
icones Window Info.


Una primera tasca fonamental consisteix en comunicar-se amb l’entorn de l’ordinador, és a dir la
lectura/escriptura de dades, bé en format ASCII o en format intern MINITAB. La
lectura/escriptura de dades en format ASCII es realitza amb les comandes READ i WRITE
respectivament. La lectura/escriptura d’arxius de dades en format intern mitjançant les comandes
RETRIEVE i SAVE, respectivament. La lectura i escriptura de fitxers s’aconsella s’efectüi a
partir de les icones de l’entorn Windows:


• Arxius en format intern Minitab: Icó File OpenWorksheet (lectura d’un arxiu existent), File
  NewWorksheet (creació d’un nou full de dades), Save (As) Worksheet (escriptura).
• Arxius en format ASCII: File OtherFiles ImportASCIIData (lectura) i File OtherFiles
  ExportASCIIData (escriptura).
• Per recuperar un projecte anterior (fulls de càlculs i resultats): Icó File OpenProject.


En la gran majoria d’estudis d’estadística descriptiva, és necessari de transformar les dades
originals: per suprimir alguns valors no adequats, per crear variables derivades de les originals
que presenten millors propietats de cara al tipus d’anàlisi posterior, etc.


Les comandes MINITAB de transformació i creació de noves variables són bàsicament tres:


1. LET. Crea una nova variable com a funció matemàtica de variables prèviament existents, per
   ex: LET C100 = 10*C1 + C2. En entorn Windows cal seleccionar les opcions Calculate
   Calculator.


2. COPY. Crea una nova variable que conté un subconjunt (o tots) de valors de la variable
   original, seleccionats per un criteri molt flexible funció del número d’observació o funció dels
   valors d’una tercera variable que juga el paper de selector. Les diferències en les dues

Departament d’Estadística i Investigació Operativa UPC                                  Guió S1 pàg 3
Laboratoris Estadística FIB P09                                                 Guió S1 Introducció




   maneres de selecció es comentaran àmpliament a classe de pràctiques, aquí només es dóna la
   sintaxi de les dues funcionalitats:

         MTB > COPY C1 C2;                                 MTB > COPY C1 C2;
         SUBC> USE C1 4:7.                                 SUBC> USE     4:7.



En entorn Windows cal seleccionar les icones Manipulate CopyColumns.


3. CODE. Pot crear una nova variable amb certs valors originals transformats segons uns criteris
   de rang de valors. És fonamental per la codificació dels missings com ‘*’:


         MTB> CODE (0) 99 (3:5) 3 (9) ‘*’ C1 C2                   que efectua




                  C1                 C2
                  0                  99
                  3a5                3
                  9                  Missing
                  Resta              No canvien


En entorn Windows cal seleccionar les icones Manipulate Code Numeric to Numeric, o Code
Numeric to Text, etc, segons convingui reagrupar intervals de valors numerics en codis
numèrics o en símbols... Quan es tracta de codificar intervals d’una variable numèrica, el propi
Minitab decidirà per quin dels dos extrems tancarà l’interval i l’altre quedarà obert.




Departament d’Estadística i Investigació Operativa UPC                               Guió S1 pàg 4
Laboratoris d’Estadística FIB P09                                                     Guió S2: univariant




Sessió 2. Estadística Descriptiva Univariant


L’estadística descriptiva univariant és la primera de les etapes a realitzar en qualsevol estudi
d’anàlisi de dades. Té per objectiu facilitar una prospecció intuïtiva de la informació continguda a
l’arxiu de dades, així com orientar els procediments posteriors.


Cal tenir en compte que la majoria de vegades, les dades reals (no simulades) vindran verges, sense
cap manipulació ni revisió prèvia. És tasca fonamental realitzar-ne un correcte depurat abans
d’efectuar l’anàlisi, tot corregint-ne possibles errors o defectes.


De fet, la qualitat de les conclusions de l’anàlisi, és directament proporcional a la qualitat de les
dades. Si el procés de depurat és deficient, la utilitat dels resultats pot ser dubtosa, i ens arrisquem a
prendre decisions equivocades, de nefastes conseqüències en moltes ocasions.


Dins la fase de depuració de les dades, hi ha uns quants punts a considerar:


• Les dades mancants, en anglès nomenades missings. Es tracta de dades absents, de caselles de
  la matriu de dades sense contingut. La causa d’una dada mancant, és variada i pot anar des de la
  simple pèrdua, o inaccessibilitat de la dada, fins a l’ocultació voluntària (no resposta en
  enquesta, filtració, etc.). En general vindran representades de dues formes: amb una casella
  blanca, o utilitzant un codi numèric atípic per la variable (valor fora de rang o molt gran),
  desitjablement detectables directament per inspecció visual.
   Amb Minitab, aquests forats es poden omplir amb un valor especial: l’asterisc, *; que indica
   valor a no tenir en compte en procediments estadístics. De vegades, serà necessari tractar
   d’imputar algun valor hipotètic per aquestes dades, per tal d’aprofitar el contingut del registre
   corresponent en altres variables. La imputació es fa especialment necessària en anàlisis bi o
   multivariants i constitueix un problema molt difícil que no és en absolut objecte d’aquest curs
   introductori, però volem deixar constància d’aquesta possibilitat per a que no es creï la falsa idea
   que sempre s’han de substituir els codis mancants per un *.


• Les dades anòmales o aberrants, en anglès denominades outliers . Una dada és un outlier si és
  una observació anormalment llunyana de la resta i sol ésser d’interès detectar-ne el màxim
  possible de les existents en la fase inicial de l’anàlisi exploratori.
   Un outlier no ha de correspondre forçosament a un error de codificació/gravació, pot
   correspondre a un individu realment diferenciat de la resta, o pot ser precisament la representació
   d’un codi de dada mancant, etc.
   El tractament dels outliers no és en absolut automàtic. Algunes vegades convé mantenir-los,
   d’altres són causa de gran inestabilitat numèrica i és recomanable la seva eliminació, d’altres
   caldrà fer-ne un tractament individualitzat, etc.

Departament d’Estadística iIinvestigació Operativa UPC                                    Guió S2 pàg. 1
Laboratoris d’Estadística FIB P09                                                               Guió S2: univariant

      Però sempre s’han de resseguir, perquè són de gran valor descriptiu i la primera cosa que cal fer
      és identificar l’objecte (l’individu) que l’està generant. Sovint, el mateix individu presenta valors
      anòmals en diverses variables alhora i podrem entendre millor la seva naturalesa fent-ne una
      valoració global.
      En qualsevol cas, es tractament d’outliers s’ha de fer sempre amb molta cura. Eliminar-los (o
      substituit-los per un ‘*’ indiscriminadament pot ser causa d’errors d’interpretació greu. Vegi’s el
      següent fragment a títol il.lustratiu sobre les conseqüències d’un tractament irresponsable de
      dades anòmales:
            “El 1985 uns científics britànics van advertir d’un forat en la capa d’ozó de l’atmosfera
            terrestre sobre el Pol Sud. Això suposava un problema, ja que l’ozó ens protegeix del
            càncer que provoquen les radiacions ultravioleta. L’informe britànic va ser mensytingut
            d’entrada, perquè es basava en instruments que observaven l’atmosfera des de terra.
            Altres observacions més comprensives eren les que provenien d’un satèl.lit que
            observaven l’atmosfera des de dalt i no mostraven res inusual. Més tard, l’examen de les
            dades del satèl.lit va revelar que el Pol Sud presentava lectures d’ozó tan i tan baixes
            que el software del computador que s’utilitzava per analitzar les dades les havia
            suprimit automàticament com si fossin outliers deguts a errors de mesura!!! Es van
            reanalitzar les lectures antigues des del 1979 i van posar de manifest que hi havia un
            enorme i creixent forat en la capa d’ozó que era inexplicable i possiblement perillós.”
            [1]
      Els computadors que analitzen grans volums de dades sovint es programen per suprimir els
      outliers automàticament, com a mesura de protecció contra els errors en les dades. Com
      l’exemple del forat de la capa d’ozó il.lustra, suprimir un outlier sense investigar-lo pot ocultar
      informació de gran valua.


Així doncs, abans d’enfrontar-nos a la descripció d’un conjunt de dades, procurarem efectuar-ne un
correcte depurat.


Tant per a la identificació de missings i outliers com per a la pròpia anàlisi descriptiva, ens
ajudarem d’un mateix conjunt d’eines numèriques i gràfiques que ens donin una visió perspectiva
(sintètica) i informativa de l’estructura de les dades i el seu comportament.


En aquest capítol estudiarem i tractarem de caracteritzar les variables d’una en una. És l’anàlisi
descriptiva univariant. Ja s’ha vist que les variables es divideixen en numèriques (contínues o
discretes) i categòriques (ordinals o nominals).


El tractament descriptiu d’unes i altres variarà i el presentarem de forma separada. El principal
objectiu d’una descriptiva univariant és sintetitzar el patró general que segueix una variable i
caracteritzar-ne les desviacions respecte d’aquest patró (outliers, fluctuacions en general, etc). Per
fer-ho, combinarem eines de diferent naturalesa:
      •    Gràfiques: Visualitzen com estan distribuïts els valors d’una variable
      •    Numèriques: Sintetitzen i quantifiquen el que s’observa en el gràfic.



1
    “Hole in ozone over South Pole worries scientists”. James Gleick. The New York Times, July 29, 1986


Departament d’Estadística iIinvestigació Operativa UPC                                              Guió S2 pàg. 2
Laboratoris d’Estadística FIB P09                                                                   Guió S2: univariant

L’arxiu CINT2000-2005.MTW conté informació sobre uns estudis de benchmark de l’SPEC
(http://www.spec.org/) amb les següents columnes:
         • Company, System, Num_proc , Processor, i Proc informen de les diferents característiques
           de cadascuna de les màquines on s’executa el programa de càlcul.
         • MHz velocitat del processador .
         • 1st Cache , 2n Cache descriuen el tamany de cadascuna de les dues memòries Cache.
         • Memory ens informa de la quantitat i el tamany de casdascun dels mòduls de la memòria
           principal.
         • mem és el tamany total de memòria RAM.
         • Op.Sys. sistema operatiu sobre el qual s’ha executat el programa
         • Compiler compilador amb que s’ha compilat el programa
         • Result resultats obtinguts després d’executar el programa amb les opcions òptimes
         • Baseline resultats obtinguts després d’executar el programa amb les opcions bàsiques
         • Test Date mes i any en que s’ha fet l’execució


A partir d’aquestes columnes afegim unes variables derivades d’algunes de les columnes per
facilitar-ne el tractament:
         • Any que és només la informació d’any del Test Date.
         • SO és la columna Op.Sys restringint-se al nom genèric (eliminant les variants dins de cada
           família)


Classificarem, per tipus, les variables que ens poden ser útils:


Variable     Contínua   Discreta    Ordinal   Nominal    Variable   Contínua   Discreta   Ordinal    Nominal
Company                                                  System
Processor                                                  Proc
 Op.Sys.                                                 Compiler
 MHz                                                      mem
  Result                                                 Baseline
   Any                                                     SO




Departament d’Estadística iIinvestigació Operativa UPC                                                  Guió S2 pàg. 3
Laboratoris d’Estadística FIB P09                                                    Guió S2: univariant

DESCRIPCIÓ NUMÈRICA DE VARIABLES NUMÈRIQUES

Es busca resumir la informació d’una variable mitjançant indicadors numèrics robustos i clàssics de
la distribució de la variable. Els indicadors clàssics són molt sensibles a la presència d’outliers i els
seus valors experimenten fortes modificacions amb o sense aquests valors extrems. Els indicadors
robustos van aparèixer posteriorment amb l’objectiu de tenir un comportament més estable i són
resistents a la presència de valors extrems en les observacions (possibles outliers). Els primers són
més comunment coneguts i resulten d’especial interès en aquest curs per la seva estreta relació amb
certs conceptes bàsics de la Teoria de la Probabilitat com són l’Esperança Matemàtica i la Variància
(que es veurà en el seu dia).
Dels indicadors numèrics, ens interessa especialment:
• La Tendència Central: indica el valor de la variable al voltant del qual s’estan distribuïnt les
  observacions. Hi ha diverses formes de mesurar-la
                                 1 n
    - Clàssica: la mitjana x =     ∑ o en termes MINITAB mean, valor que prendrien les
                                 n i =1 xi
    observacions si no hi hagués variabilitat i totes fossin iguals.
    - Robusta: mediana (Me o median en terminologia MINITAB), definida com el valor real tal que
    el 50% de les observacions prenen un valor inferior a Me i el 50% prenen un valor superior.
• La Dispersió: mesura quant fluctuen les observacions d’una variable al voltant de la tendència
  central. Formes de mesurar-la:
                                   1 n
                                    2
    - Clàssica: variància      sx     ∑ ( xi − x)2 o la seva arrel quadrada que s’anomena desviació
                                        =
                                 n − 1 i =1
    tipus o estàndard s x , i ve en les mateixes unitats de mesura que la variable. MINITAB no
    calcula directament la variància per a una variable, però es pot trobar la desviació tipus amb la
                                                                             n
                                                                 2     1
    instrucció STDEV. També es pot calcular via la fórmula s =            [∑ xi2 − n( x) 2 ]
                                                               x     n − 1 i =1
    - Robusta: distància interquartilar (IQR) definida com la diferència entre els quartils del 75 (Q3)
    i 25% (Q1) (en terminologia MINITAB IQR=Q3-Q1) on:
         1. Q1 és un valor real tal que el 25% de les observacions prenen un valor inferior a Q1.
         2. Q3 és tal que un 25% de les observacions prenen un valor superior a Q3.
•   Simetria: Indica si les fluctuacions entorn la tendència central s’equilibren per sobre i per sota
    d’aquest valor, o per contra, pesen més d’una banda que d’una altra. Aquesta és una
    característica fàcilment valorable sobre una representació gràfica. Existeixen indicadors
    específics que ho quantifiquen, que no s’introdueixen en aquest curs. Però ens pot ajudar a
    identificar el sentit d’una asimetria la comparació entre mitjana i mediana, o entre Q3-Me i Me-
    Q1.


Molts d’aquests valors es troben a la sortida de la instrucció MINITAB DESCRIBE. En entorn
Windows, els anteriors estadístics s’obtenen seleccionant les icones Statistics >Basic Statistics
>Display Descriptive Statistics.




Departament d’Estadística iIinvestigació Operativa UPC                                   Guió S2 pàg. 4
Laboratoris d’Estadística FIB P09                                                   Guió S2: univariant

DESCRIPCIÓ GRÀFICA DE VARIABLES NUMÈRIQUES

La visualització de la distribució d‘una variable numèrica es complementa amb la descripció
numèrica de la mateixa. Aquesta visualització es pot obtenir mitjançant diverses eines gràfiques
MINITAB: dot-plot, histograma, box-plot, i d’altres.

                                min     Q1 median Q3              max



                                                                    *


                                               IQR
     Outliers suaus                                              Outliers suaus   Outliers extrems




L’esquema vol il·lustrar en què consisteix el box-plot (o diagrama de caixa i bigoti). Visualitza el
que es coneix com a “Resum en cinc números” (Min, Q1, Me, Q3, Max) i permet observar la
ubicació de la tendència central, la dispersió, la simetria de la distribució, l’existència d’outliers,
etc. La caixa central representa el 50% de les observacions, les que són entre el primer quartil i el
tercer quartil; la mediana s’explicita amb una línia. Els bigotis són les línies que es prolonguen als
costats de la caixa central. Per exemple, en la cua superior es construeix un punt imaginari, situat a
1.5 vegades el IQR a partir del tercer quartil. El bigoti arribarà fins a l’observació més gran, però
menor o igual que aquest límit. La zona que queda entre els punts Q3+1,5IQR i Q3+3IQR
s’anomena zona d’outliers suaus i cadascuna de les observacions que es troben en aquesta zona es
representarà com a ‘*’, i anàlogament amb la cua inferior. La zona superior al punt Q3+3IQR
s’anomena zona d’outliers extrems. Si una dada és outlier es posiciona en alguna d’aquestes zones
(outliers suaus o extrems ). El recíproc no és cert. La caracterització anterior és indicativa i és
l´estadístic qui determina si un valor és o no un outlier. Com a norma general no és preocupant
observar fins a un 1% d’outliers extrems i fins a un 5% d’outliers suaus en una distribució
qualsevol.
L’histograma és una representació molt utilitzada que representa barres d’altura proporcional al
nombre d’observacions sobre uns intervals que es defineixen (automàticament per a nosaltres)
sobre l’eix de la variable. Permet observar també la situació de la tendència central, la magnitud de
la dispersió, l’existència de dades extremes, la simetria de la distribució i algunes característiques
significatives com per exemple l’existència de diversos pics (vàries tendències centrals...n-
modalitat), el possible truncament d’una cua de la distribució (escarpat) o defectes en el
procediment de mesura (histograma escalat).


Les comandes bàsiques MINITAB per Estadística Descriptiva Univariant Gràfica són BOXPLOT i
HISTOGRAM. En entorn Windows, l’obtenció de boxplots requereix seleccionar les icones Graph
Boxplot i per tenir histogrames Graph Histo.




Departament d’Estadística iIinvestigació Operativa UPC                                  Guió S2 pàg. 5
Laboratoris d’Estadística FIB P09                                                                           Guió S2: univariant

A. La variable Result
A1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable Result:
           • Grandària (sense missings) ..........                • Mínim ............ Màxim ............
           • Primer quartil Q1            ....................    • Mitjana       ....................................
           • Mediana                      ....................    • Desviació estàndard ...................
           • Tercer quartil Q3            .....................


Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la
taula d’indicadors numèrics podem concloure:
Hi ha dades mancants inicialment?                          Sí     No
S’observen dades extremes o outliers?                      Sí     No
En aquest cas s’observa que hi ha molts casos amb valor 0. No són outliers, i caldria fer estudis
concrets d’aquestes dades per controlar-ne les causes però el que farem serà substituir-los per dades
mancants per poder estudiar el gruix de les altres dades.
La operació de substitució és la instrucció CODE de Minitab obtenint la columna Resultat com a
Result depurada:
MTB > Code (...) '*' 'Result' 'Resultat' (Data->Code->Numeric to numeric)


A2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada:
           • Grandària (sense missings) ..........                • Mínim ....... Màxim .............
           • Primer quartil Q1            ....................    • Mitjana       ...................................
           • Mediana                      ....................    • Desviació estàndard ................
           • Tercer quartil Q3            ....................    • Variància                     ................
           • IQR                          .....................


Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en
les característiques de la variable abans i després de depurar




Departament d’Estadística iIinvestigació Operativa UPC                                                               Guió S2 pàg. 6
Laboratoris d’Estadística FIB P09                                                                            Guió S2: univariant

A3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins
indicadors ho veiem, en els aspectes següents:
- Tendència Central.



- Dispersió.



- Simetria.




B. La variable mem
B1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable mem:
           • Grandària (sense missings) ..........                  • Mínim ............. Màxim .............
           • Primer quartil Q1            .......... ........       • Mitjana      ....................................
           • Mediana                      .....................     • Desviació estàndard ............... Mb.
           • Tercer quartil Q3            .......................
Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la
taula d’indicadors numèrics podem concloure:
Hi ha dades mancants inicialment?                          Sí       No
S’observen dades extremes o outliers?                      Sí       No
La operació per substituïr els outliers és la instrucció CODE de Minitab obtenint la columna
memoria com a mem depurada.
MTB > Code ( ... ) '*' 'Mem' 'memoria' (Data->Code->Numeric to numeric)

B2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada:
           • Grandària (sense missings) .............               • Mínim .......... Màxim ............
           • Primer quartil Q1            ......................    • Mitjana      .....................................
           • Mediana                      ......................    • Desviació estàndard ................Mb.
           • Tercer quartil Q3            ....................      • Variància            ....................... Mb2.
           • IQR                          ...................




Departament d’Estadística iIinvestigació Operativa UPC                                                             Guió S2 pàg. 7
Laboratoris d’Estadística FIB P09                                                Guió S2: univariant

Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en
les característiques de la variable abans i després de depurar (en aquest cas s’observa que es pot
entrar en un procés iteratiu de detecció, substitució, nova detecció d’outliers,...)




B3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins
indicadors ho veiem, en els aspectes següents:
- Tendència Central:


- Dispersió :


- Simetria




B4. Estudiarem en aquest cas la possibilitat de transformar la variable enlloc d’entrar en un procés
iteratiu de detecció i substitució de nous outliers (crearem la variable log_mem usant una
transformació força habitual que és el logaritme i que tornarem a usar més endevant)




Departament d’Estadística iIinvestigació Operativa UPC                               Guió S2 pàg. 8
Laboratoris d’Estadística FIB P09                                                                                      Guió S2: univariant

            DESCRIPCIÓ DE VARIABLES CATEGÒRIQUES

            Les variables categòriques no prenen valors numèrics, sinó modalitats o categories (per exemple, el
            sexe pot ser home o dona, o el color dels ulls pot ser blau, verd, marró, etc.). Les variables
            categòriques no tenen significat numèric, tampoc té sentit establir mesures de tendència o de
            dispersió. Les variables categòriques es descriuen numèricament amb recomptes de les modalitats
            presents (icones Stat Tables Tally) o indicant la modalitat més freqüent de totes (Moda).


            La representació gràfica que visualitza el resultat d’un tally és el diagrama de barres: icones
            Graph Chart. Si hi ha poques categories també és adequada la representació gràfica via la selecció
            de les icones Graph Pie Chart en entorn Windows.


            La interpretació serà molt més senzilla en aquest cas: quantes modalitats hi ha? Es distribueixen
            uniformement? Quines abunden més? ... o menys?


            Si la variable és ordinal convé estudiar tendències: les modalitats d’ordre superior abunden més?
            Conforme creix l’ordre d’una modalitat creix la seva freqüència? ... o decreix? Però per a fer-ho,
            caldrà que les modalitats es representin ordenades correctament sobre el gràfic. Per a fer-ho, cal
            indicar a Minitab, que l’ordre de les modalitats està definit i que ha de respectar aquest ordre en
            totes les representacions (a la finestra que visualitza el fitxer de dades, posicionarse sobre el nom de
            la variable, punxar el boto dret del ratoli i apareixerà un desplegable; seleccionar Column>Value
            Order, marcar User Specified Order, definir l’ordre sobre la finestra dreta del formulari i fer Add
            Order; assegurar-se que queda seleccionat abans d’acceptar)


            La figura de l’esquerra mostra un típic histograma (consum per autopista), apropiat per les
            característiques de la variable: quantitativa i contínua.



                                                                                         60
             15
                                                                                         50
                                                                     Count of students




                                                                                         40
Frequency




             10
                                                                                         30

                                                                                         20
              5
                                                                                         10

                                                                                         0
              0
                                                                                                   ia       e   ny              ds         en
                                                                                                str      nc   ma Ital
                                                                                                                     y        an pai n
                  4   5    6    7     8   9      10   11   12   13
                                                                                              Au      Fra Ger              erl           ed     UK
                                                                                                                       Neth       S    Sw
                                    cons-autop
                                                                                                                   students
            Un diagrama de barres com el de la dreta serà útil per descriure una variable categòrica: observeu
            que la adjacència de les barres del histograma subratlla l'aspecte numèric de la variable, i la
            separació d'aquest diagrama destaca l’heterogeneïtat de les modalitats en el cas categòric.




            Departament d’Estadística iIinvestigació Operativa UPC                                                                      Guió S2 pàg. 9
Laboratoris d’Estadística FIB P09                                                  Guió S2: univariant

C. La variable SO
A partir de la variable SO crearem, amb la instrucció CODE una variable “WinNoWin”
recodificada segons la següent equivalència:
SO Windows: W2000,W2003,XP                                  recodificats com a Win
SO no windows: Linux,Unix,HP-UX,SOLARIS,Otros               recodificats com a NoWin


Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques
(diagrama de barres o pastís) analitzarem les característiques de la nova variable




D. La variable Any
Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques
(diagrama de barres o pastís) analitzarem les característiques de la variable Any.




AVÍS: Cal guardar còpia del fitxer amb les variables “Resultat” i “memoria” depurades i amb la
nova variable “WinNoWin” per a la propera sessió de laboratori.



Departament d’Estadística iIinvestigació Operativa UPC                                Guió S2 pàg. 10
Laboratoris d’Estadística FIB P09                                                Qüestionari: univariant

NOMS:


Qüestionari de Descriptiva univariant.

1.- Per a la variable de resultat abans de depurar (Result) i després de depurar (Resultat) indiqueu
els canvis observats numèricament i gràfica de les característiques de:
- Tendència Central i Dispersió




- Simetria i Outliers




2.-Per a la variable de memòria abans de depurar (Mem) i després de depurar (Memoria i
log_mem) indiqueu els canvis observats numèricament i gràfica de les característiques de:
- Tendència Central i Dispersió




- Simetria i Outliers




3.- Indiqueu quins indicadors han canviat molt i quins no, a l’eliminar outliers. I indiqueu com
s’anomenen uns i altres segons si varien molt o no.




Departament d’Estadística i Investigació Operativa UPC                                          pàg. 1
Laboratoris d’Estadística FIB P09                                               Qüestionari: univariant


4.- Quins són els indicadors de dispersió clàssics i quines unitats tenen? Indiqueu com es calculen.




5.- Per a les variables SO, WinNoWin i Any indiqueu les característiques de les respectives
distribucions (com les descriurieu per a un informe)




Departament d’Estadística i Investigació Operativa UPC                                         pàg. 2
Laboratoris d’Estadística FIB T09                                                                Guió S3: Problemes de CP i VA




Sessió 3. Càlcul de Probabilitats i Variable aleatòria
Els esquemes següents representen les fórmules de càlcul de probabilitats de la primera pàgina del
formulari:
                                                     Ω
                                                           A



                                                     0 ≤ P(A) ≤ 1              P(Ω) = 1



                       A
                                                                                          A
                                                 B                                                                B


       P(A ∪ B) = P(A)+ P(B)- P(A ∩ B) si A ∩ B ≠ 0                               P(A ∪ B) = P(A) + P(B) si A i B disjunts

                                                         A1       A2        ...
                                                                        B               Ai



                                            P( B | Ai ) ⋅ P( Ai )                          J
                           P( Ai | B ) =   J
                                                                                  P(B) = ∑ P( B | A j) ⋅ P(A j)
                                           ∑ P(B
                                           j=1
                                                         | A j) ⋅ P( A j)                  j=1




                                                                      P(B|A)
                                                                                      B


                                                                  A
                                                 P(A)
                                                                      P(NoB|A)       NoB

                                            P(NoA)                    P(B|NoA)         B
                                                              NoA

                                                               P(NoB|NoA)
                                                                                    NoB

                                                     P(A ∩ B)
                                    P(B | A) =                P(A ∩ B) = P(A) ⋅ P(B | A)
                                                       P(A)


Departament d’Estadística i Investigació Operativa UPC                                                         Guió S3 pàg. 1
Laboratoris d’Estadística FIB T09                                                 Guió S3: Problemes de CP i VA




Dependència i independència en CP

Amb les probabilitats conjuntes:

                           B                  ¬B
            A            P(A∩B)           P(A∩¬B)        P(A)

           ¬A           P(¬A∩B)           P(¬A∩¬B)       P(¬A)
                           P(B)               P(¬B)

Si P(A ∩B)= P(A) * P(B)               i    P(¬A ∩B)= P(¬A) * P(B)
 i P(A ∩¬B)= P(A) * P(¬B) i                P(¬A ∩¬B)= P(¬A) * P(¬B)
llavors A i B són independents



Amb les probabilitats condicionades (per files):

                           B                                                 ¬B
            A                P(A∩B) / P(A) = P(B|A)                P(A∩¬B) / P(A) = P(¬B|A)           1

           ¬A             P(¬A∩B) / P(¬A) = P(B|¬A)              P(¬A∩¬B) / P(¬A) = P(¬B|¬A)          1


Si les probabilitats condicionades coincideixen ( P(B|A) = P(B|¬A) = P(B) i P(¬B|A) = P(¬B|¬A) = P(¬B) )
llavors A i B són independents



Amb les probabilitats condicionades (per columnes):

                           B                                                 ¬B
            A                P(A∩B) / P(B) = P(A|B)                P(A∩¬B) / P(¬B) = P(A|¬B)
           ¬A              P(¬A∩B) / P(B) = P(¬A|B)              P(¬A∩¬B) / P(¬B) = P(¬A|¬B)
                                              1                             1
Si les probabilitats condicionades coincideixen ( P(A|B) = P(A|¬B) = P(A) i P(¬A|B) = P(¬A|¬B) = P(¬A) )
llavors A i B són independents




Departament d’Estadística i Investigació Operativa UPC                                          Guió S3 pàg. 2
Laboratoris d’Estadística FIB T09                                                       Guió S3: Problemes de CP i VA




Problema A: Els flops erronis

Un ordinador conté 3 processadors (A1, A2 i A3) en paral·lel per realitzar operacions de càlcul en coma flotant
(anomenat floating point operations o flops en breu). Se sap que cada processador produeix flops amb resultats
incorrectes amb freqüències 0.01, 0.02 i 0.03 respectivament. Un usuari arranca un programa per fer una tasca de càlcul
que requereix 200 000 flops en total. El processador A1 processa 100 000 flops de la tasca, mentre A2 i A3 processen
50 000 cadascú. Ens interessa estudiar si un flop concret dels 200 000 que formen part de la tasca (li direm flop i) s’ha
executat amb èxit o ha estat incorrecte. Contesta les preguntes a continuació:
    1. Quina és la probabilitat que el flop i sigui incorrecte?
    2. Si sabem que el flop i és incorrecte, quin processador és el candidat més probable d’haver-lo executat?


Indicació per a la solució:



                                                                  0.01    B
                                                                          flop erroni
                                                         A1
                                                                  ...    B
                                                                         flop no erroni

                                                 1/2


                                                                  ...    B
                                                                         flop erroni

                                                         A2
                                                   ...
                                                                  ...    B
                                                                         flop no erroni



                                                ...
                                                                  ...    B
                                                                         flop erroni
                                                         A3
                                                                   ...    B
                                                                          flop no erroni




Departament d’Estadística i Investigació Operativa UPC                                                Guió S3 pàg. 3
Laboratoris d’Estadística FIB T09                                                    Guió S3: Problemes de CP i VA




Problema B: Usuaris i batchjobs

Un ordinador gran (mainframe) disposa d’una cua on els usuaris poden enviar treballs a processar pel sistema operatiu
(batchjobs). Es distingeixen batchjobs petits (P), mitjans (M) i grans (S) dependent dels recursos que exigeixen els
batchjobs (memòria, temps de CPU, ús de disc, etc.). La gran majoria dels usuaris treballa de manera interactiva amb
l’ordinador, i només 4 usuaris (A, B, C i D) solen enviar batchjobs. La pràctica ha ensenyat que els batchjobs que es
troben a la cua pertanyen a les diferents combinacions de categories amb les probabilitats:
                             Usuari A               Usuari B              Usuari C         Usuari D
       Petit                    0.01                     0.05               0.04                 0.01
       Mitja                    0.02                     0.08               0.03                 0.03
       Gran                     0.04                     0.54               0.09                 0.06



Contesteu les preguntes següents:
    1. Quina és la probabilitat que un batchjob qualsevol hagi estat enviat per l’usuari A?
    2. Quina és la probabilitat que un batchjob petit hagi estat enviat per l’usuari A?
    3. Quina és la probabilitat que un batchjob sigui un batchjob gran?
    4. Quina és la probabilitat que un batchjob sigui gran i enviat per usuari B?
    5. Hi ha independència entre l’usuari i el tipus de batchjob? Argumenteu la resposta.
    6. Quina és la probabilitat que un batchjob hagi estat enviat per l’usuari A o l’usuari B?
    7. Quina és la probabilitat que un batchjob gran hagi estat enviat per l’usuari A o B?
    8. Donat que un determinat batchjob no es petit, quina es la probabilitat que hagi estat enviat per l'usuari C o
       l'usuari D?




Indicació per a la solució:


Probabilitats marginals:
                      Usuari A       Usuari B Usuari C                 Usuari D
       Petit                 0.01           0.05                0.04        0.01          0.11
       Mitja                 0.02           0.08                0.03        0.03           ...
       Gran                  0.04           0.54                0.09        0.06           ...
                             0.07            ...                 ...         ...          1.00




Departament d’Estadística i Investigació Operativa UPC                                              Guió S3 pàg. 4
Laboratoris d’Estadística FIB T09                                                Guió S3: Problemes de CP i VA


Probabilitats condicionades:
- per columnes


                      Usuari A       Usuari B            Usuari C    Usuari D
       Petit                 0.14
       Mitja                 0.29
       Gran                  0.57
                             1.00            1.00             1.00        1.00        1.00



- per files


                      Usuari A       Usuari B Usuari C               Usuari D
       Petit                 0.09           0.45             0.36         0.09        1.00
       Mitja                                                                          1.00
       Gran                                                                           1.00
                                                                                      1.00




Departament d’Estadística i Investigació Operativa UPC                                         Guió S3 pàg. 5
Laboratoris d’Estadística FIB T09                                                        Guió S3: Problemes de CP i VA




Problema C: El paquet de tres bits (primera part)

Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de comunicació (Ω
= {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències són equiprobables. Es
defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3 bits i la variable Y és el
número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y ∈ {0,1,2}.
    - Construïr la taula amb la funció de probabilitat conjunta de les variables X i Y.
    - Calcular les esperances de X i de Y, i les variances de X i Y.


Indicació per a la solució:
                                                    Possibilitats         X (suma)      Y (#alternances)
                                    0                       000               0                 0
                    0                                       001               1                 1
                                    1
        0                           0                       010               1                 2
                     1
                                    1                       011
                                    0                       100
                     0
        1                           1                       101
                    1               0                       110
                                    1                       111               3                 0


Probabilitats conjuntes:

                 PYX                    X=0           X=1           X=2           X=3
                                              1/8
                 Y=0
                                              0
                 Y=1
                                              0
                 Y=2
                                              1/8




Problema D: Resolució de problema en l’entorn e-status




Departament d’Estadística i Investigació Operativa UPC                                                 Guió S3 pàg. 6
Laboratoris d’Estadística FIB P09                                          Guió i exercicis S4: bivariant




Sessió 4. Estadística Descriptiva Bivariant

En la sessió d’univariant hem vist com les eines descriptives univariants ens permetien de
caracteritzar el comportament d’una variable aïllada. De fet, amb eines numèriques i gràfiques
podiem fer una fotografia sintètica de la variable.


Un cop conegudes les variables una a una, ens interessarem per un estudi més global, que les
posicioni unes respecte a les altres. Així doncs, la següent passa en l’anàlisi descriptiva és
l’anàlisi descriptiva bivariant, que té per objectiu estudiar com són les relacions entre les
variables dues a dues. Naturalment, aquest és el cas més simple de l’anàlisi descriptiva
multivariant, que estudia globalment les relacions existents entre un conjunt de variables que pot
ser molt nombrós (aquestes tècniques són més complexes i són objecte de l’assignatura optativa
TCD –Tècniques de Classificació i Discriminació, i connecten directament amb el món del Data
Mining).
En aquest curs estudiarem les tècniques més usuals d’anàlisi descriptiva bivariant. Al igual que
passava amb les univariants, en tindrem de dos tipus:
    •    Eines gràfiques: Permetran visualitzar com és la relació entre dues variables.
         Generalment identificarem un patró general que regeix la relació i com son les
         desviacions respecte d’ell.
    •    Eines numèriques: Quantifiquen el que s’observa en el gràfic, ja sigui a nivell de
         proporcionar un model matemàtic per al patró general observat o per quantificar les
         desviacions respecte d’ell.


D’altra banda cal tenir present que la naturalesa de les variables a estudiar jugarà un paper
fonamental en la determinació de quines eines seran o no adequades per cada cas. Així doncs,
distingirem bàsicament tres casos:
    •    Relacions entre una variable numèrica i una categòrica
    •    Relacions entre dues variables numèriques
    •    Relacions entre dues variables categòriques


A continuació tractarem cadascun d’ells.

Per últim, abans d’acabar aquest apartat, recordar que en tot treball, cal realitzar una acurada
depuració de les dades abans de començar l’anàlisi, i que això comporta, el tractament de
missing data i l’estudi dels possibles outliers de les variables que intervenen a l’estudi. Una
qüestió a tenir sempre present és la possible aparició de nous outliers en l’estudi bivariant. En
efecte, dades que estan prop de la tendència central d’una variable globalment, poden ser outliers
en un subgrup concret que es concentri en valors menors, per exemple: aquests outliers han de
tractar-se seguint la metodologia presentada a la pràctica anterior.



Deartament d’Estadística i Investigació Operativa UPC                                   Guió S4 pàg. 1
Laboratoris d’Estadística FIB P09                                                                            Guió i exercicis S4: bivariant



    RELACIÓ ENTRE VARIABLES NUMÈRIQUES I CATEGÒRIQUES

    En aquest cas estem interessats en estudiar el comportament d'una variable numèrica segons les
    modalitats que pren una variable categòrica, tot examinant així la relació entre les dues variables.
    Amb aquesta anàlisi podrem observar les possibles diferències en el comportament de la variable
    numèrica entre els grups que determina la variable categòrica.
    Com ja hem dit, utilitzarem eines gràfiques i numèriques. De fet, en aquest àmbit s’introdueix
    l’extensió de les 3 eines de Minitab bàsiques per estadística descriptiva que es coneixen de la
    sessió anterior: DOTPLOT, BOXPLOT i DESCRIBE. L’extensió de les possibilitats de les
    comandes s’assoleix mitjançant la introducció de subcomandes. Des del sistema de navegació
    per menús que ofereix Minitab, això correspon a diferents opcions que presenten els formularis i
    que introduirem tot seguit. Si es treballa directament contra l’intèrpret de comandes Minitab,
    s’entra a nivell de subcomanda si, després d’indicar la comanda principal es prem “ ; Retorn”;
    s’observarà un canvi en el Prompt de l’intèrpret que passarà de “MTB>” a “SUBC>”; ens
    mantindrem dins aquest nivell de subcomanda fins que utilitzem el terminador de línia “.”, que
    indica que es pot executar tot el bloc anterior .
    Eines gràfiques d’anàlisi descriptiva bivariant (cas mixte)
    Veurem en aquest curs el dotplot múltiple (el formulari del dotplot té un flag: BY, que cal
    activar i indicar quina variable categòrica es vol utilitzar per definir els grups), i el boxplot
    múltiple (en el formulari del Boxplot, omplir el camp X amb la variable categòrica; si a més
    s’omple Grouping Variable amb la variable categòrica i es selecciona l’opció de “For each
    group” , hi haurà un tramat/color diferent per cada grup).
    La idea bàsica d’un gràfic múltiple és que es reprodueix un determinat gràfic per la variable
    numèrica (el dotplot, o el boxplot, en el nostre cas), per tots els grups que indica la categòrica.
    Els gràfics de tots els grups es representen juxtaposats sobre una mateixa escala per la variable
    numèrica i això permet fer comparacions entre grups.
    A la figura es mostra el dotplot múltiple de la variable velocitat de procés d’uns ordinadors (en
    MHz) versus el sistema operatiu de suport de l’ordinador. En segon lloc es mostra el boxplot
    múltiple de la puntuació que cada ordinador ha tret en un cert benchmark versus el sistema
    operatiu (val a dir que a més alta puntuació, millor posicionat està l’ordinador). Es pot veure
    com l’estructura bàsica d’un gràfic múltiple és, com ja s’ha dit, la repetició d’un gràfic de la
    variable numèrica per cadascun dels grups que indica la categòrica.


                                 Dotplot for velocidad


                                                                                           50


Sist. Oper.                                                                                40

      W2000
                                                                                           30
                                                                                  Result




    UnixWare
                                                                                           20


                                                                                           10

         NT

               100   200   300     400   500    600      700   800   900   1000            0
                                         velocidad                                              NT    UnixWare          W2000
                                                                                                     Sist. Oper.




    Deartament d’Estadística i Investigació Operativa UPC                                                                       Guió S4 pàg. 2
Laboratoris d’Estadística FIB P09                                                   Guió i exercicis S4: bivariant



L’anàlisi ha de contemplar bàsicament dos aspectes:
    •    Com és el gràfic de cada grup per se. Per fer-ho hem de recórrer als coneixements
         adquirits en la pràctica d’univariant.
    •    Com és la relació entre les dues variables. Per fer-ho analitzarem global i
         comparativament tots els grups. Bàsicament ens interessarà observar si el comportament
         de la variable numèrica és idèntic en tots els grups: mateixa tendència central, mateixa
         dispersió, mateix grau de simetria... (la qual cosa apunta cap a la independència entre les
         dues variables) o, per contra, existeix algun efecte del grup sobre la variable numèrica.


Minitab ofereix la possibilitat d’altres gràfics múltiples, que no veiem en aquest curs o bé per la
dificultat en obtenir-los, o bé per la dificultat en interpretar-los (tal és el cas de la representació
que Minitab ofereix de l’histograma múltiple).


Eines numèriques d’anàlisi descriptiva bivariant (cas mixte)
Al igual que en el cas univariant, els indicadors numèrics serviran per quantificar el que
s’observa en el gràfic. Així, quantificarem les tendències centrals, dispersions, etc. de cada grup
a través de la descriptiva múltiple (Basic Statistics>Display Descriptive Statistics de la variable
numèrica + Activar flag BY i indicar variable categòrica).
Es mostra a continuació la descriptiva múltiple de la variable velocitat dels processadors versus
el sistema operatiu, ja presentats a la secció anterior. Aquesta descriptiva vindria a complementar
la informació que visualitza el dotplot anterior.
Descriptive Statistics: velocidad by Sist. Oper.
Variable      Sist. Op                N          Mean    Median   TrMean    StDev
velocida      NT                    98         455,3      441,5    451,6    175,3
              UnixWare              72        196,57     180,00   191,48    77,56
              W2000                   1       1000,0     1000,0   1000,0        *

Variable      Sist. Op       SE Mean       Minimum      Maximum       Q1       Q3
velocida      NT                17,7         133,0        866,0    333,0    550,0
              UnixWare          9,14         75,00       450,00   133,00   233,00
              W2000                *        1000,0       1000,0        *        *



A part de l’anàlisi intern, grup a grup, observant globalment les característiques de cada grup,
podrem estudiar si hi ha semblances fortes entre grups o no.
Sobre la intensitat d’aquestes semblances existeixen també indicadors numèrics, però la seva
interpretació està lligada a raonaments no trivials i a la formalització d’alguns models que són
objecte de cursos posteriors. Per això, en aquest curs introductori ens quedarem a nivell
d’analitzar la descriptiva múltiple.




Deartament d’Estadística i Investigació Operativa UPC                                            Guió S4 pàg. 3
Laboratoris d’Estadística FIB P09                                              Guió i exercicis S4: bivariant



A. Relacions entre una variable numèrica i una categòrica: les variables
Resultat i SO, WinNoWin i Any

Treballarem les dades del fitxer CINT2000-2005.MTW de la sessió d’univaraint amb les
variables depurades (Resultat, memoria, WinNoWin)
Comencem analitzant la variable “Resultat” respecte les variables que ens indiquen el SO amb el
que es va realitzar la prova (les variables SO i WinNoWin)
Feu la descriptiva de Resultat per grups de la variable SO i copieu-la (atenció a les files: pot no
coincidir amb el ordre de sortida de Minitab):

       SO               N      Mitjana       Desv.
    W2000
    W2003
       XP
     Linux
      Unix
  SOLARIS
    HP-UX
     Otros


Torneu a fer la descriptiva de Resultat per grups de la variable WinNoWin:
WinNoWin            N         Mitjana       Des.Típ
    Win
  NoWin
Compareu les dos taules i observeu les diferències entre les interpretacions que s’obtenen.




Analitzeu ara la variable “Resultat” respecte “Any”. Interpreteu-ne els resultats i comenteu si
observeu diferències entre els grups, quines, i quins elements estadístics ho posen de manifest.
    Any             N         Mitjana       Des.Típ
     00
     01
     02
     03
     04
     05




Deartament d’Estadística i Investigació Operativa UPC                                       Guió S4 pàg. 4
Laboratoris d’Estadística FIB P09                                                                                                                               Guió i exercicis S4: bivariant



RELACIÓ ENTRE DUES VARIABLES NUMÈRIQUES

Aquest apartat tracta de l’estudi de les relacions entre dues variables numèriques mitjançant
eines gràfiques i numèriques.

Representació gràfica de parells de variables numèriques.
La manera natural d’iniciar un estudi consisteix en representar gràficament (diagrama bivariant ,
scatterplot en terminologia del Minitab ) les parelles de punts que constitueixen el núvol de
punts de les observacions de les dues variables:
                                                                                        ( xi , yi )          i = 1… n

La comanda Minitab per construir un diagrama bivariant és PLOT (en entorn Windows cal
seleccionar les icones Graph Plot). X correspon a la variable en abcisses i Y, la variable en
ordenada, que sol ser la variable resposta si és que el paper de les dues variables està diferenciat
en l’estudi.
La gràfica, que és un diagrama cartesià ordinari, conté tota la informació sobre la relació entre
dues variables. Bàsicament analitzarem tres aspectes:
    •                   Forma: el plot permet visualitzar la forma general de la distribució conjunta de les dues
                        variables i, per tant, les grans tendències de la seva relació. Així, podrem veure si el patró
                        general que regeix aquest parell de variables s’acosta a una línia recta, o a una paràbola,
                        o es sinusoïdal...
    •                   Direcció: Veurem fàcilment també si la relació és directa (Y creix quan X creix) o
                        inversa (Y creix quan X decreix).
    •                   Intensitat: Els punts poden estar molt agrupats entorn aquesta tendència general (poca
                        dispersió), la qual cosa indica que la relació és intensa o, per contra, existeix una
                        dispersió gran al voltant d’aquesta tendència, la qual cosa indica que la relació és feble i
                        que l’efecte d’X sobre Y està emmascarat, o bé per altres variables que no hem
                        considerat, o bé per una fluctuació aleatòria molt important.
Les figures al peu mostren exemples del que es consideraria una relació lineal creixent i molt
intensa, un relació no lineal, també creixent i menys intensa, i una relació no lineal, decreixent i
no molt intensa respectivament.
Fixem-nos que aquesta anàlisi és paral·lela al que ja s’havia fet en l’apartat d’univariant. La
filosofia segueix essent la mateixa: Identificar un patró general (en aquest cas bivariant) que
marca la tendència central (en aquest cas de la relació entre les variables) i caracteritzar com són
les variacions respecte d’aquest patró...


                                                                                   50                                                                      50
                   50

                                                                                   40                                                                      40

                   40
                                                                                   30                                                                      30
     result PIII




                                                                          Result




                                                                                                                                                  Result




                                                                                   20                                                                      20
                   30

                                                                                   10                                                                      10


                   20                                                                                                                                      0
                                                                                   0
                                                                                                                                                                   800    1300             1800   2300
                        400   500   600       700      800   900   1000                  1/12/95   1/11/96   1/10/97   1/9/98   1/8/99   1/7/00
                                                                                                                                                                           dies fins ara
                                          velocitat PIII                                                       Published




Deartament d’Estadística i Investigació Operativa UPC                                                                                                                            Guió S4 pàg. 5
Laboratoris d’Estadística FIB P09                                                                                  Guió i exercicis S4: bivariant



L’observació detallada del diagrama bivariant ha de permetre certes consideracions, com:
•   és legítim modelitzar la relació entre les variables mitjançant una recta? o s’ha de pensar en
    modelitzar mitjançant una corba més complexa?
•   podrà servir el model escollit per predir o per estimar?
•   existeixen outliers, es a dir, punts que s’aparten molt del núvol?

El plot múltiple
Fent una petita extensió al camp del tri-variant, podem estudiar l’efecte d’una tercera variable
categòrica sobre aquesta relació a través del plot múltiple, que sobre un plot, marca amb
diferents símbols o colors la modalitat corresponent a cada punt. Sobre el formulari del plot, cal
seleccionar Display: Bar For Each: Group Grouping Variable: la variable categòrica. A través
del botó Edit Attributes, podem indicar amb quins colors volem distingir les modalitats i fer més
visual el gràfic. Es poden presentar situacions en que la relació entre X i Y varii segons la
modalitat de la categòrica i s’aconselli un estudi separat...


Eines numèriques d’anàlisi de parells de variables numèriques

Ja hem dit que interessa quantificar aquelles coses que s’observen visualment en un gràfic. En
l’àmbit de les variables numèriques, la cosa es complica i els indicadors numèrics que podem
donar estan subjectes a formes concretes de la relació. No existeixen indicadors globals com hem
vist fins ara, sino indicadors lligats a certes formes.
Quant a les formes, el més habitual és representar-les com a funcions matemàtiques d’Y respecte
d’X, que seran funcions lineals si la relació té forma de recta, paràboles, si té forma quadràtica,
etc. El càlcul de l’equació matemàtica que millor s’ajusta a un núvol de punts constitueix el
camp de la modelització estadística i és complexe, quedant fora de l’àmbit d’aquest assignatura.
Convé dir, no obstant, que els paràmetres de forma i direcció de la relació que hem observat en
el plot queden capturats en l’equació del model.
Queda per tant, quantificar el tercer dels paràmetres. La intensitat de la relació. Necessitem un
coeficient que ens digui si les observacions estan a prop o lluny de la seva tendència central.
Però si la tendència central s’expressa com una funció matemàtica, està clar que avaluar la
dispersió, passarà per veure què tant a prop d’aquesta funció (del seu lloc geomètric, de fet)
estan les observacions. És per això que no tenim un coeficient global per qualsevol núvol, sino
que segons la forma de la relació els definirem diferentment.
En aquest curs, estudiarem només com quantificar la intensitat d’una relació lineal, és a dir, d’un
núvol de punts que té forma de línia recta. I que quedi clar que si la forma del núvol de punts és
una altra, aquest coeficient no mesura la intensitat de la relació.


Definim, doncs, el coeficient de correlació lineal rX,Y: (donarà un valor comprès entre –1 i +1)

                                                                              ∑ (x       − x )( y i − y )
                                 ∑ (x        − x )( y i − y )
                                                                                     i

                                                                                                            (n − 1) =
                                         i                                    i
                                                                                                                        S X ,Y
                 rX ,Y =         i
                                                                          =
                            ∑ (x         − x)       ∑ (y       − y)                          S X SY                     S X SY
                                                2                     2
                                     i                     i
                             i                      i

D’aquest coeficient n’interpretem dues coses:

Deartament d’Estadística i Investigació Operativa UPC                                                                            Guió S4 pàg. 6
Laboratoris d’Estadística FIB P09                                            Guió i exercicis S4: bivariant



•   el signe del coeficient de correlació lineal està directament lligat a la direcció de la relació:
    relació directa (coeficient positiu) o inversa (coeficient negatiu)
•   la magnitud ( o valor absolut ) mesura directament la intensitat de la relació: més gran és la
    magnitud, més intensa és la relació, més a prop estan els punts de la recta-tendència general,
    i per tant, més allargada és la forma del núvol. Si aquest valor és exactament 1, els punts són
    alineats sobre una recta perfecta: es verifica Y= a+bX (i X=c+dY), amb pendent positiu o
    negatiu segons el signe d’r. En la pràctica, no es troben coeficients que valguin exactament 1
    en valor absolut i s’ha de valorar si els valors són grans o petits.
L’obtenció del coeficient de correlació s’aconsegueix amb la comanda CORRELATION. En
entorn Windows cal seleccionar les icones Statistics BasicStatistics Correlation.


Dependència/independència entre variables numèriques


En absència de relació de tipus lineal, el coeficient de correlació val 0 (o s’hi acosta). Alerta,
però, això només significa que les dues variables no estan lligades per una línia recta, i no pas
que aquestes variables siguin independents. Podrien mantenir una relació quadràtica o d’un altre
tipus i molt intensa, i tenir un coeficient de correlació lineal quasi nul.




B. Relacions entre dues Variables Numèriques: les variables Resultat i MHz
Estudiem ara “Resultat” i “MHz” a través de l’”Scatterplot”.
Analitzem el gràfic, i valoreu direcció, forma i intensitat de la relació.




Deartament d’Estadística i Investigació Operativa UPC                                     Guió S4 pàg. 7
Laboratoris d’Estadística FIB P09                                              Guió i exercicis S4: bivariant



Feu el gràfic anterior separant els casos segons la variable WinNoWin i valoreu direcció, forma i
intensitat de la relació.




Aprofundim en la relació de Resultat i MHz mitjançant indicadors numèrics.
- calculem el “coeficient de correlació”
     amb tots els casos:       ...........
     amb els casos Win:        ...........
    amb els casos NoWin:       ……...

- valoreu-ne el signe (+ o -):




- valoreu-ne la magnitud (propera a 0, a 1 o a -1):




En la relació de Resultat i MHz quina de les dues variables té sentit que actuï com a resposta?




Deartament d’Estadística i Investigació Operativa UPC                                       Guió S4 pàg. 8
Laboratoris d’Estadística FIB P09                                             Guió i exercicis S4: bivariant



RELACIÓ ENTRE DUES VARIABLES CATEGÒRIQUES

Igual que en els altres casos, presentarem aquí eines de tipus gràfic i de tipus numèric.


Eines numèriques per analitzar la relació entre variables categòriques.
Les taules de contingència s’usen per fer una representació numèrica resumida de com es
relacionen dues variables categòriques. Suposem que estudiem n elements u observacions
i que per cada observació es coneix el valor de cada variable categòrica de forma que
podem conèixer el número nij de elements amb el valor i-èssim de la primera variable
categòrica X i amb el valor j-èssim de la segona variable categòrica Y. Amb aquesta
informació podem construir diferents tipus de taules de contingència (que tenen
l’estructura d’una matriu plana de doble entrada) tal i com veurem, associant els valors de
la variable X a les files de la taula i els de la variable Y a les columnes.


Si existeix un paper diferenciat de les dues variables (que una actuï com a variable
resposta – la que volem explicar en funció dels valors de l’altra - i l’altra com a
explicativa) és freqüent disposar la variable explicativa en files i la variable resposta en
columnes.
Per exemple, suposem que disposem de 171 ordinadors dels que coneixem els valors de
les variables categòriques Processador i Sistema Operatiu. Per estudiar la relació entre
aquestes variables podríem formar la següent taula:
Rows: Sist. Op             Columns: procesador

             Celeron      Pentium           PII         PIII   PPro   Total

 NT                  6               7       44          40      1      98
 UnixWare            4              36       17           0     15      72
 W2000               0               0        0           1      0       1
 Total              10              43       61          41     16     171


El que ens està dient la taula és que, dels 171 individus (en el sentit estadístic de la
paraula) estudiats, n’hi ha 44 que són PentiumII amb WindowsNT i, per exemple, 4 que
són Celeron amb sistema operatiu Unix.
La comanda Minitab TABLE ofereix les eines adequades per l’estudi de les taules de
contingència. Les icones a seleccionar són Stat Tables CrossTabulation. Veurem que hi
ha diferents opcions, que permeten representar diferents taules. Vejam quines.




Tipus de taules de contingència.
•   Taules d’efectius totals: Presenten el nombre total d’observacions que hi ha en cada
    casella. (subcomanda COUNT de la comanda TABLE).

    o nij - Contingent d'observacions en la fila i i la columna j, és a dir, nombre
      d’individus que són de la modalitat i per la variable X i de la modalitat j per la
      variable Y. És el contingut de la casella ij de la taula.


Deartament d’Estadística i Investigació Operativa UPC                                      Guió S4 pàg. 9
Laboratoris d’Estadística FIB P09                                            Guió i exercicis S4: bivariant



    o ni⋅ - Número total d'observacions amb el valor i-èssim de la variable categòrica
      associada a files. Es calcula com la suma de totes les caselles de la fila ni⋅ = Σj
      nij i es representa en el marge dret de la taula.
    o n.j - Número total d'observacions amb el valor j-èssim de la variable categòrica
      associada a columnes. Es calcula com la suma de totes les caselles de la columna
      n⋅ j = Σi nij i es representa en el marge inferior de la taula.

    En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els
    marges inferiors i és igual al nombre total d’observacions estudiades.

    Un estudi mitjançant taules de contingència s’inicia per Taules d’efectius totals ( o de
    freqüències absolutes ). Ha de ressaltar-se, quasi exclusivament, les cel·les amb
    majors i menors nombres d’observacions.

•   Taules de freqüències absolutes, o de proporcions absolutes: Presenten la proporció
    respecte del total d’observacions que hi ha en cada casella. (Subcomanda TOTPERC
    de la comanda TABLE).

    o pij – Proporció d'observacions en la fila i i la columna j respecte del total
      d'observacions. pij= nij / n. És el contingut de cada casella.
    o pi⋅ - Proporció, respecte del total d'observacions, d’observacions amb el valor i-
      èssim de la variable categòrica associada a files. pi.= ni. / n. . Es representa en el
      marge dret de la taula i s’anomena també distribució marginal de X.
    o També, p⋅ j - Proporció, respecte del total d'observacions, d'observacions amb el
      valor j-èssim de la variable categòrica associada a columnes. p.j= n.j / n. Es
      representa en el marge inferior de la taula i s’anomena també distribució marginal
      de Y.

    En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els
    marges inferiors i és igual la unitat, que representa el 100% de les observacions.


•   Taules de contingència condicionades per files: Per cada fila es representa una
    distribució diferent, que indica, d’entre el total d’observacions que són de modalitat i,
    quin percentatge n’hi ha de cada modalitat d’Y. De cadascuna d’aquestes
    distribucions se’n diu perfil fila.
    Així, la cel·la (i,j) conté l'element nij / ni⋅
    S'afegeix una última fila, que representa la fila marginal. Els elements d'aquesta
    última fila contenen els n⋅ j /n .
     En aquestes taules la columna del marge dret, que és suma de cada fila és sempre
     igual a 1, expressant que els percentatges s’han calculat independentment per cada
     fila i no respecte del total d’observacions, amb la qual cosa la suma dels elements
     d'una fila ha de ser 1.




Deartament d’Estadística i Investigació Operativa UPC                                    Guió S4 pàg. 10
Laboratoris d’Estadística FIB P09                                               Guió i exercicis S4: bivariant



    Podrem analitzar sobre aquestes taules l’efecte de la variable explicativa sobre la
    variable de resposta. Si no hi ha efecte, la separació de les observacions per grups d’X
    no ha de modificar la distribució d’Y. Així, en cas d’independència entre les dues
    variables, totes les files serien idèntiques (en un cas perfecte) i iguals a la distribució
    marginal d’Y. Quan més lluny estem d’aquesta igualtat, més important és l’efecte de
    la variable X sobre Y (conèixer el valor d’X aporta informació sobre com serà el
    percentatge de certa modalitat d’Y).


    Ara bé, sobre dades reals, quasi mai trobarem una situació d’independència pura, sino
    que haurem de fixar un criteri previ d’equivalència, que ens permeti decidir fins a
    quin nivell considerarem petites diferències com a negligibles. Per exemple, es poden
    considerar equivalents tots els percentatges que difereixin en termes relatius menys
    d’un 5%.
    La subcomanda ROWPERCENT de la comanda TABLE s’usa per obtenir taules de
    contingència condicionades per files i les utilitzarem per apuntar si l’efecte d’X sobre
    Y és fort o feble. Si el resultat de l’anàlisi és que X afecta a Y, hem de ser capaços de
    descriure com és aquest efecte.


    Seguidament es presenta la taula de perfils fila que produeix Minitab per les dues
    variables que ja havíem presentat. Cada fila representa com es distribueix el tipus de
    processador per un sistema operatiu concret. Per exemple es veu que un 44,9% dels
    ordinadors que funcionen sota WindowsNT tenen un processador PentiumII, o que
    d’entre tots els ordinadors que funcionen en Unix, un 50% son Pentiums.

Rows: Sist. Op            Columns: procesador

             Celeron      Pentium           PII         PIII   PPro      All

 NT          6,12             7,14       44,90       40,82      1,02   100,00
 UnixWare    5,56            50,00       23,61         --      20,83   100,00
 W2000        --               --          --       100,00       --    100,00
 All         5,85            25,15       35,67       23,98      9,36   100,00
Cell Contents --
                         % of Row


•   Taules de contingència condicionades per columnes: Per cada columna es representa
    una distribució diferent, que indica, d’entre el total d’observacions que són de
    modalitat j, quin percentatge n’hi ha de cada modalitat d’X. Són els perfils columna.
    Així, la cel·la (i,j) conté l'element nij / n⋅j
    S'afegeix una última columna, que representa la columna marginal. Els elements
    d'aquesta última fila contenen els ni. /n .
    En aquestes taules la fila del marge inferior, que és suma de cada columna és sempre
    igual a 1, expressant que els percentatges s’han calculat independentment per cada
    columna i no respecte del total d’observacions, amb la qual cosa la suma dels
    elements d'una columna ha de ser 1.
    L’obtenció de la taula de contingència de freqüències per columnes és mitjançant la
    subcomanda COLPERCENT. L’estudi de taules condicionades és simètric per files i
    columnes. De fet, la informació que ens proporcioni una ha de venir reflectida en

Deartament d’Estadística i Investigació Operativa UPC                                       Guió S4 pàg. 11
Laboratoris d’Estadística FIB P09                                                Guió i exercicis S4: bivariant



    l'altre, per la qual cosa podria considerar-se que s'incorre en redundància al obtenir les
    dues. Malgrat això sempre resulta profitós obtenir-les.


    Veieu aquí la taula de perfils columna de les variables que il.lustren aquest apartat.
    S’observa que de tots els ordinadors amb processador PentiumII, un 27,87% són
    màquines que funcionen en Unix, per exemple. Hores d’ara ja haurà quedat molt clar
    al lector, que Minitab no contempla, en aquestes taules de perfils, les caselles buides.

Rows: Sist. Op            Columns: procesador

             Celeron      Pentium           PII         PIII    PPro      All

 NT         60,00    16,28               72,13       97,56       6,25    57,31
 UnixWare   40,00    83,72               27,87         --       93,75    42,11
 W2000        --       --                  --         2,44        --      0,58
 All       100,00   100,00              100,00      100,00     100,00   100,00
  Cell Contents --
                  % of Col




•   Taules de contingències de freqüències esperades. La cel·la (i,j) conté l'element
    n'ij =n ×p⋅ j ×pi⋅ Els elements de la fila i columna marginal són els mateixos que els
    de la taula de contingències totals absoluta.
    En aquest cas, es representa el nombre d’observacions que hi hauria d’haver a cada
    casella en cas que les dues variables fossin independents. I la forma de calcular
    l’efectiu esperat es basa en la idea que, si hi ha independència, i el valor d’X no
    modifica la distribució d’Y, les freqüències condicionades a files coincideixen amb
    les marginals d’Y. Desenvolupant aquesta igualtat és fàcil aïllar quin hauria de ser el
    contingut d’una casella i s’obté la relació anterior.
    Aquesta taula és útil per estudiar directament la independència. Si efectivament hi ha
    independència, aquesta taula s’hauria d’assemblar molt i molt a la taula d’efectius
    totals. Minitab ens permet de construir la taula de contingències amb freqüències
    esperades per ser comparada directament amb la taula de contingències de totals
    absoluts superposant a cada cel·la el nombre d’observacions existent realment a cada
    casella i el nombre d’observacions que hauria d’haver-hi en cas d’independència
    (expected frequency o EXP FREQ).
    Les cel·les que presenten una major discrepància entre els dos valors són les que més
    contribueixen a la no independència de les variables i cal tenir-les present. Si a totes
    les cel·les, el valor observat i el valor esperat d’observacions coincideix raonablement
    aleshores es verifica, la independència (no relació) entre les dues variables estudiades.
    De fet, Minitab calcula encara un coeficient, anomenat la distància de Chi-2 (Chi-
    square, en Minitab) que hem d’interpretar com una distància entre les dues taules.
    Quan més a prop de 0 estigui aquest coeficient, més s’assemblen les taules, i per tant,
    més a prop estem de la independència. En cursos posteriors s’explicarà amb detall
    com es calcula aquest coeficient.




Deartament d’Estadística i Investigació Operativa UPC                                        Guió S4 pàg. 12
Laboratoris d’Estadística FIB P09                                              Guió i exercicis S4: bivariant



Eines gràfiques per analitzar la relació entre variables categòriques.


    Es tracta d’extensions del gràfic univariant diagrama de barres, ja presentat. Tots es
    construeixen a partir d’opcions del Graph Chart i s’interpreten d’acord amb el tipus de
    taula que representen. Bàsicament ens permetran visualitzar si existeix o no la independència
    entre les variables i en cas que no, serà fàcil interpretar el sentit que té la relació entre X i Y.
    Especialment en el cas que hi hagi alguna variable ordinal haurem de cercar si les seves
    modalitats marquen alguna tendència en l’altra variable.


    Vejam les eines gràfiques de que disposem:
•   Diagrama de barres apilades: Consisteix a construir un diagrama de barres per X i distingir,
    dins de cada barra amb diferents colors o trames, quin efectiu correspon a cada modalitat
    d’Y. Dins el Chart cal posar en X una de les variables (normalment d’explicativa).
    Seleccionar Display: Bar For Each: Group Grouping Variable: l’altre variable). Prémer el
    botó Options i activar el flag Stack, tot indicant que la variable que s’usa per apilar les barres
    és la mateixa que la que defineix els grups.
         Aquest diagrama permet representar la taula d’efectius absoluts.
•   Diagrama de barres adosades: És una evolució de l’anterior, consistent a deixar caure, un al
    costat de l’altre, cada tram d’una barra d’X. Així, l’efecte final és que, sobre cada modalitat
    d’X es representa un grupet de barres adosades, que representen les modalitats d’Y. Dins
    d’Options, desactivar el flag de Stack, activar el de Cluster i posar-hi la variable de grup.
•   Diagrama de barres segmentades: Aquest representa la taula de freqüències condicionades a
    files o columnes, segons quina variable posem en l’eix d’abcisses. Per fer-lo en Minitab hem
    de començar com si realitzéssim un diagrama de barres apilades. A més, però, en la finestra
    d’options cal activar també el flag de Total Y to 100% within each X category.



Dependència/independència entre variables categòriques


Ja hem dit que en els valors de la taula creuada (especialment en els de les taules condicionades
per files o per columnes) es veu, en cas d’independència entre les dues variables, totes les files
amb valors idèntiques (en un cas perfecte) i iguals a la distribució marginal. Si no són les taules
condicionades es veu proporcionalitat. Això mateix s’observa en les distribucions de les barres
en els gràfics.
En cas de dependència entre les dues variables, quan més lluny estem de la igualtat o la
proporcionalitat en la taula o gràficament, més important és l’efecte d’una variable sobre l’altra
mostrant la seva dependència.




Deartament d’Estadística i Investigació Operativa UPC                                      Guió S4 pàg. 13
Laboratoris d’Estadística FIB P09                                              Guió i exercicis S4: bivariant



C. Relacions entre dues variables categòriques: les variables SO, WinNoWin i
Any
Analitzem gràficament i amb una taula creuada la relació entre la parella de variables Any i
WinNoWin i observeu-ne la relació de dependència/independència de les variables


                NoWin               Win         ALL

00

01

02

03

04

05

ALL




I analitzem la relació entre la parella de variables Any i SO observant-ne també la relació de
dependència/independència de les variables


        HP-UX       Linux       Otros     SOLARIS       Unix   W2000   W2003   XP         ALL

00

01

02

03

04

05

ALL




Deartament d’Estadística i Investigació Operativa UPC                                      Guió S4 pàg. 14
Laboratoris d’Estadística FIB P09                                                      Qüestionari:bivariant


NOMS:

Qüestionari de Descriptiva bivariant

1.- A partir de les taules de Resultat amb SO i WinNoWin comenteu si tenen millors resultats els
casos Win o els NoWin




2.- A partir de la taula de Resultat i Any comenteu els resultats al llarg dels anys




3.- Què indica el signe i la magnitud del “coeficient de correlació”?




Departament d’Estadística i Investigació Operativa UPC                                              pàg. 1
Laboratoris d’Estadística FIB P09                                                Qüestionari:bivariant


4.- Comenteu les diferències gràfiques i del coeficient de correlació de la relació Resultat-MHz en
els casos Win i en els NoWin




5.- Com es pot veure intuïtivament, en un gràfic i en la taula creuada, la dependència o
independència de dues variables categòriques? (comenteu-ho en general o en els casos estudiats a
l’exercici C)




Departament d’Estadística i Investigació Operativa UPC                                        pàg. 2
Laboratoris d’Estadística FIB T09                                                  Guió S5: problemes deVA




Sessió 5. Variable Aleatòria: VAD i VAC

Dependència i independència amb VA
                           Y=y1                  Y=y2            ...
          X=x1        P(X=x1 ∩ Y=y1) P(X=x1 ∩ Y=y2)                           P(X=x1)
          X=x2        P(X=x2 ∩ Y=y1) P(X=x2 ∩ Y=y2                            P(X=x2)
            ...

                           P(Y=y1)               P(Y=y2)

Si ∀i ∀j P(X = xi ∩ Y = yj ) = P(X = xi) P(Y = yj) llavors X i Y són independents



Problema A. El paquet de tres bits (continuació)
Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de
comunicació (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències
són equiprobables. Es defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3
bits i la variable Y és el número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y
∈ {0,1,2}. A partir de la taula de la funció de probabilitat conjunta, indiqueu:
    - ¿Són X i Y independents? Raoneu la resposta.
    - Calculeu les esperances condicionales de X en funció dels valors de Y. Compareu amb
    l’esperança de X
    - Calculeu Cov(X,Y) (es pot usar l’expressió Cov(X,Y) = E(X*Y)-E(X)·E(Y)) i el coeficient
    de correlació lineal ρX,Y.


Indicació per a la solució:

              X=0             X=1          X=2             X=3
Y=0           ...             ...          ...             ...         1.00
Y=1           ...             ...          ...             ...         1.00
Y=2           ...             ...          ...             ...         1.00



E(X|Y=0) = ...
E(X|Y=1) = ...
E(X|Y=2) = ...


Departament d’Estadística i Investigació Operativa UPC                                      Guió S5 pàg 1
Laboratoris d’Estadística FIB T09                                                       Guió S5: problemes deVA


Funcions de distribució directes i inverses en models de probabilitat

Els següents problemes corresponen a situacions on s’hi escauen determinats models de
probabilitat. Per fer càlculs amb probabilitats acumulades tenim dues opcions:
     -   a les taules estadístiques podem trobar valors de les seves funcions de distribució.
     -   en Minitab, per a tota una sèrie de models, es pot calcular:
             o la funció de distribució (probabilitat de valors iguals o inferiors al donat):
                             donat x calcular prob tq,   prob = FX ( x ) = P( X ≤ x )
                  amb la comanda CDF (cumulated distribution function), al menú
                  Calc       Probability Distributions     ...
             o la funció de distribució inversa
                             donat prob calcular x tq, x = FX−1 ( prob) ( P ( X ≤ x ) = prob )
                  amb la comanda INVCDF (invers distribution function), al menú
                  Calc       Probability Distributions     ...




 p                                                         p
                                 Problema 1:                                            Problema 2:
                                 donat x,                                               donat p,
                                 obtenir p                                              obtenir x



                         x                                                       x



Calc -> Probability Distributions -> ...                       Calc -> Probability Distributions -> ...
         • Cumulative probability                                      • Inverse cumulative probability




Departament d’Estadística i Investigació Operativa UPC                                           Guió S5 pàg 2
Laboratoris d’Estadística FIB T09                                                   Guió S5: problemes deVA


Problema B. Caigudes d’un servidor (primera part)
Les caigudes d’un servidor en un centre de càlcul segueixen una distribució de Poisson amb
paràmetre λ=2 setmana-1 . Calculeu la probabilitat de:
    1.    Que no es produeixi cap avaria en una setmana.
    2.    Menys de 5 avaries en una setmana.
    3.    Menys de 6 avaries en un mes (4 setmanes)

Si considerem 10 centres de càlcul amb les característiques anteriors, quina és la probabilitat de
que hi hagi 8 centres amb menys de 5 avaries en una setmana?



Indicació per a la solució:
Definir les següents variables

X=”nombre de caigudes (avaries) en una setmana”

   X ~ ...

Y=”nombre d’avaries en un mes” = X+X+X+X

    Y ~ ...

Q=”nombre de centres amb menys de 5 avaries en una setmana”

    Q ~ ...

R=” nombre de centres amb 5 o més avaries en una setmana”

   R ~ ...




Problema C. La distribució de la velocitat de transferir fitxers (primera part)
Baixar un mapa digitalitzat de Catalunya amb la previsió meteorològica d’un determinat servidor en
Internet al disc dur del vostre ordinador tarda cert temps que podem considerar com una variable aleatòria
X amb distribució exponencial amb una esperança de 10 segons.
¿Quina és la probabilitat de que una sola transferència del mapa trigui més de 12 segons?


Indicació per a la solució:


X=“temps baixar mapa”                X ~ Exp(λ= ... )
                                     E(X) = ...
                                     P ( X <= k ) = FX (k ) = 1 − e − λ ·k



Departament d’Estadística i Investigació Operativa UPC                                       Guió S5 pàg 3
Laboratoris d’Estadística FIB T09                                                   Guió S5: problemes deVA


Problema D. La distribució del resultat d’un “benchmark”
Suposem que el resultat obtingut per un ordinador de determinada marca i determinada configuració en
una prova “benchmark” segueix una distribució normal amb mitjana 30 i desviació típica 7.
1. ¿Quina és la probabilitat d’obtenir un resultat superior a 30?
2. ¿Quina és la probabilitat d’obtenir un resultat inferior a 23?
3. ¿Quina és la probabilitat d’obtenir un resultat entre 16 i 44?
4. ¿Quina és la probabilitat d’obtenir un resultat entre 20 i 35? Calcular el resultat amb 4 decimals usant
   les taules de la distribució normal, i també amb més exactitut (6 decimals) amb Minitab.




Indicació per a la solució:


X=“resultat en prova benchmark”


    X ~ N ( µ = ... , σ = ... )
   E(X) = ...
   V(X) = ...




Departament d’Estadística i Investigació Operativa UPC                                       Guió S5 pàg 4
Laboratoris 1
Laboratoris 1
Laboratoris 1
Laboratoris 1

Mais conteúdo relacionado

Semelhante a Laboratoris 1

Júlia Poy, C1: Ms office
Júlia Poy, C1: Ms officeJúlia Poy, C1: Ms office
Júlia Poy, C1: Ms office
restauracio
 
Fonaments de programació; intro
Fonaments de programació; introFonaments de programació; intro
Fonaments de programació; intro
Melanie Nogué
 
T1_e1_salinas_quiles
T1_e1_salinas_quilesT1_e1_salinas_quiles
T1_e1_salinas_quiles
TaniaSalinasQ
 
La meva primer presentació
La meva primer presentacióLa meva primer presentació
La meva primer presentació
megaupload325
 
La Finestra de treball del powerpoint
La Finestra de treball del powerpointLa Finestra de treball del powerpoint
La Finestra de treball del powerpoint
megaupload325
 

Semelhante a Laboratoris 1 (20)

UD3 Programació
UD3 ProgramacióUD3 Programació
UD3 Programació
 
Asix act3v4
Asix act3v4Asix act3v4
Asix act3v4
 
UNITAT 2: ORGANITZACIÓ, DISSENY I PRODUCCIÓ D’INFORMACIÓ DIGITAL
UNITAT 2: ORGANITZACIÓ, DISSENY I PRODUCCIÓ D’INFORMACIÓ DIGITALUNITAT 2: ORGANITZACIÓ, DISSENY I PRODUCCIÓ D’INFORMACIÓ DIGITAL
UNITAT 2: ORGANITZACIÓ, DISSENY I PRODUCCIÓ D’INFORMACIÓ DIGITAL
 
Júlia Poy, C1: Ms office
Júlia Poy, C1: Ms officeJúlia Poy, C1: Ms office
Júlia Poy, C1: Ms office
 
Sistema de control
Sistema de controlSistema de control
Sistema de control
 
MorilloLaura_P01_gestorincidenciesocs
MorilloLaura_P01_gestorincidenciesocsMorilloLaura_P01_gestorincidenciesocs
MorilloLaura_P01_gestorincidenciesocs
 
Salcedo victor uf4_p01glpi+ocs_inventory
Salcedo victor uf4_p01glpi+ocs_inventorySalcedo victor uf4_p01glpi+ocs_inventory
Salcedo victor uf4_p01glpi+ocs_inventory
 
Fonaments de programació; intro
Fonaments de programació; introFonaments de programació; intro
Fonaments de programació; intro
 
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
Consultes amb múltiples taules utilitzant left, right i inner join. Funcionam...
 
T4 ex1
T4 ex1T4 ex1
T4 ex1
 
Manual d'usuari del LSLoader
Manual d'usuari del LSLoaderManual d'usuari del LSLoader
Manual d'usuari del LSLoader
 
T1 e1 salinasquiles(conweb)
T1 e1 salinasquiles(conweb)T1 e1 salinasquiles(conweb)
T1 e1 salinasquiles(conweb)
 
T1_e1_salinas_quiles
T1_e1_salinas_quilesT1_e1_salinas_quiles
T1_e1_salinas_quiles
 
Programaci aia
Programaci  aiaProgramaci  aia
Programaci aia
 
Programaci aia
Programaci  aiaProgramaci  aia
Programaci aia
 
La meva primer presentació
La meva primer presentacióLa meva primer presentació
La meva primer presentació
 
La Finestra de treball del powerpoint
La Finestra de treball del powerpointLa Finestra de treball del powerpoint
La Finestra de treball del powerpoint
 
Sistema de control
Sistema de controlSistema de control
Sistema de control
 
Itineraris IT Academy (2020)
Itineraris IT Academy (2020)Itineraris IT Academy (2020)
Itineraris IT Academy (2020)
 
Presentació oficial d'EinesTIC
Presentació oficial d'EinesTICPresentació oficial d'EinesTIC
Presentació oficial d'EinesTIC
 

Laboratoris 1

  • 1. Laboratoris Estadística FIB P09 Guió S1 Introducció Sessió 1. Introducció al Paquet Estadístic MINITAB Les pràctiques de laboratori s’efectuen en MINITAB per Windows. Es veuran els mòduls més directament relacionats amb l’assignatura: lectura/escriptura d’arxius, DESCRIBE, BOXPLOT, HISTOGRAM (estadística descriptiva), taules encreuades (CROSS TABLES), les macros, generació de mostres, etc.; tanmateix com un resum d’utilitats d’operació que permeten de realitzar anàlisis coherents i complertes dels conjunts de dades que es proposen. Un directori del servidor conté tots els arxius de dades (ASCII i .mtw) que s’usaran al llarg del curs, una descripció exhaustiva dels quals es pot trobar en el propi guió de la pràctica. Els documents de les sessions de laboratori presenten la descripció i exercicis de cada pràctica, la lectura de la qual es considera imprescindible abans de l’inici de la sessió de laboratori corresponent: el contingut de l’enunciat és en molts casos necesari per a la complimentació dels qüestionaris proposats, i com a pauta general no es tornaran a explicar a les sessions de laboratori. La resolució dels qüestionaris proposats a les sessions de pràctiques es realitzarà amb alguns dels arxius indicats en cada cas. Recomanacions pràctiques: • Un cop dintre del MINITAB, per obrir fitxers de més de 10000 cel·les en versions anteriors a la 12 de MINITAB cal fer: EDIT --> Save Preferences --> General --> i aquí canviar el Worksheet Size, per exemple posant-hi 100000. • Cal observar si surt el prompt MTB>, per a poder usar comandes MINITAB sense haver d´utilitzar el menú de WINDOWS. Si no surt, cal fer (amb la finestra Session activa): Editor --> Enable Commands • Per copiar arxius de dades de l’assignatura ESTADÍSTICA s’ha d´accedir al servidor dins del domini SMBFIBP on es troba una carpeta dita ASSIG que conté el directoris amb els fitxers de dades de les assignatures i entre elles l’Estadística . • Per qüestions de concurrència es pot produir un error de lectura si tothom vol obrir alhora el mateix fitxer. En aquests casos resulta recomanable que cada grup de pràctiques es copïi el fitxer a analitzar sobre el seu compte i treballi en local. Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 1
  • 2. Laboratoris Estadística FIB P09 Guió S1 Introducció El paquet estadístic MINITAB per Windows té un funcionament interactiu interpretat. Realitza operacions sobre un full de dades (worksheet) que es pot considerar com una matriu de dades on les columnes s’identifiquen amb les variables que tenen com a nom per defecte c1, c2, c3, etc, i les files representen les observacions de les variables. Les variables poden tenir un nombre d’observacions diferent segons les necessitats o transformacions realitzades per l’usuari. Els fulls de dades es representen a nivell de sistema operatiu com a arxius amb una extensió per defecte .mtw. A més de columnes, existeixen d’altres estructures de dades en MINITAB, però en aquest punt només resulta d’interès comentar la possibilitat d’usar constants, que per defecte s’anomenen k1, k2, k3, etc. Tant les variables, com les constants poden tenir noms particularitzats a l’aplicació de l’usuari i això s’assoleix amb la comanda NAME: MTB> NAME K1 ‘DADES’ Alerta! Qualsevol referència posterior, en comandes, a la variable dades ha de fer-se amb la cadena de caràcters entre cometes. El MINITAB en entorn WINDOWS s’articula en dues pantalles bàsiques: una amb el full de dades (Data Window) i una altra amb el diàleg amb l’usuari i els resultats de l’execució dels procediment requerits (Session Window). Per defecte, existeixen dues finestres auxiliars visibles a petició de l’usuari: History Window i Info Window, respectivament amb la llista de les darreres comandes sol·licitades per l’usuari i la síntesi de continguts del full de dades. L’estructura de les comandes és: MTB > COMANDA paràmetres1 ; return SUBC> Subcomanda paràmetres2 ; return SUBC> Subcomanda paràmetres3 . return Les comandes poden tenir subcomandes i per entrar en aquest nivell cal introduir un punt i coma ";" abans de prémer return, per sortir del nivell de subcomandes i executar cal introduir un punt "." abans del return . El HELP és molt satisfactori i en les sessions de pràctiques és recomanable el seu us, de manera que l’alumne assoleixi en finalitzar el curs prou agilitat amb el sistema com per poder consultar i entendre l’ús de comandes que desconegui sintàcticament. No cal oblidar que l’entorn MINITAB té un gran nombre de comandes i possibilitats i la gran majoria d’usuari només coneixen una fracció molt petita de les seves possibilitats. En entorn Windows, el HELP és sensitiu al context i es pot invocar des de qualsevol punt. Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 2
  • 3. Laboratoris Estadística FIB P09 Guió S1 Introducció En versions no WINDOWS (o des de llenguatge de comandes), la comanda STOP permet d’aturar una sessió MINITAB i retornar l’usuari a nivell de sistema operatiu i la comanda OUTFILE possibilita la creació d’un arxiu de seguiment de la sessió, és a dir un arxiu on es guarden les comandes sol·licitades per l’usuari i a la vegada els resultats d’executar-les. En entorn WINDOWS, sortir del sistema MINITAB s’assoleix amb la selecció d’icones File Exit. Pel recull de la sessió de treball en un arxiu de text s’activa la finestra File Save Session Window As o bé es seleccionen les icones File Save Project as (salva fulls i icones de resultats oberts, text i gràfics) o File SaveWorksheet As només per salvar el full de dades actual. Una manera ràpida de consultar el nombre de columnes/variables existents en un full de dades és la comanda INFO, que a la vegada informa de l’existència de noms lligats per l’usuari a les variables i del nombre d’observacions de cadascuna. En entorn Windows cal seleccionar les icones Window Info. Una primera tasca fonamental consisteix en comunicar-se amb l’entorn de l’ordinador, és a dir la lectura/escriptura de dades, bé en format ASCII o en format intern MINITAB. La lectura/escriptura de dades en format ASCII es realitza amb les comandes READ i WRITE respectivament. La lectura/escriptura d’arxius de dades en format intern mitjançant les comandes RETRIEVE i SAVE, respectivament. La lectura i escriptura de fitxers s’aconsella s’efectüi a partir de les icones de l’entorn Windows: • Arxius en format intern Minitab: Icó File OpenWorksheet (lectura d’un arxiu existent), File NewWorksheet (creació d’un nou full de dades), Save (As) Worksheet (escriptura). • Arxius en format ASCII: File OtherFiles ImportASCIIData (lectura) i File OtherFiles ExportASCIIData (escriptura). • Per recuperar un projecte anterior (fulls de càlculs i resultats): Icó File OpenProject. En la gran majoria d’estudis d’estadística descriptiva, és necessari de transformar les dades originals: per suprimir alguns valors no adequats, per crear variables derivades de les originals que presenten millors propietats de cara al tipus d’anàlisi posterior, etc. Les comandes MINITAB de transformació i creació de noves variables són bàsicament tres: 1. LET. Crea una nova variable com a funció matemàtica de variables prèviament existents, per ex: LET C100 = 10*C1 + C2. En entorn Windows cal seleccionar les opcions Calculate Calculator. 2. COPY. Crea una nova variable que conté un subconjunt (o tots) de valors de la variable original, seleccionats per un criteri molt flexible funció del número d’observació o funció dels valors d’una tercera variable que juga el paper de selector. Les diferències en les dues Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 3
  • 4. Laboratoris Estadística FIB P09 Guió S1 Introducció maneres de selecció es comentaran àmpliament a classe de pràctiques, aquí només es dóna la sintaxi de les dues funcionalitats: MTB > COPY C1 C2; MTB > COPY C1 C2; SUBC> USE C1 4:7. SUBC> USE 4:7. En entorn Windows cal seleccionar les icones Manipulate CopyColumns. 3. CODE. Pot crear una nova variable amb certs valors originals transformats segons uns criteris de rang de valors. És fonamental per la codificació dels missings com ‘*’: MTB> CODE (0) 99 (3:5) 3 (9) ‘*’ C1 C2 que efectua C1 C2 0 99 3a5 3 9 Missing Resta No canvien En entorn Windows cal seleccionar les icones Manipulate Code Numeric to Numeric, o Code Numeric to Text, etc, segons convingui reagrupar intervals de valors numerics en codis numèrics o en símbols... Quan es tracta de codificar intervals d’una variable numèrica, el propi Minitab decidirà per quin dels dos extrems tancarà l’interval i l’altre quedarà obert. Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 4
  • 5. Laboratoris d’Estadística FIB P09 Guió S2: univariant Sessió 2. Estadística Descriptiva Univariant L’estadística descriptiva univariant és la primera de les etapes a realitzar en qualsevol estudi d’anàlisi de dades. Té per objectiu facilitar una prospecció intuïtiva de la informació continguda a l’arxiu de dades, així com orientar els procediments posteriors. Cal tenir en compte que la majoria de vegades, les dades reals (no simulades) vindran verges, sense cap manipulació ni revisió prèvia. És tasca fonamental realitzar-ne un correcte depurat abans d’efectuar l’anàlisi, tot corregint-ne possibles errors o defectes. De fet, la qualitat de les conclusions de l’anàlisi, és directament proporcional a la qualitat de les dades. Si el procés de depurat és deficient, la utilitat dels resultats pot ser dubtosa, i ens arrisquem a prendre decisions equivocades, de nefastes conseqüències en moltes ocasions. Dins la fase de depuració de les dades, hi ha uns quants punts a considerar: • Les dades mancants, en anglès nomenades missings. Es tracta de dades absents, de caselles de la matriu de dades sense contingut. La causa d’una dada mancant, és variada i pot anar des de la simple pèrdua, o inaccessibilitat de la dada, fins a l’ocultació voluntària (no resposta en enquesta, filtració, etc.). En general vindran representades de dues formes: amb una casella blanca, o utilitzant un codi numèric atípic per la variable (valor fora de rang o molt gran), desitjablement detectables directament per inspecció visual. Amb Minitab, aquests forats es poden omplir amb un valor especial: l’asterisc, *; que indica valor a no tenir en compte en procediments estadístics. De vegades, serà necessari tractar d’imputar algun valor hipotètic per aquestes dades, per tal d’aprofitar el contingut del registre corresponent en altres variables. La imputació es fa especialment necessària en anàlisis bi o multivariants i constitueix un problema molt difícil que no és en absolut objecte d’aquest curs introductori, però volem deixar constància d’aquesta possibilitat per a que no es creï la falsa idea que sempre s’han de substituir els codis mancants per un *. • Les dades anòmales o aberrants, en anglès denominades outliers . Una dada és un outlier si és una observació anormalment llunyana de la resta i sol ésser d’interès detectar-ne el màxim possible de les existents en la fase inicial de l’anàlisi exploratori. Un outlier no ha de correspondre forçosament a un error de codificació/gravació, pot correspondre a un individu realment diferenciat de la resta, o pot ser precisament la representació d’un codi de dada mancant, etc. El tractament dels outliers no és en absolut automàtic. Algunes vegades convé mantenir-los, d’altres són causa de gran inestabilitat numèrica i és recomanable la seva eliminació, d’altres caldrà fer-ne un tractament individualitzat, etc. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 1
  • 6. Laboratoris d’Estadística FIB P09 Guió S2: univariant Però sempre s’han de resseguir, perquè són de gran valor descriptiu i la primera cosa que cal fer és identificar l’objecte (l’individu) que l’està generant. Sovint, el mateix individu presenta valors anòmals en diverses variables alhora i podrem entendre millor la seva naturalesa fent-ne una valoració global. En qualsevol cas, es tractament d’outliers s’ha de fer sempre amb molta cura. Eliminar-los (o substituit-los per un ‘*’ indiscriminadament pot ser causa d’errors d’interpretació greu. Vegi’s el següent fragment a títol il.lustratiu sobre les conseqüències d’un tractament irresponsable de dades anòmales: “El 1985 uns científics britànics van advertir d’un forat en la capa d’ozó de l’atmosfera terrestre sobre el Pol Sud. Això suposava un problema, ja que l’ozó ens protegeix del càncer que provoquen les radiacions ultravioleta. L’informe britànic va ser mensytingut d’entrada, perquè es basava en instruments que observaven l’atmosfera des de terra. Altres observacions més comprensives eren les que provenien d’un satèl.lit que observaven l’atmosfera des de dalt i no mostraven res inusual. Més tard, l’examen de les dades del satèl.lit va revelar que el Pol Sud presentava lectures d’ozó tan i tan baixes que el software del computador que s’utilitzava per analitzar les dades les havia suprimit automàticament com si fossin outliers deguts a errors de mesura!!! Es van reanalitzar les lectures antigues des del 1979 i van posar de manifest que hi havia un enorme i creixent forat en la capa d’ozó que era inexplicable i possiblement perillós.” [1] Els computadors que analitzen grans volums de dades sovint es programen per suprimir els outliers automàticament, com a mesura de protecció contra els errors en les dades. Com l’exemple del forat de la capa d’ozó il.lustra, suprimir un outlier sense investigar-lo pot ocultar informació de gran valua. Així doncs, abans d’enfrontar-nos a la descripció d’un conjunt de dades, procurarem efectuar-ne un correcte depurat. Tant per a la identificació de missings i outliers com per a la pròpia anàlisi descriptiva, ens ajudarem d’un mateix conjunt d’eines numèriques i gràfiques que ens donin una visió perspectiva (sintètica) i informativa de l’estructura de les dades i el seu comportament. En aquest capítol estudiarem i tractarem de caracteritzar les variables d’una en una. És l’anàlisi descriptiva univariant. Ja s’ha vist que les variables es divideixen en numèriques (contínues o discretes) i categòriques (ordinals o nominals). El tractament descriptiu d’unes i altres variarà i el presentarem de forma separada. El principal objectiu d’una descriptiva univariant és sintetitzar el patró general que segueix una variable i caracteritzar-ne les desviacions respecte d’aquest patró (outliers, fluctuacions en general, etc). Per fer-ho, combinarem eines de diferent naturalesa: • Gràfiques: Visualitzen com estan distribuïts els valors d’una variable • Numèriques: Sintetitzen i quantifiquen el que s’observa en el gràfic. 1 “Hole in ozone over South Pole worries scientists”. James Gleick. The New York Times, July 29, 1986 Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 2
  • 7. Laboratoris d’Estadística FIB P09 Guió S2: univariant L’arxiu CINT2000-2005.MTW conté informació sobre uns estudis de benchmark de l’SPEC (http://www.spec.org/) amb les següents columnes: • Company, System, Num_proc , Processor, i Proc informen de les diferents característiques de cadascuna de les màquines on s’executa el programa de càlcul. • MHz velocitat del processador . • 1st Cache , 2n Cache descriuen el tamany de cadascuna de les dues memòries Cache. • Memory ens informa de la quantitat i el tamany de casdascun dels mòduls de la memòria principal. • mem és el tamany total de memòria RAM. • Op.Sys. sistema operatiu sobre el qual s’ha executat el programa • Compiler compilador amb que s’ha compilat el programa • Result resultats obtinguts després d’executar el programa amb les opcions òptimes • Baseline resultats obtinguts després d’executar el programa amb les opcions bàsiques • Test Date mes i any en que s’ha fet l’execució A partir d’aquestes columnes afegim unes variables derivades d’algunes de les columnes per facilitar-ne el tractament: • Any que és només la informació d’any del Test Date. • SO és la columna Op.Sys restringint-se al nom genèric (eliminant les variants dins de cada família) Classificarem, per tipus, les variables que ens poden ser útils: Variable Contínua Discreta Ordinal Nominal Variable Contínua Discreta Ordinal Nominal Company System Processor Proc Op.Sys. Compiler MHz mem Result Baseline Any SO Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 3
  • 8. Laboratoris d’Estadística FIB P09 Guió S2: univariant DESCRIPCIÓ NUMÈRICA DE VARIABLES NUMÈRIQUES Es busca resumir la informació d’una variable mitjançant indicadors numèrics robustos i clàssics de la distribució de la variable. Els indicadors clàssics són molt sensibles a la presència d’outliers i els seus valors experimenten fortes modificacions amb o sense aquests valors extrems. Els indicadors robustos van aparèixer posteriorment amb l’objectiu de tenir un comportament més estable i són resistents a la presència de valors extrems en les observacions (possibles outliers). Els primers són més comunment coneguts i resulten d’especial interès en aquest curs per la seva estreta relació amb certs conceptes bàsics de la Teoria de la Probabilitat com són l’Esperança Matemàtica i la Variància (que es veurà en el seu dia). Dels indicadors numèrics, ens interessa especialment: • La Tendència Central: indica el valor de la variable al voltant del qual s’estan distribuïnt les observacions. Hi ha diverses formes de mesurar-la 1 n - Clàssica: la mitjana x = ∑ o en termes MINITAB mean, valor que prendrien les n i =1 xi observacions si no hi hagués variabilitat i totes fossin iguals. - Robusta: mediana (Me o median en terminologia MINITAB), definida com el valor real tal que el 50% de les observacions prenen un valor inferior a Me i el 50% prenen un valor superior. • La Dispersió: mesura quant fluctuen les observacions d’una variable al voltant de la tendència central. Formes de mesurar-la: 1 n 2 - Clàssica: variància sx ∑ ( xi − x)2 o la seva arrel quadrada que s’anomena desviació = n − 1 i =1 tipus o estàndard s x , i ve en les mateixes unitats de mesura que la variable. MINITAB no calcula directament la variància per a una variable, però es pot trobar la desviació tipus amb la n 2 1 instrucció STDEV. També es pot calcular via la fórmula s = [∑ xi2 − n( x) 2 ] x n − 1 i =1 - Robusta: distància interquartilar (IQR) definida com la diferència entre els quartils del 75 (Q3) i 25% (Q1) (en terminologia MINITAB IQR=Q3-Q1) on: 1. Q1 és un valor real tal que el 25% de les observacions prenen un valor inferior a Q1. 2. Q3 és tal que un 25% de les observacions prenen un valor superior a Q3. • Simetria: Indica si les fluctuacions entorn la tendència central s’equilibren per sobre i per sota d’aquest valor, o per contra, pesen més d’una banda que d’una altra. Aquesta és una característica fàcilment valorable sobre una representació gràfica. Existeixen indicadors específics que ho quantifiquen, que no s’introdueixen en aquest curs. Però ens pot ajudar a identificar el sentit d’una asimetria la comparació entre mitjana i mediana, o entre Q3-Me i Me- Q1. Molts d’aquests valors es troben a la sortida de la instrucció MINITAB DESCRIBE. En entorn Windows, els anteriors estadístics s’obtenen seleccionant les icones Statistics >Basic Statistics >Display Descriptive Statistics. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 4
  • 9. Laboratoris d’Estadística FIB P09 Guió S2: univariant DESCRIPCIÓ GRÀFICA DE VARIABLES NUMÈRIQUES La visualització de la distribució d‘una variable numèrica es complementa amb la descripció numèrica de la mateixa. Aquesta visualització es pot obtenir mitjançant diverses eines gràfiques MINITAB: dot-plot, histograma, box-plot, i d’altres. min Q1 median Q3 max * IQR Outliers suaus Outliers suaus Outliers extrems L’esquema vol il·lustrar en què consisteix el box-plot (o diagrama de caixa i bigoti). Visualitza el que es coneix com a “Resum en cinc números” (Min, Q1, Me, Q3, Max) i permet observar la ubicació de la tendència central, la dispersió, la simetria de la distribució, l’existència d’outliers, etc. La caixa central representa el 50% de les observacions, les que són entre el primer quartil i el tercer quartil; la mediana s’explicita amb una línia. Els bigotis són les línies que es prolonguen als costats de la caixa central. Per exemple, en la cua superior es construeix un punt imaginari, situat a 1.5 vegades el IQR a partir del tercer quartil. El bigoti arribarà fins a l’observació més gran, però menor o igual que aquest límit. La zona que queda entre els punts Q3+1,5IQR i Q3+3IQR s’anomena zona d’outliers suaus i cadascuna de les observacions que es troben en aquesta zona es representarà com a ‘*’, i anàlogament amb la cua inferior. La zona superior al punt Q3+3IQR s’anomena zona d’outliers extrems. Si una dada és outlier es posiciona en alguna d’aquestes zones (outliers suaus o extrems ). El recíproc no és cert. La caracterització anterior és indicativa i és l´estadístic qui determina si un valor és o no un outlier. Com a norma general no és preocupant observar fins a un 1% d’outliers extrems i fins a un 5% d’outliers suaus en una distribució qualsevol. L’histograma és una representació molt utilitzada que representa barres d’altura proporcional al nombre d’observacions sobre uns intervals que es defineixen (automàticament per a nosaltres) sobre l’eix de la variable. Permet observar també la situació de la tendència central, la magnitud de la dispersió, l’existència de dades extremes, la simetria de la distribució i algunes característiques significatives com per exemple l’existència de diversos pics (vàries tendències centrals...n- modalitat), el possible truncament d’una cua de la distribució (escarpat) o defectes en el procediment de mesura (histograma escalat). Les comandes bàsiques MINITAB per Estadística Descriptiva Univariant Gràfica són BOXPLOT i HISTOGRAM. En entorn Windows, l’obtenció de boxplots requereix seleccionar les icones Graph Boxplot i per tenir histogrames Graph Histo. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 5
  • 10. Laboratoris d’Estadística FIB P09 Guió S2: univariant A. La variable Result A1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable Result: • Grandària (sense missings) .......... • Mínim ............ Màxim ............ • Primer quartil Q1 .................... • Mitjana .................................... • Mediana .................... • Desviació estàndard ................... • Tercer quartil Q3 ..................... Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la taula d’indicadors numèrics podem concloure: Hi ha dades mancants inicialment? Sí No S’observen dades extremes o outliers? Sí No En aquest cas s’observa que hi ha molts casos amb valor 0. No són outliers, i caldria fer estudis concrets d’aquestes dades per controlar-ne les causes però el que farem serà substituir-los per dades mancants per poder estudiar el gruix de les altres dades. La operació de substitució és la instrucció CODE de Minitab obtenint la columna Resultat com a Result depurada: MTB > Code (...) '*' 'Result' 'Resultat' (Data->Code->Numeric to numeric) A2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada: • Grandària (sense missings) .......... • Mínim ....... Màxim ............. • Primer quartil Q1 .................... • Mitjana ................................... • Mediana .................... • Desviació estàndard ................ • Tercer quartil Q3 .................... • Variància ................ • IQR ..................... Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en les característiques de la variable abans i després de depurar Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 6
  • 11. Laboratoris d’Estadística FIB P09 Guió S2: univariant A3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins indicadors ho veiem, en els aspectes següents: - Tendència Central. - Dispersió. - Simetria. B. La variable mem B1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable mem: • Grandària (sense missings) .......... • Mínim ............. Màxim ............. • Primer quartil Q1 .......... ........ • Mitjana .................................... • Mediana ..................... • Desviació estàndard ............... Mb. • Tercer quartil Q3 ....................... Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la taula d’indicadors numèrics podem concloure: Hi ha dades mancants inicialment? Sí No S’observen dades extremes o outliers? Sí No La operació per substituïr els outliers és la instrucció CODE de Minitab obtenint la columna memoria com a mem depurada. MTB > Code ( ... ) '*' 'Mem' 'memoria' (Data->Code->Numeric to numeric) B2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada: • Grandària (sense missings) ............. • Mínim .......... Màxim ............ • Primer quartil Q1 ...................... • Mitjana ..................................... • Mediana ...................... • Desviació estàndard ................Mb. • Tercer quartil Q3 .................... • Variància ....................... Mb2. • IQR ................... Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 7
  • 12. Laboratoris d’Estadística FIB P09 Guió S2: univariant Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en les característiques de la variable abans i després de depurar (en aquest cas s’observa que es pot entrar en un procés iteratiu de detecció, substitució, nova detecció d’outliers,...) B3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins indicadors ho veiem, en els aspectes següents: - Tendència Central: - Dispersió : - Simetria B4. Estudiarem en aquest cas la possibilitat de transformar la variable enlloc d’entrar en un procés iteratiu de detecció i substitució de nous outliers (crearem la variable log_mem usant una transformació força habitual que és el logaritme i que tornarem a usar més endevant) Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 8
  • 13. Laboratoris d’Estadística FIB P09 Guió S2: univariant DESCRIPCIÓ DE VARIABLES CATEGÒRIQUES Les variables categòriques no prenen valors numèrics, sinó modalitats o categories (per exemple, el sexe pot ser home o dona, o el color dels ulls pot ser blau, verd, marró, etc.). Les variables categòriques no tenen significat numèric, tampoc té sentit establir mesures de tendència o de dispersió. Les variables categòriques es descriuen numèricament amb recomptes de les modalitats presents (icones Stat Tables Tally) o indicant la modalitat més freqüent de totes (Moda). La representació gràfica que visualitza el resultat d’un tally és el diagrama de barres: icones Graph Chart. Si hi ha poques categories també és adequada la representació gràfica via la selecció de les icones Graph Pie Chart en entorn Windows. La interpretació serà molt més senzilla en aquest cas: quantes modalitats hi ha? Es distribueixen uniformement? Quines abunden més? ... o menys? Si la variable és ordinal convé estudiar tendències: les modalitats d’ordre superior abunden més? Conforme creix l’ordre d’una modalitat creix la seva freqüència? ... o decreix? Però per a fer-ho, caldrà que les modalitats es representin ordenades correctament sobre el gràfic. Per a fer-ho, cal indicar a Minitab, que l’ordre de les modalitats està definit i que ha de respectar aquest ordre en totes les representacions (a la finestra que visualitza el fitxer de dades, posicionarse sobre el nom de la variable, punxar el boto dret del ratoli i apareixerà un desplegable; seleccionar Column>Value Order, marcar User Specified Order, definir l’ordre sobre la finestra dreta del formulari i fer Add Order; assegurar-se que queda seleccionat abans d’acceptar) La figura de l’esquerra mostra un típic histograma (consum per autopista), apropiat per les característiques de la variable: quantitativa i contínua. 60 15 50 Count of students 40 Frequency 10 30 20 5 10 0 0 ia e ny ds en str nc ma Ital y an pai n 4 5 6 7 8 9 10 11 12 13 Au Fra Ger erl ed UK Neth S Sw cons-autop students Un diagrama de barres com el de la dreta serà útil per descriure una variable categòrica: observeu que la adjacència de les barres del histograma subratlla l'aspecte numèric de la variable, i la separació d'aquest diagrama destaca l’heterogeneïtat de les modalitats en el cas categòric. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 9
  • 14. Laboratoris d’Estadística FIB P09 Guió S2: univariant C. La variable SO A partir de la variable SO crearem, amb la instrucció CODE una variable “WinNoWin” recodificada segons la següent equivalència: SO Windows: W2000,W2003,XP recodificats com a Win SO no windows: Linux,Unix,HP-UX,SOLARIS,Otros recodificats com a NoWin Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques (diagrama de barres o pastís) analitzarem les característiques de la nova variable D. La variable Any Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques (diagrama de barres o pastís) analitzarem les característiques de la variable Any. AVÍS: Cal guardar còpia del fitxer amb les variables “Resultat” i “memoria” depurades i amb la nova variable “WinNoWin” per a la propera sessió de laboratori. Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 10
  • 15. Laboratoris d’Estadística FIB P09 Qüestionari: univariant NOMS: Qüestionari de Descriptiva univariant. 1.- Per a la variable de resultat abans de depurar (Result) i després de depurar (Resultat) indiqueu els canvis observats numèricament i gràfica de les característiques de: - Tendència Central i Dispersió - Simetria i Outliers 2.-Per a la variable de memòria abans de depurar (Mem) i després de depurar (Memoria i log_mem) indiqueu els canvis observats numèricament i gràfica de les característiques de: - Tendència Central i Dispersió - Simetria i Outliers 3.- Indiqueu quins indicadors han canviat molt i quins no, a l’eliminar outliers. I indiqueu com s’anomenen uns i altres segons si varien molt o no. Departament d’Estadística i Investigació Operativa UPC pàg. 1
  • 16. Laboratoris d’Estadística FIB P09 Qüestionari: univariant 4.- Quins són els indicadors de dispersió clàssics i quines unitats tenen? Indiqueu com es calculen. 5.- Per a les variables SO, WinNoWin i Any indiqueu les característiques de les respectives distribucions (com les descriurieu per a un informe) Departament d’Estadística i Investigació Operativa UPC pàg. 2
  • 17. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Sessió 3. Càlcul de Probabilitats i Variable aleatòria Els esquemes següents representen les fórmules de càlcul de probabilitats de la primera pàgina del formulari: Ω A 0 ≤ P(A) ≤ 1 P(Ω) = 1 A A B B P(A ∪ B) = P(A)+ P(B)- P(A ∩ B) si A ∩ B ≠ 0 P(A ∪ B) = P(A) + P(B) si A i B disjunts A1 A2 ... B Ai P( B | Ai ) ⋅ P( Ai ) J P( Ai | B ) = J P(B) = ∑ P( B | A j) ⋅ P(A j) ∑ P(B j=1 | A j) ⋅ P( A j) j=1 P(B|A) B A P(A) P(NoB|A) NoB P(NoA) P(B|NoA) B NoA P(NoB|NoA) NoB P(A ∩ B) P(B | A) = P(A ∩ B) = P(A) ⋅ P(B | A) P(A) Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 1
  • 18. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Dependència i independència en CP Amb les probabilitats conjuntes: B ¬B A P(A∩B) P(A∩¬B) P(A) ¬A P(¬A∩B) P(¬A∩¬B) P(¬A) P(B) P(¬B) Si P(A ∩B)= P(A) * P(B) i P(¬A ∩B)= P(¬A) * P(B) i P(A ∩¬B)= P(A) * P(¬B) i P(¬A ∩¬B)= P(¬A) * P(¬B) llavors A i B són independents Amb les probabilitats condicionades (per files): B ¬B A P(A∩B) / P(A) = P(B|A) P(A∩¬B) / P(A) = P(¬B|A) 1 ¬A P(¬A∩B) / P(¬A) = P(B|¬A) P(¬A∩¬B) / P(¬A) = P(¬B|¬A) 1 Si les probabilitats condicionades coincideixen ( P(B|A) = P(B|¬A) = P(B) i P(¬B|A) = P(¬B|¬A) = P(¬B) ) llavors A i B són independents Amb les probabilitats condicionades (per columnes): B ¬B A P(A∩B) / P(B) = P(A|B) P(A∩¬B) / P(¬B) = P(A|¬B) ¬A P(¬A∩B) / P(B) = P(¬A|B) P(¬A∩¬B) / P(¬B) = P(¬A|¬B) 1 1 Si les probabilitats condicionades coincideixen ( P(A|B) = P(A|¬B) = P(A) i P(¬A|B) = P(¬A|¬B) = P(¬A) ) llavors A i B són independents Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 2
  • 19. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Problema A: Els flops erronis Un ordinador conté 3 processadors (A1, A2 i A3) en paral·lel per realitzar operacions de càlcul en coma flotant (anomenat floating point operations o flops en breu). Se sap que cada processador produeix flops amb resultats incorrectes amb freqüències 0.01, 0.02 i 0.03 respectivament. Un usuari arranca un programa per fer una tasca de càlcul que requereix 200 000 flops en total. El processador A1 processa 100 000 flops de la tasca, mentre A2 i A3 processen 50 000 cadascú. Ens interessa estudiar si un flop concret dels 200 000 que formen part de la tasca (li direm flop i) s’ha executat amb èxit o ha estat incorrecte. Contesta les preguntes a continuació: 1. Quina és la probabilitat que el flop i sigui incorrecte? 2. Si sabem que el flop i és incorrecte, quin processador és el candidat més probable d’haver-lo executat? Indicació per a la solució: 0.01 B flop erroni A1 ... B flop no erroni 1/2 ... B flop erroni A2 ... ... B flop no erroni ... ... B flop erroni A3 ... B flop no erroni Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 3
  • 20. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Problema B: Usuaris i batchjobs Un ordinador gran (mainframe) disposa d’una cua on els usuaris poden enviar treballs a processar pel sistema operatiu (batchjobs). Es distingeixen batchjobs petits (P), mitjans (M) i grans (S) dependent dels recursos que exigeixen els batchjobs (memòria, temps de CPU, ús de disc, etc.). La gran majoria dels usuaris treballa de manera interactiva amb l’ordinador, i només 4 usuaris (A, B, C i D) solen enviar batchjobs. La pràctica ha ensenyat que els batchjobs que es troben a la cua pertanyen a les diferents combinacions de categories amb les probabilitats: Usuari A Usuari B Usuari C Usuari D Petit 0.01 0.05 0.04 0.01 Mitja 0.02 0.08 0.03 0.03 Gran 0.04 0.54 0.09 0.06 Contesteu les preguntes següents: 1. Quina és la probabilitat que un batchjob qualsevol hagi estat enviat per l’usuari A? 2. Quina és la probabilitat que un batchjob petit hagi estat enviat per l’usuari A? 3. Quina és la probabilitat que un batchjob sigui un batchjob gran? 4. Quina és la probabilitat que un batchjob sigui gran i enviat per usuari B? 5. Hi ha independència entre l’usuari i el tipus de batchjob? Argumenteu la resposta. 6. Quina és la probabilitat que un batchjob hagi estat enviat per l’usuari A o l’usuari B? 7. Quina és la probabilitat que un batchjob gran hagi estat enviat per l’usuari A o B? 8. Donat que un determinat batchjob no es petit, quina es la probabilitat que hagi estat enviat per l'usuari C o l'usuari D? Indicació per a la solució: Probabilitats marginals: Usuari A Usuari B Usuari C Usuari D Petit 0.01 0.05 0.04 0.01 0.11 Mitja 0.02 0.08 0.03 0.03 ... Gran 0.04 0.54 0.09 0.06 ... 0.07 ... ... ... 1.00 Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 4
  • 21. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Probabilitats condicionades: - per columnes Usuari A Usuari B Usuari C Usuari D Petit 0.14 Mitja 0.29 Gran 0.57 1.00 1.00 1.00 1.00 1.00 - per files Usuari A Usuari B Usuari C Usuari D Petit 0.09 0.45 0.36 0.09 1.00 Mitja 1.00 Gran 1.00 1.00 Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 5
  • 22. Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA Problema C: El paquet de tres bits (primera part) Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de comunicació (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències són equiprobables. Es defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3 bits i la variable Y és el número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y ∈ {0,1,2}. - Construïr la taula amb la funció de probabilitat conjunta de les variables X i Y. - Calcular les esperances de X i de Y, i les variances de X i Y. Indicació per a la solució: Possibilitats X (suma) Y (#alternances) 0 000 0 0 0 001 1 1 1 0 0 010 1 2 1 1 011 0 100 0 1 1 101 1 0 110 1 111 3 0 Probabilitats conjuntes: PYX X=0 X=1 X=2 X=3 1/8 Y=0 0 Y=1 0 Y=2 1/8 Problema D: Resolució de problema en l’entorn e-status Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 6
  • 23. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant Sessió 4. Estadística Descriptiva Bivariant En la sessió d’univariant hem vist com les eines descriptives univariants ens permetien de caracteritzar el comportament d’una variable aïllada. De fet, amb eines numèriques i gràfiques podiem fer una fotografia sintètica de la variable. Un cop conegudes les variables una a una, ens interessarem per un estudi més global, que les posicioni unes respecte a les altres. Així doncs, la següent passa en l’anàlisi descriptiva és l’anàlisi descriptiva bivariant, que té per objectiu estudiar com són les relacions entre les variables dues a dues. Naturalment, aquest és el cas més simple de l’anàlisi descriptiva multivariant, que estudia globalment les relacions existents entre un conjunt de variables que pot ser molt nombrós (aquestes tècniques són més complexes i són objecte de l’assignatura optativa TCD –Tècniques de Classificació i Discriminació, i connecten directament amb el món del Data Mining). En aquest curs estudiarem les tècniques més usuals d’anàlisi descriptiva bivariant. Al igual que passava amb les univariants, en tindrem de dos tipus: • Eines gràfiques: Permetran visualitzar com és la relació entre dues variables. Generalment identificarem un patró general que regeix la relació i com son les desviacions respecte d’ell. • Eines numèriques: Quantifiquen el que s’observa en el gràfic, ja sigui a nivell de proporcionar un model matemàtic per al patró general observat o per quantificar les desviacions respecte d’ell. D’altra banda cal tenir present que la naturalesa de les variables a estudiar jugarà un paper fonamental en la determinació de quines eines seran o no adequades per cada cas. Així doncs, distingirem bàsicament tres casos: • Relacions entre una variable numèrica i una categòrica • Relacions entre dues variables numèriques • Relacions entre dues variables categòriques A continuació tractarem cadascun d’ells. Per últim, abans d’acabar aquest apartat, recordar que en tot treball, cal realitzar una acurada depuració de les dades abans de començar l’anàlisi, i que això comporta, el tractament de missing data i l’estudi dels possibles outliers de les variables que intervenen a l’estudi. Una qüestió a tenir sempre present és la possible aparició de nous outliers en l’estudi bivariant. En efecte, dades que estan prop de la tendència central d’una variable globalment, poden ser outliers en un subgrup concret que es concentri en valors menors, per exemple: aquests outliers han de tractar-se seguint la metodologia presentada a la pràctica anterior. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 1
  • 24. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant RELACIÓ ENTRE VARIABLES NUMÈRIQUES I CATEGÒRIQUES En aquest cas estem interessats en estudiar el comportament d'una variable numèrica segons les modalitats que pren una variable categòrica, tot examinant així la relació entre les dues variables. Amb aquesta anàlisi podrem observar les possibles diferències en el comportament de la variable numèrica entre els grups que determina la variable categòrica. Com ja hem dit, utilitzarem eines gràfiques i numèriques. De fet, en aquest àmbit s’introdueix l’extensió de les 3 eines de Minitab bàsiques per estadística descriptiva que es coneixen de la sessió anterior: DOTPLOT, BOXPLOT i DESCRIBE. L’extensió de les possibilitats de les comandes s’assoleix mitjançant la introducció de subcomandes. Des del sistema de navegació per menús que ofereix Minitab, això correspon a diferents opcions que presenten els formularis i que introduirem tot seguit. Si es treballa directament contra l’intèrpret de comandes Minitab, s’entra a nivell de subcomanda si, després d’indicar la comanda principal es prem “ ; Retorn”; s’observarà un canvi en el Prompt de l’intèrpret que passarà de “MTB>” a “SUBC>”; ens mantindrem dins aquest nivell de subcomanda fins que utilitzem el terminador de línia “.”, que indica que es pot executar tot el bloc anterior . Eines gràfiques d’anàlisi descriptiva bivariant (cas mixte) Veurem en aquest curs el dotplot múltiple (el formulari del dotplot té un flag: BY, que cal activar i indicar quina variable categòrica es vol utilitzar per definir els grups), i el boxplot múltiple (en el formulari del Boxplot, omplir el camp X amb la variable categòrica; si a més s’omple Grouping Variable amb la variable categòrica i es selecciona l’opció de “For each group” , hi haurà un tramat/color diferent per cada grup). La idea bàsica d’un gràfic múltiple és que es reprodueix un determinat gràfic per la variable numèrica (el dotplot, o el boxplot, en el nostre cas), per tots els grups que indica la categòrica. Els gràfics de tots els grups es representen juxtaposats sobre una mateixa escala per la variable numèrica i això permet fer comparacions entre grups. A la figura es mostra el dotplot múltiple de la variable velocitat de procés d’uns ordinadors (en MHz) versus el sistema operatiu de suport de l’ordinador. En segon lloc es mostra el boxplot múltiple de la puntuació que cada ordinador ha tret en un cert benchmark versus el sistema operatiu (val a dir que a més alta puntuació, millor posicionat està l’ordinador). Es pot veure com l’estructura bàsica d’un gràfic múltiple és, com ja s’ha dit, la repetició d’un gràfic de la variable numèrica per cadascun dels grups que indica la categòrica. Dotplot for velocidad 50 Sist. Oper. 40 W2000 30 Result UnixWare 20 10 NT 100 200 300 400 500 600 700 800 900 1000 0 velocidad NT UnixWare W2000 Sist. Oper. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 2
  • 25. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant L’anàlisi ha de contemplar bàsicament dos aspectes: • Com és el gràfic de cada grup per se. Per fer-ho hem de recórrer als coneixements adquirits en la pràctica d’univariant. • Com és la relació entre les dues variables. Per fer-ho analitzarem global i comparativament tots els grups. Bàsicament ens interessarà observar si el comportament de la variable numèrica és idèntic en tots els grups: mateixa tendència central, mateixa dispersió, mateix grau de simetria... (la qual cosa apunta cap a la independència entre les dues variables) o, per contra, existeix algun efecte del grup sobre la variable numèrica. Minitab ofereix la possibilitat d’altres gràfics múltiples, que no veiem en aquest curs o bé per la dificultat en obtenir-los, o bé per la dificultat en interpretar-los (tal és el cas de la representació que Minitab ofereix de l’histograma múltiple). Eines numèriques d’anàlisi descriptiva bivariant (cas mixte) Al igual que en el cas univariant, els indicadors numèrics serviran per quantificar el que s’observa en el gràfic. Així, quantificarem les tendències centrals, dispersions, etc. de cada grup a través de la descriptiva múltiple (Basic Statistics>Display Descriptive Statistics de la variable numèrica + Activar flag BY i indicar variable categòrica). Es mostra a continuació la descriptiva múltiple de la variable velocitat dels processadors versus el sistema operatiu, ja presentats a la secció anterior. Aquesta descriptiva vindria a complementar la informació que visualitza el dotplot anterior. Descriptive Statistics: velocidad by Sist. Oper. Variable Sist. Op N Mean Median TrMean StDev velocida NT 98 455,3 441,5 451,6 175,3 UnixWare 72 196,57 180,00 191,48 77,56 W2000 1 1000,0 1000,0 1000,0 * Variable Sist. Op SE Mean Minimum Maximum Q1 Q3 velocida NT 17,7 133,0 866,0 333,0 550,0 UnixWare 9,14 75,00 450,00 133,00 233,00 W2000 * 1000,0 1000,0 * * A part de l’anàlisi intern, grup a grup, observant globalment les característiques de cada grup, podrem estudiar si hi ha semblances fortes entre grups o no. Sobre la intensitat d’aquestes semblances existeixen també indicadors numèrics, però la seva interpretació està lligada a raonaments no trivials i a la formalització d’alguns models que són objecte de cursos posteriors. Per això, en aquest curs introductori ens quedarem a nivell d’analitzar la descriptiva múltiple. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 3
  • 26. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant A. Relacions entre una variable numèrica i una categòrica: les variables Resultat i SO, WinNoWin i Any Treballarem les dades del fitxer CINT2000-2005.MTW de la sessió d’univaraint amb les variables depurades (Resultat, memoria, WinNoWin) Comencem analitzant la variable “Resultat” respecte les variables que ens indiquen el SO amb el que es va realitzar la prova (les variables SO i WinNoWin) Feu la descriptiva de Resultat per grups de la variable SO i copieu-la (atenció a les files: pot no coincidir amb el ordre de sortida de Minitab): SO N Mitjana Desv. W2000 W2003 XP Linux Unix SOLARIS HP-UX Otros Torneu a fer la descriptiva de Resultat per grups de la variable WinNoWin: WinNoWin N Mitjana Des.Típ Win NoWin Compareu les dos taules i observeu les diferències entre les interpretacions que s’obtenen. Analitzeu ara la variable “Resultat” respecte “Any”. Interpreteu-ne els resultats i comenteu si observeu diferències entre els grups, quines, i quins elements estadístics ho posen de manifest. Any N Mitjana Des.Típ 00 01 02 03 04 05 Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 4
  • 27. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant RELACIÓ ENTRE DUES VARIABLES NUMÈRIQUES Aquest apartat tracta de l’estudi de les relacions entre dues variables numèriques mitjançant eines gràfiques i numèriques. Representació gràfica de parells de variables numèriques. La manera natural d’iniciar un estudi consisteix en representar gràficament (diagrama bivariant , scatterplot en terminologia del Minitab ) les parelles de punts que constitueixen el núvol de punts de les observacions de les dues variables: ( xi , yi ) i = 1… n La comanda Minitab per construir un diagrama bivariant és PLOT (en entorn Windows cal seleccionar les icones Graph Plot). X correspon a la variable en abcisses i Y, la variable en ordenada, que sol ser la variable resposta si és que el paper de les dues variables està diferenciat en l’estudi. La gràfica, que és un diagrama cartesià ordinari, conté tota la informació sobre la relació entre dues variables. Bàsicament analitzarem tres aspectes: • Forma: el plot permet visualitzar la forma general de la distribució conjunta de les dues variables i, per tant, les grans tendències de la seva relació. Així, podrem veure si el patró general que regeix aquest parell de variables s’acosta a una línia recta, o a una paràbola, o es sinusoïdal... • Direcció: Veurem fàcilment també si la relació és directa (Y creix quan X creix) o inversa (Y creix quan X decreix). • Intensitat: Els punts poden estar molt agrupats entorn aquesta tendència general (poca dispersió), la qual cosa indica que la relació és intensa o, per contra, existeix una dispersió gran al voltant d’aquesta tendència, la qual cosa indica que la relació és feble i que l’efecte d’X sobre Y està emmascarat, o bé per altres variables que no hem considerat, o bé per una fluctuació aleatòria molt important. Les figures al peu mostren exemples del que es consideraria una relació lineal creixent i molt intensa, un relació no lineal, també creixent i menys intensa, i una relació no lineal, decreixent i no molt intensa respectivament. Fixem-nos que aquesta anàlisi és paral·lela al que ja s’havia fet en l’apartat d’univariant. La filosofia segueix essent la mateixa: Identificar un patró general (en aquest cas bivariant) que marca la tendència central (en aquest cas de la relació entre les variables) i caracteritzar com són les variacions respecte d’aquest patró... 50 50 50 40 40 40 30 30 result PIII Result Result 20 20 30 10 10 20 0 0 800 1300 1800 2300 400 500 600 700 800 900 1000 1/12/95 1/11/96 1/10/97 1/9/98 1/8/99 1/7/00 dies fins ara velocitat PIII Published Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 5
  • 28. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant L’observació detallada del diagrama bivariant ha de permetre certes consideracions, com: • és legítim modelitzar la relació entre les variables mitjançant una recta? o s’ha de pensar en modelitzar mitjançant una corba més complexa? • podrà servir el model escollit per predir o per estimar? • existeixen outliers, es a dir, punts que s’aparten molt del núvol? El plot múltiple Fent una petita extensió al camp del tri-variant, podem estudiar l’efecte d’una tercera variable categòrica sobre aquesta relació a través del plot múltiple, que sobre un plot, marca amb diferents símbols o colors la modalitat corresponent a cada punt. Sobre el formulari del plot, cal seleccionar Display: Bar For Each: Group Grouping Variable: la variable categòrica. A través del botó Edit Attributes, podem indicar amb quins colors volem distingir les modalitats i fer més visual el gràfic. Es poden presentar situacions en que la relació entre X i Y varii segons la modalitat de la categòrica i s’aconselli un estudi separat... Eines numèriques d’anàlisi de parells de variables numèriques Ja hem dit que interessa quantificar aquelles coses que s’observen visualment en un gràfic. En l’àmbit de les variables numèriques, la cosa es complica i els indicadors numèrics que podem donar estan subjectes a formes concretes de la relació. No existeixen indicadors globals com hem vist fins ara, sino indicadors lligats a certes formes. Quant a les formes, el més habitual és representar-les com a funcions matemàtiques d’Y respecte d’X, que seran funcions lineals si la relació té forma de recta, paràboles, si té forma quadràtica, etc. El càlcul de l’equació matemàtica que millor s’ajusta a un núvol de punts constitueix el camp de la modelització estadística i és complexe, quedant fora de l’àmbit d’aquest assignatura. Convé dir, no obstant, que els paràmetres de forma i direcció de la relació que hem observat en el plot queden capturats en l’equació del model. Queda per tant, quantificar el tercer dels paràmetres. La intensitat de la relació. Necessitem un coeficient que ens digui si les observacions estan a prop o lluny de la seva tendència central. Però si la tendència central s’expressa com una funció matemàtica, està clar que avaluar la dispersió, passarà per veure què tant a prop d’aquesta funció (del seu lloc geomètric, de fet) estan les observacions. És per això que no tenim un coeficient global per qualsevol núvol, sino que segons la forma de la relació els definirem diferentment. En aquest curs, estudiarem només com quantificar la intensitat d’una relació lineal, és a dir, d’un núvol de punts que té forma de línia recta. I que quedi clar que si la forma del núvol de punts és una altra, aquest coeficient no mesura la intensitat de la relació. Definim, doncs, el coeficient de correlació lineal rX,Y: (donarà un valor comprès entre –1 i +1) ∑ (x − x )( y i − y ) ∑ (x − x )( y i − y ) i (n − 1) = i i S X ,Y rX ,Y = i = ∑ (x − x) ∑ (y − y) S X SY S X SY 2 2 i i i i D’aquest coeficient n’interpretem dues coses: Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 6
  • 29. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant • el signe del coeficient de correlació lineal està directament lligat a la direcció de la relació: relació directa (coeficient positiu) o inversa (coeficient negatiu) • la magnitud ( o valor absolut ) mesura directament la intensitat de la relació: més gran és la magnitud, més intensa és la relació, més a prop estan els punts de la recta-tendència general, i per tant, més allargada és la forma del núvol. Si aquest valor és exactament 1, els punts són alineats sobre una recta perfecta: es verifica Y= a+bX (i X=c+dY), amb pendent positiu o negatiu segons el signe d’r. En la pràctica, no es troben coeficients que valguin exactament 1 en valor absolut i s’ha de valorar si els valors són grans o petits. L’obtenció del coeficient de correlació s’aconsegueix amb la comanda CORRELATION. En entorn Windows cal seleccionar les icones Statistics BasicStatistics Correlation. Dependència/independència entre variables numèriques En absència de relació de tipus lineal, el coeficient de correlació val 0 (o s’hi acosta). Alerta, però, això només significa que les dues variables no estan lligades per una línia recta, i no pas que aquestes variables siguin independents. Podrien mantenir una relació quadràtica o d’un altre tipus i molt intensa, i tenir un coeficient de correlació lineal quasi nul. B. Relacions entre dues Variables Numèriques: les variables Resultat i MHz Estudiem ara “Resultat” i “MHz” a través de l’”Scatterplot”. Analitzem el gràfic, i valoreu direcció, forma i intensitat de la relació. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 7
  • 30. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant Feu el gràfic anterior separant els casos segons la variable WinNoWin i valoreu direcció, forma i intensitat de la relació. Aprofundim en la relació de Resultat i MHz mitjançant indicadors numèrics. - calculem el “coeficient de correlació” amb tots els casos: ........... amb els casos Win: ........... amb els casos NoWin: ……... - valoreu-ne el signe (+ o -): - valoreu-ne la magnitud (propera a 0, a 1 o a -1): En la relació de Resultat i MHz quina de les dues variables té sentit que actuï com a resposta? Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 8
  • 31. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant RELACIÓ ENTRE DUES VARIABLES CATEGÒRIQUES Igual que en els altres casos, presentarem aquí eines de tipus gràfic i de tipus numèric. Eines numèriques per analitzar la relació entre variables categòriques. Les taules de contingència s’usen per fer una representació numèrica resumida de com es relacionen dues variables categòriques. Suposem que estudiem n elements u observacions i que per cada observació es coneix el valor de cada variable categòrica de forma que podem conèixer el número nij de elements amb el valor i-èssim de la primera variable categòrica X i amb el valor j-èssim de la segona variable categòrica Y. Amb aquesta informació podem construir diferents tipus de taules de contingència (que tenen l’estructura d’una matriu plana de doble entrada) tal i com veurem, associant els valors de la variable X a les files de la taula i els de la variable Y a les columnes. Si existeix un paper diferenciat de les dues variables (que una actuï com a variable resposta – la que volem explicar en funció dels valors de l’altra - i l’altra com a explicativa) és freqüent disposar la variable explicativa en files i la variable resposta en columnes. Per exemple, suposem que disposem de 171 ordinadors dels que coneixem els valors de les variables categòriques Processador i Sistema Operatiu. Per estudiar la relació entre aquestes variables podríem formar la següent taula: Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro Total NT 6 7 44 40 1 98 UnixWare 4 36 17 0 15 72 W2000 0 0 0 1 0 1 Total 10 43 61 41 16 171 El que ens està dient la taula és que, dels 171 individus (en el sentit estadístic de la paraula) estudiats, n’hi ha 44 que són PentiumII amb WindowsNT i, per exemple, 4 que són Celeron amb sistema operatiu Unix. La comanda Minitab TABLE ofereix les eines adequades per l’estudi de les taules de contingència. Les icones a seleccionar són Stat Tables CrossTabulation. Veurem que hi ha diferents opcions, que permeten representar diferents taules. Vejam quines. Tipus de taules de contingència. • Taules d’efectius totals: Presenten el nombre total d’observacions que hi ha en cada casella. (subcomanda COUNT de la comanda TABLE). o nij - Contingent d'observacions en la fila i i la columna j, és a dir, nombre d’individus que són de la modalitat i per la variable X i de la modalitat j per la variable Y. És el contingut de la casella ij de la taula. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 9
  • 32. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant o ni⋅ - Número total d'observacions amb el valor i-èssim de la variable categòrica associada a files. Es calcula com la suma de totes les caselles de la fila ni⋅ = Σj nij i es representa en el marge dret de la taula. o n.j - Número total d'observacions amb el valor j-èssim de la variable categòrica associada a columnes. Es calcula com la suma de totes les caselles de la columna n⋅ j = Σi nij i es representa en el marge inferior de la taula. En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els marges inferiors i és igual al nombre total d’observacions estudiades. Un estudi mitjançant taules de contingència s’inicia per Taules d’efectius totals ( o de freqüències absolutes ). Ha de ressaltar-se, quasi exclusivament, les cel·les amb majors i menors nombres d’observacions. • Taules de freqüències absolutes, o de proporcions absolutes: Presenten la proporció respecte del total d’observacions que hi ha en cada casella. (Subcomanda TOTPERC de la comanda TABLE). o pij – Proporció d'observacions en la fila i i la columna j respecte del total d'observacions. pij= nij / n. És el contingut de cada casella. o pi⋅ - Proporció, respecte del total d'observacions, d’observacions amb el valor i- èssim de la variable categòrica associada a files. pi.= ni. / n. . Es representa en el marge dret de la taula i s’anomena també distribució marginal de X. o També, p⋅ j - Proporció, respecte del total d'observacions, d'observacions amb el valor j-èssim de la variable categòrica associada a columnes. p.j= n.j / n. Es representa en el marge inferior de la taula i s’anomena també distribució marginal de Y. En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els marges inferiors i és igual la unitat, que representa el 100% de les observacions. • Taules de contingència condicionades per files: Per cada fila es representa una distribució diferent, que indica, d’entre el total d’observacions que són de modalitat i, quin percentatge n’hi ha de cada modalitat d’Y. De cadascuna d’aquestes distribucions se’n diu perfil fila. Així, la cel·la (i,j) conté l'element nij / ni⋅ S'afegeix una última fila, que representa la fila marginal. Els elements d'aquesta última fila contenen els n⋅ j /n . En aquestes taules la columna del marge dret, que és suma de cada fila és sempre igual a 1, expressant que els percentatges s’han calculat independentment per cada fila i no respecte del total d’observacions, amb la qual cosa la suma dels elements d'una fila ha de ser 1. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 10
  • 33. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant Podrem analitzar sobre aquestes taules l’efecte de la variable explicativa sobre la variable de resposta. Si no hi ha efecte, la separació de les observacions per grups d’X no ha de modificar la distribució d’Y. Així, en cas d’independència entre les dues variables, totes les files serien idèntiques (en un cas perfecte) i iguals a la distribució marginal d’Y. Quan més lluny estem d’aquesta igualtat, més important és l’efecte de la variable X sobre Y (conèixer el valor d’X aporta informació sobre com serà el percentatge de certa modalitat d’Y). Ara bé, sobre dades reals, quasi mai trobarem una situació d’independència pura, sino que haurem de fixar un criteri previ d’equivalència, que ens permeti decidir fins a quin nivell considerarem petites diferències com a negligibles. Per exemple, es poden considerar equivalents tots els percentatges que difereixin en termes relatius menys d’un 5%. La subcomanda ROWPERCENT de la comanda TABLE s’usa per obtenir taules de contingència condicionades per files i les utilitzarem per apuntar si l’efecte d’X sobre Y és fort o feble. Si el resultat de l’anàlisi és que X afecta a Y, hem de ser capaços de descriure com és aquest efecte. Seguidament es presenta la taula de perfils fila que produeix Minitab per les dues variables que ja havíem presentat. Cada fila representa com es distribueix el tipus de processador per un sistema operatiu concret. Per exemple es veu que un 44,9% dels ordinadors que funcionen sota WindowsNT tenen un processador PentiumII, o que d’entre tots els ordinadors que funcionen en Unix, un 50% son Pentiums. Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro All NT 6,12 7,14 44,90 40,82 1,02 100,00 UnixWare 5,56 50,00 23,61 -- 20,83 100,00 W2000 -- -- -- 100,00 -- 100,00 All 5,85 25,15 35,67 23,98 9,36 100,00 Cell Contents -- % of Row • Taules de contingència condicionades per columnes: Per cada columna es representa una distribució diferent, que indica, d’entre el total d’observacions que són de modalitat j, quin percentatge n’hi ha de cada modalitat d’X. Són els perfils columna. Així, la cel·la (i,j) conté l'element nij / n⋅j S'afegeix una última columna, que representa la columna marginal. Els elements d'aquesta última fila contenen els ni. /n . En aquestes taules la fila del marge inferior, que és suma de cada columna és sempre igual a 1, expressant que els percentatges s’han calculat independentment per cada columna i no respecte del total d’observacions, amb la qual cosa la suma dels elements d'una columna ha de ser 1. L’obtenció de la taula de contingència de freqüències per columnes és mitjançant la subcomanda COLPERCENT. L’estudi de taules condicionades és simètric per files i columnes. De fet, la informació que ens proporcioni una ha de venir reflectida en Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 11
  • 34. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant l'altre, per la qual cosa podria considerar-se que s'incorre en redundància al obtenir les dues. Malgrat això sempre resulta profitós obtenir-les. Veieu aquí la taula de perfils columna de les variables que il.lustren aquest apartat. S’observa que de tots els ordinadors amb processador PentiumII, un 27,87% són màquines que funcionen en Unix, per exemple. Hores d’ara ja haurà quedat molt clar al lector, que Minitab no contempla, en aquestes taules de perfils, les caselles buides. Rows: Sist. Op Columns: procesador Celeron Pentium PII PIII PPro All NT 60,00 16,28 72,13 97,56 6,25 57,31 UnixWare 40,00 83,72 27,87 -- 93,75 42,11 W2000 -- -- -- 2,44 -- 0,58 All 100,00 100,00 100,00 100,00 100,00 100,00 Cell Contents -- % of Col • Taules de contingències de freqüències esperades. La cel·la (i,j) conté l'element n'ij =n ×p⋅ j ×pi⋅ Els elements de la fila i columna marginal són els mateixos que els de la taula de contingències totals absoluta. En aquest cas, es representa el nombre d’observacions que hi hauria d’haver a cada casella en cas que les dues variables fossin independents. I la forma de calcular l’efectiu esperat es basa en la idea que, si hi ha independència, i el valor d’X no modifica la distribució d’Y, les freqüències condicionades a files coincideixen amb les marginals d’Y. Desenvolupant aquesta igualtat és fàcil aïllar quin hauria de ser el contingut d’una casella i s’obté la relació anterior. Aquesta taula és útil per estudiar directament la independència. Si efectivament hi ha independència, aquesta taula s’hauria d’assemblar molt i molt a la taula d’efectius totals. Minitab ens permet de construir la taula de contingències amb freqüències esperades per ser comparada directament amb la taula de contingències de totals absoluts superposant a cada cel·la el nombre d’observacions existent realment a cada casella i el nombre d’observacions que hauria d’haver-hi en cas d’independència (expected frequency o EXP FREQ). Les cel·les que presenten una major discrepància entre els dos valors són les que més contribueixen a la no independència de les variables i cal tenir-les present. Si a totes les cel·les, el valor observat i el valor esperat d’observacions coincideix raonablement aleshores es verifica, la independència (no relació) entre les dues variables estudiades. De fet, Minitab calcula encara un coeficient, anomenat la distància de Chi-2 (Chi- square, en Minitab) que hem d’interpretar com una distància entre les dues taules. Quan més a prop de 0 estigui aquest coeficient, més s’assemblen les taules, i per tant, més a prop estem de la independència. En cursos posteriors s’explicarà amb detall com es calcula aquest coeficient. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 12
  • 35. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant Eines gràfiques per analitzar la relació entre variables categòriques. Es tracta d’extensions del gràfic univariant diagrama de barres, ja presentat. Tots es construeixen a partir d’opcions del Graph Chart i s’interpreten d’acord amb el tipus de taula que representen. Bàsicament ens permetran visualitzar si existeix o no la independència entre les variables i en cas que no, serà fàcil interpretar el sentit que té la relació entre X i Y. Especialment en el cas que hi hagi alguna variable ordinal haurem de cercar si les seves modalitats marquen alguna tendència en l’altra variable. Vejam les eines gràfiques de que disposem: • Diagrama de barres apilades: Consisteix a construir un diagrama de barres per X i distingir, dins de cada barra amb diferents colors o trames, quin efectiu correspon a cada modalitat d’Y. Dins el Chart cal posar en X una de les variables (normalment d’explicativa). Seleccionar Display: Bar For Each: Group Grouping Variable: l’altre variable). Prémer el botó Options i activar el flag Stack, tot indicant que la variable que s’usa per apilar les barres és la mateixa que la que defineix els grups. Aquest diagrama permet representar la taula d’efectius absoluts. • Diagrama de barres adosades: És una evolució de l’anterior, consistent a deixar caure, un al costat de l’altre, cada tram d’una barra d’X. Així, l’efecte final és que, sobre cada modalitat d’X es representa un grupet de barres adosades, que representen les modalitats d’Y. Dins d’Options, desactivar el flag de Stack, activar el de Cluster i posar-hi la variable de grup. • Diagrama de barres segmentades: Aquest representa la taula de freqüències condicionades a files o columnes, segons quina variable posem en l’eix d’abcisses. Per fer-lo en Minitab hem de començar com si realitzéssim un diagrama de barres apilades. A més, però, en la finestra d’options cal activar també el flag de Total Y to 100% within each X category. Dependència/independència entre variables categòriques Ja hem dit que en els valors de la taula creuada (especialment en els de les taules condicionades per files o per columnes) es veu, en cas d’independència entre les dues variables, totes les files amb valors idèntiques (en un cas perfecte) i iguals a la distribució marginal. Si no són les taules condicionades es veu proporcionalitat. Això mateix s’observa en les distribucions de les barres en els gràfics. En cas de dependència entre les dues variables, quan més lluny estem de la igualtat o la proporcionalitat en la taula o gràficament, més important és l’efecte d’una variable sobre l’altra mostrant la seva dependència. Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 13
  • 36. Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant C. Relacions entre dues variables categòriques: les variables SO, WinNoWin i Any Analitzem gràficament i amb una taula creuada la relació entre la parella de variables Any i WinNoWin i observeu-ne la relació de dependència/independència de les variables NoWin Win ALL 00 01 02 03 04 05 ALL I analitzem la relació entre la parella de variables Any i SO observant-ne també la relació de dependència/independència de les variables HP-UX Linux Otros SOLARIS Unix W2000 W2003 XP ALL 00 01 02 03 04 05 ALL Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 14
  • 37. Laboratoris d’Estadística FIB P09 Qüestionari:bivariant NOMS: Qüestionari de Descriptiva bivariant 1.- A partir de les taules de Resultat amb SO i WinNoWin comenteu si tenen millors resultats els casos Win o els NoWin 2.- A partir de la taula de Resultat i Any comenteu els resultats al llarg dels anys 3.- Què indica el signe i la magnitud del “coeficient de correlació”? Departament d’Estadística i Investigació Operativa UPC pàg. 1
  • 38. Laboratoris d’Estadística FIB P09 Qüestionari:bivariant 4.- Comenteu les diferències gràfiques i del coeficient de correlació de la relació Resultat-MHz en els casos Win i en els NoWin 5.- Com es pot veure intuïtivament, en un gràfic i en la taula creuada, la dependència o independència de dues variables categòriques? (comenteu-ho en general o en els casos estudiats a l’exercici C) Departament d’Estadística i Investigació Operativa UPC pàg. 2
  • 39. Laboratoris d’Estadística FIB T09 Guió S5: problemes deVA Sessió 5. Variable Aleatòria: VAD i VAC Dependència i independència amb VA Y=y1 Y=y2 ... X=x1 P(X=x1 ∩ Y=y1) P(X=x1 ∩ Y=y2) P(X=x1) X=x2 P(X=x2 ∩ Y=y1) P(X=x2 ∩ Y=y2 P(X=x2) ... P(Y=y1) P(Y=y2) Si ∀i ∀j P(X = xi ∩ Y = yj ) = P(X = xi) P(Y = yj) llavors X i Y són independents Problema A. El paquet de tres bits (continuació) Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de comunicació (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències són equiprobables. Es defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3 bits i la variable Y és el número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y ∈ {0,1,2}. A partir de la taula de la funció de probabilitat conjunta, indiqueu: - ¿Són X i Y independents? Raoneu la resposta. - Calculeu les esperances condicionales de X en funció dels valors de Y. Compareu amb l’esperança de X - Calculeu Cov(X,Y) (es pot usar l’expressió Cov(X,Y) = E(X*Y)-E(X)·E(Y)) i el coeficient de correlació lineal ρX,Y. Indicació per a la solució: X=0 X=1 X=2 X=3 Y=0 ... ... ... ... 1.00 Y=1 ... ... ... ... 1.00 Y=2 ... ... ... ... 1.00 E(X|Y=0) = ... E(X|Y=1) = ... E(X|Y=2) = ... Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 1
  • 40. Laboratoris d’Estadística FIB T09 Guió S5: problemes deVA Funcions de distribució directes i inverses en models de probabilitat Els següents problemes corresponen a situacions on s’hi escauen determinats models de probabilitat. Per fer càlculs amb probabilitats acumulades tenim dues opcions: - a les taules estadístiques podem trobar valors de les seves funcions de distribució. - en Minitab, per a tota una sèrie de models, es pot calcular: o la funció de distribució (probabilitat de valors iguals o inferiors al donat): donat x calcular prob tq, prob = FX ( x ) = P( X ≤ x ) amb la comanda CDF (cumulated distribution function), al menú Calc Probability Distributions ... o la funció de distribució inversa donat prob calcular x tq, x = FX−1 ( prob) ( P ( X ≤ x ) = prob ) amb la comanda INVCDF (invers distribution function), al menú Calc Probability Distributions ... p p Problema 1: Problema 2: donat x, donat p, obtenir p obtenir x x x Calc -> Probability Distributions -> ... Calc -> Probability Distributions -> ... • Cumulative probability • Inverse cumulative probability Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 2
  • 41. Laboratoris d’Estadística FIB T09 Guió S5: problemes deVA Problema B. Caigudes d’un servidor (primera part) Les caigudes d’un servidor en un centre de càlcul segueixen una distribució de Poisson amb paràmetre λ=2 setmana-1 . Calculeu la probabilitat de: 1. Que no es produeixi cap avaria en una setmana. 2. Menys de 5 avaries en una setmana. 3. Menys de 6 avaries en un mes (4 setmanes) Si considerem 10 centres de càlcul amb les característiques anteriors, quina és la probabilitat de que hi hagi 8 centres amb menys de 5 avaries en una setmana? Indicació per a la solució: Definir les següents variables X=”nombre de caigudes (avaries) en una setmana” X ~ ... Y=”nombre d’avaries en un mes” = X+X+X+X Y ~ ... Q=”nombre de centres amb menys de 5 avaries en una setmana” Q ~ ... R=” nombre de centres amb 5 o més avaries en una setmana” R ~ ... Problema C. La distribució de la velocitat de transferir fitxers (primera part) Baixar un mapa digitalitzat de Catalunya amb la previsió meteorològica d’un determinat servidor en Internet al disc dur del vostre ordinador tarda cert temps que podem considerar com una variable aleatòria X amb distribució exponencial amb una esperança de 10 segons. ¿Quina és la probabilitat de que una sola transferència del mapa trigui més de 12 segons? Indicació per a la solució: X=“temps baixar mapa” X ~ Exp(λ= ... ) E(X) = ... P ( X <= k ) = FX (k ) = 1 − e − λ ·k Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 3
  • 42. Laboratoris d’Estadística FIB T09 Guió S5: problemes deVA Problema D. La distribució del resultat d’un “benchmark” Suposem que el resultat obtingut per un ordinador de determinada marca i determinada configuració en una prova “benchmark” segueix una distribució normal amb mitjana 30 i desviació típica 7. 1. ¿Quina és la probabilitat d’obtenir un resultat superior a 30? 2. ¿Quina és la probabilitat d’obtenir un resultat inferior a 23? 3. ¿Quina és la probabilitat d’obtenir un resultat entre 16 i 44? 4. ¿Quina és la probabilitat d’obtenir un resultat entre 20 i 35? Calcular el resultat amb 4 decimals usant les taules de la distribució normal, i també amb més exactitut (6 decimals) amb Minitab. Indicació per a la solució: X=“resultat en prova benchmark” X ~ N ( µ = ... , σ = ... ) E(X) = ... V(X) = ... Departament d’Estadística i Investigació Operativa UPC Guió S5 pàg 4