Laboratoris 1

Laboratoris Estadística FIB P09 Guió S1 Introducció

Sessió 1. Introducció al Paquet Estadístic MINITAB

Les pràctiques de laboratori s’efectuen en MINITAB per Windows. Es veuran els mòduls més
directament relacionats amb l’assignatura: lectura/escriptura d’arxius, DESCRIBE, BOXPLOT,
HISTOGRAM (estadística descriptiva), taules encreuades (CROSS TABLES), les macros,
generació de mostres, etc.; tanmateix com un resum d’utilitats d’operació que permeten de
realitzar anàlisis coherents i complertes dels conjunts de dades que es proposen.
Un directori del servidor conté tots els arxius de dades (ASCII i .mtw) que s’usaran al llarg del
curs, una descripció exhaustiva dels quals es pot trobar en el propi guió de la pràctica.
Els documents de les sessions de laboratori presenten la descripció i exercicis de cada pràctica,
la lectura de la qual es considera imprescindible abans de l’inici de la sessió de laboratori
corresponent: el contingut de l’enunciat és en molts casos necesari per a la complimentació dels
qüestionaris proposats, i com a pauta general no es tornaran a explicar a les sessions de
laboratori.
La resolució dels qüestionaris proposats a les sessions de pràctiques es realitzarà amb alguns dels
arxius indicats en cada cas.

Recomanacions pràctiques:
• Un cop dintre del MINITAB, per obrir fitxers de més de 10000 cel·les en versions
anteriors a la 12 de MINITAB cal fer:
EDIT --> Save Preferences --> General --> i aquí canviar el Worksheet Size, per
exemple posant-hi 100000.
• Cal observar si surt el prompt MTB>, per a poder usar comandes MINITAB sense haver
d´utilitzar el menú de WINDOWS. Si no surt, cal fer (amb la finestra Session activa):
Editor --> Enable Commands

• Per copiar arxius de dades de l’assignatura ESTADÍSTICA s’ha d´accedir al servidor
dins del domini SMBFIBP on es troba una carpeta dita ASSIG que conté el directoris
amb els fitxers de dades de les assignatures i entre elles l’Estadística .
• Per qüestions de concurrència es pot produir un error de lectura si tothom vol obrir alhora
el mateix fitxer. En aquests casos resulta recomanable que cada grup de pràctiques es
copïi el fitxer a analitzar sobre el seu compte i treballi en local.

Departament d’Estadística i Investigació Operativa UPC Guió S1 pàg 1


El paquet estadístic MINITAB per Windows té un funcionament interactiu interpretat. Realitza
operacions sobre un full de dades (worksheet) que es pot considerar com una matriu de dades on
les columnes s’identifiquen amb les variables que tenen com a nom per defecte c1, c2, c3, etc, i
les files representen les observacions de les variables. Les variables poden tenir un nombre
d’observacions diferent segons les necessitats o transformacions realitzades per l’usuari. Els fulls
de dades es representen a nivell de sistema operatiu com a arxius amb una extensió per defecte
.mtw.

A més de columnes, existeixen d’altres estructures de dades en MINITAB, però en aquest punt
només resulta d’interès comentar la possibilitat d’usar constants, que per defecte s’anomenen k1,
k2, k3, etc. Tant les variables, com les constants poden tenir noms particularitzats a l’aplicació
de l’usuari i això s’assoleix amb la comanda NAME:

MTB> NAME K1 ‘DADES’
Alerta! Qualsevol referència posterior, en comandes, a la variable dades
ha de fer-se amb la cadena de caràcters entre cometes.

El MINITAB en entorn WINDOWS s’articula en dues pantalles bàsiques: una amb el full de
dades (Data Window) i una altra amb el diàleg amb l’usuari i els resultats de l’execució dels
procediment requerits (Session Window). Per defecte, existeixen dues finestres auxiliars visibles
a petició de l’usuari: History Window i Info Window, respectivament amb la llista de les
darreres comandes sol·licitades per l’usuari i la síntesi de continguts del full de dades.

L’estructura de les comandes és:

MTB > COMANDA paràmetres1 ; return
SUBC> Subcomanda paràmetres2 ; return
SUBC> Subcomanda paràmetres3 . return

Les comandes poden tenir subcomandes i per entrar en aquest nivell cal introduir un punt i coma
";" abans de prémer return, per sortir del nivell de subcomandes i executar cal introduir un
punt "." abans del return .

El HELP és molt satisfactori i en les sessions de pràctiques és recomanable el seu us, de manera
que l’alumne assoleixi en finalitzar el curs prou agilitat amb el sistema com per poder consultar i
entendre l’ús de comandes que desconegui sintàcticament. No cal oblidar que l’entorn
MINITAB té un gran nombre de comandes i possibilitats i la gran majoria d’usuari només
coneixen una fracció molt petita de les seves possibilitats. En entorn Windows, el HELP és
sensitiu al context i es pot invocar des de qualsevol punt.



En versions no WINDOWS (o des de llenguatge de comandes), la comanda STOP permet
d’aturar una sessió MINITAB i retornar l’usuari a nivell de sistema operatiu i la comanda
OUTFILE possibilita la creació d’un arxiu de seguiment de la sessió, és a dir un arxiu on es
guarden les comandes sol·licitades per l’usuari i a la vegada els resultats d’executar-les.

En entorn WINDOWS, sortir del sistema MINITAB s’assoleix amb la selecció d’icones File
Exit. Pel recull de la sessió de treball en un arxiu de text s’activa la finestra File Save Session
Window As o bé es seleccionen les icones File Save Project as (salva fulls i icones de resultats
oberts, text i gràfics) o File SaveWorksheet As només per salvar el full de dades actual.

Una manera ràpida de consultar el nombre de columnes/variables existents en un full de dades és
la comanda INFO, que a la vegada informa de l’existència de noms lligats per l’usuari a les
variables i del nombre d’observacions de cadascuna. En entorn Windows cal seleccionar les
icones Window Info.

Una primera tasca fonamental consisteix en comunicar-se amb l’entorn de l’ordinador, és a dir la
lectura/escriptura de dades, bé en format ASCII o en format intern MINITAB. La
lectura/escriptura de dades en format ASCII es realitza amb les comandes READ i WRITE
respectivament. La lectura/escriptura d’arxius de dades en format intern mitjançant les comandes
RETRIEVE i SAVE, respectivament. La lectura i escriptura de fitxers s’aconsella s’efectüi a
partir de les icones de l’entorn Windows:

• Arxius en format intern Minitab: Icó File OpenWorksheet (lectura d’un arxiu existent), File
NewWorksheet (creació d’un nou full de dades), Save (As) Worksheet (escriptura).
• Arxius en format ASCII: File OtherFiles ImportASCIIData (lectura) i File OtherFiles
ExportASCIIData (escriptura).
• Per recuperar un projecte anterior (fulls de càlculs i resultats): Icó File OpenProject.

En la gran majoria d’estudis d’estadística descriptiva, és necessari de transformar les dades
originals: per suprimir alguns valors no adequats, per crear variables derivades de les originals
que presenten millors propietats de cara al tipus d’anàlisi posterior, etc.

Les comandes MINITAB de transformació i creació de noves variables són bàsicament tres:

1. LET. Crea una nova variable com a funció matemàtica de variables prèviament existents, per
ex: LET C100 = 10*C1 + C2. En entorn Windows cal seleccionar les opcions Calculate
Calculator.

2. COPY. Crea una nova variable que conté un subconjunt (o tots) de valors de la variable
original, seleccionats per un criteri molt flexible funció del número d’observació o funció dels
valors d’una tercera variable que juga el paper de selector. Les diferències en les dues



maneres de selecció es comentaran àmpliament a classe de pràctiques, aquí només es dóna la
sintaxi de les dues funcionalitats:

MTB > COPY C1 C2; MTB > COPY C1 C2;
SUBC> USE C1 4:7. SUBC> USE 4:7.

En entorn Windows cal seleccionar les icones Manipulate CopyColumns.

3. CODE. Pot crear una nova variable amb certs valors originals transformats segons uns criteris
de rang de valors. És fonamental per la codificació dels missings com ‘*’:

MTB> CODE (0) 99 (3:5) 3 (9) ‘*’ C1 C2 que efectua

C1 C2
0 99
3a5 3
9 Missing
Resta No canvien

En entorn Windows cal seleccionar les icones Manipulate Code Numeric to Numeric, o Code
Numeric to Text, etc, segons convingui reagrupar intervals de valors numerics en codis
numèrics o en símbols... Quan es tracta de codificar intervals d’una variable numèrica, el propi
Minitab decidirà per quin dels dos extrems tancarà l’interval i l’altre quedarà obert.


Laboratoris d’Estadística FIB P09 Guió S2: univariant

Sessió 2. Estadística Descriptiva Univariant

L’estadística descriptiva univariant és la primera de les etapes a realitzar en qualsevol estudi
d’anàlisi de dades. Té per objectiu facilitar una prospecció intuïtiva de la informació continguda a
l’arxiu de dades, així com orientar els procediments posteriors.

Cal tenir en compte que la majoria de vegades, les dades reals (no simulades) vindran verges, sense
cap manipulació ni revisió prèvia. És tasca fonamental realitzar-ne un correcte depurat abans
d’efectuar l’anàlisi, tot corregint-ne possibles errors o defectes.

De fet, la qualitat de les conclusions de l’anàlisi, és directament proporcional a la qualitat de les
dades. Si el procés de depurat és deficient, la utilitat dels resultats pot ser dubtosa, i ens arrisquem a
prendre decisions equivocades, de nefastes conseqüències en moltes ocasions.

Dins la fase de depuració de les dades, hi ha uns quants punts a considerar:

• Les dades mancants, en anglès nomenades missings. Es tracta de dades absents, de caselles de
la matriu de dades sense contingut. La causa d’una dada mancant, és variada i pot anar des de la
simple pèrdua, o inaccessibilitat de la dada, fins a l’ocultació voluntària (no resposta en
enquesta, filtració, etc.). En general vindran representades de dues formes: amb una casella
blanca, o utilitzant un codi numèric atípic per la variable (valor fora de rang o molt gran),
desitjablement detectables directament per inspecció visual.
Amb Minitab, aquests forats es poden omplir amb un valor especial: l’asterisc, *; que indica
valor a no tenir en compte en procediments estadístics. De vegades, serà necessari tractar
d’imputar algun valor hipotètic per aquestes dades, per tal d’aprofitar el contingut del registre
corresponent en altres variables. La imputació es fa especialment necessària en anàlisis bi o
multivariants i constitueix un problema molt difícil que no és en absolut objecte d’aquest curs
introductori, però volem deixar constància d’aquesta possibilitat per a que no es creï la falsa idea
que sempre s’han de substituir els codis mancants per un *.

• Les dades anòmales o aberrants, en anglès denominades outliers . Una dada és un outlier si és
una observació anormalment llunyana de la resta i sol ésser d’interès detectar-ne el màxim
possible de les existents en la fase inicial de l’anàlisi exploratori.
Un outlier no ha de correspondre forçosament a un error de codificació/gravació, pot
correspondre a un individu realment diferenciat de la resta, o pot ser precisament la representació
d’un codi de dada mancant, etc.
El tractament dels outliers no és en absolut automàtic. Algunes vegades convé mantenir-los,
d’altres són causa de gran inestabilitat numèrica i és recomanable la seva eliminació, d’altres
caldrà fer-ne un tractament individualitzat, etc.

Departament d’Estadística iIinvestigació Operativa UPC Guió S2 pàg. 1


Però sempre s’han de resseguir, perquè són de gran valor descriptiu i la primera cosa que cal fer
és identificar l’objecte (l’individu) que l’està generant. Sovint, el mateix individu presenta valors
anòmals en diverses variables alhora i podrem entendre millor la seva naturalesa fent-ne una
valoració global.
En qualsevol cas, es tractament d’outliers s’ha de fer sempre amb molta cura. Eliminar-los (o
substituit-los per un ‘*’ indiscriminadament pot ser causa d’errors d’interpretació greu. Vegi’s el
següent fragment a títol il.lustratiu sobre les conseqüències d’un tractament irresponsable de
dades anòmales:
“El 1985 uns científics britànics van advertir d’un forat en la capa d’ozó de l’atmosfera
terrestre sobre el Pol Sud. Això suposava un problema, ja que l’ozó ens protegeix del
càncer que provoquen les radiacions ultravioleta. L’informe britànic va ser mensytingut
d’entrada, perquè es basava en instruments que observaven l’atmosfera des de terra.
Altres observacions més comprensives eren les que provenien d’un satèl.lit que
observaven l’atmosfera des de dalt i no mostraven res inusual. Més tard, l’examen de les
dades del satèl.lit va revelar que el Pol Sud presentava lectures d’ozó tan i tan baixes
que el software del computador que s’utilitzava per analitzar les dades les havia
suprimit automàticament com si fossin outliers deguts a errors de mesura!!! Es van
reanalitzar les lectures antigues des del 1979 i van posar de manifest que hi havia un
enorme i creixent forat en la capa d’ozó que era inexplicable i possiblement perillós.”
[1]
Els computadors que analitzen grans volums de dades sovint es programen per suprimir els
outliers automàticament, com a mesura de protecció contra els errors en les dades. Com
l’exemple del forat de la capa d’ozó il.lustra, suprimir un outlier sense investigar-lo pot ocultar
informació de gran valua.

Així doncs, abans d’enfrontar-nos a la descripció d’un conjunt de dades, procurarem efectuar-ne un
correcte depurat.

Tant per a la identificació de missings i outliers com per a la pròpia anàlisi descriptiva, ens
ajudarem d’un mateix conjunt d’eines numèriques i gràfiques que ens donin una visió perspectiva
(sintètica) i informativa de l’estructura de les dades i el seu comportament.

En aquest capítol estudiarem i tractarem de caracteritzar les variables d’una en una. És l’anàlisi
descriptiva univariant. Ja s’ha vist que les variables es divideixen en numèriques (contínues o
discretes) i categòriques (ordinals o nominals).

El tractament descriptiu d’unes i altres variarà i el presentarem de forma separada. El principal
objectiu d’una descriptiva univariant és sintetitzar el patró general que segueix una variable i
caracteritzar-ne les desviacions respecte d’aquest patró (outliers, fluctuacions en general, etc). Per
fer-ho, combinarem eines de diferent naturalesa:
• Gràfiques: Visualitzen com estan distribuïts els valors d’una variable
• Numèriques: Sintetitzen i quantifiquen el que s’observa en el gràfic.

1
“Hole in ozone over South Pole worries scientists”. James Gleick. The New York Times, July 29, 1986



L’arxiu CINT2000-2005.MTW conté informació sobre uns estudis de benchmark de l’SPEC
(http://www.spec.org/) amb les següents columnes:
• Company, System, Num_proc , Processor, i Proc informen de les diferents característiques
de cadascuna de les màquines on s’executa el programa de càlcul.
• MHz velocitat del processador .
• 1st Cache , 2n Cache descriuen el tamany de cadascuna de les dues memòries Cache.
• Memory ens informa de la quantitat i el tamany de casdascun dels mòduls de la memòria
principal.
• mem és el tamany total de memòria RAM.
• Op.Sys. sistema operatiu sobre el qual s’ha executat el programa
• Compiler compilador amb que s’ha compilat el programa
• Result resultats obtinguts després d’executar el programa amb les opcions òptimes
• Baseline resultats obtinguts després d’executar el programa amb les opcions bàsiques
• Test Date mes i any en que s’ha fet l’execució

A partir d’aquestes columnes afegim unes variables derivades d’algunes de les columnes per
facilitar-ne el tractament:
• Any que és només la informació d’any del Test Date.
• SO és la columna Op.Sys restringint-se al nom genèric (eliminant les variants dins de cada
família)

Classificarem, per tipus, les variables que ens poden ser útils:

Variable Contínua Discreta Ordinal Nominal Variable Contínua Discreta Ordinal Nominal
Company System
Processor Proc
Op.Sys. Compiler
MHz mem
Result Baseline
Any SO



DESCRIPCIÓ NUMÈRICA DE VARIABLES NUMÈRIQUES

Es busca resumir la informació d’una variable mitjançant indicadors numèrics robustos i clàssics de
la distribució de la variable. Els indicadors clàssics són molt sensibles a la presència d’outliers i els
seus valors experimenten fortes modificacions amb o sense aquests valors extrems. Els indicadors
robustos van aparèixer posteriorment amb l’objectiu de tenir un comportament més estable i són
resistents a la presència de valors extrems en les observacions (possibles outliers). Els primers són
més comunment coneguts i resulten d’especial interès en aquest curs per la seva estreta relació amb
certs conceptes bàsics de la Teoria de la Probabilitat com són l’Esperança Matemàtica i la Variància
(que es veurà en el seu dia).
Dels indicadors numèrics, ens interessa especialment:
• La Tendència Central: indica el valor de la variable al voltant del qual s’estan distribuïnt les
observacions. Hi ha diverses formes de mesurar-la
1 n
- Clàssica: la mitjana x = ∑ o en termes MINITAB mean, valor que prendrien les
n i =1 xi
observacions si no hi hagués variabilitat i totes fossin iguals.
- Robusta: mediana (Me o median en terminologia MINITAB), definida com el valor real tal que
el 50% de les observacions prenen un valor inferior a Me i el 50% prenen un valor superior.
• La Dispersió: mesura quant fluctuen les observacions d’una variable al voltant de la tendència
central. Formes de mesurar-la:
1 n
2
- Clàssica: variància sx ∑ ( xi − x)2 o la seva arrel quadrada que s’anomena desviació
=
n − 1 i =1
tipus o estàndard s x , i ve en les mateixes unitats de mesura que la variable. MINITAB no
calcula directament la variància per a una variable, però es pot trobar la desviació tipus amb la
n
2 1
instrucció STDEV. També es pot calcular via la fórmula s = [∑ xi2 − n( x) 2 ]
x n − 1 i =1
- Robusta: distància interquartilar (IQR) definida com la diferència entre els quartils del 75 (Q3)
i 25% (Q1) (en terminologia MINITAB IQR=Q3-Q1) on:
1. Q1 és un valor real tal que el 25% de les observacions prenen un valor inferior a Q1.
2. Q3 és tal que un 25% de les observacions prenen un valor superior a Q3.
• Simetria: Indica si les fluctuacions entorn la tendència central s’equilibren per sobre i per sota
d’aquest valor, o per contra, pesen més d’una banda que d’una altra. Aquesta és una
característica fàcilment valorable sobre una representació gràfica. Existeixen indicadors
específics que ho quantifiquen, que no s’introdueixen en aquest curs. Però ens pot ajudar a
identificar el sentit d’una asimetria la comparació entre mitjana i mediana, o entre Q3-Me i Me-
Q1.

Molts d’aquests valors es troben a la sortida de la instrucció MINITAB DESCRIBE. En entorn
Windows, els anteriors estadístics s’obtenen seleccionant les icones Statistics >Basic Statistics
>Display Descriptive Statistics.



DESCRIPCIÓ GRÀFICA DE VARIABLES NUMÈRIQUES

La visualització de la distribució d‘una variable numèrica es complementa amb la descripció
numèrica de la mateixa. Aquesta visualització es pot obtenir mitjançant diverses eines gràfiques
MINITAB: dot-plot, histograma, box-plot, i d’altres.

min Q1 median Q3 max

*

IQR
Outliers suaus Outliers suaus Outliers extrems

L’esquema vol il·lustrar en què consisteix el box-plot (o diagrama de caixa i bigoti). Visualitza el
que es coneix com a “Resum en cinc números” (Min, Q1, Me, Q3, Max) i permet observar la
ubicació de la tendència central, la dispersió, la simetria de la distribució, l’existència d’outliers,
etc. La caixa central representa el 50% de les observacions, les que són entre el primer quartil i el
tercer quartil; la mediana s’explicita amb una línia. Els bigotis són les línies que es prolonguen als
costats de la caixa central. Per exemple, en la cua superior es construeix un punt imaginari, situat a
1.5 vegades el IQR a partir del tercer quartil. El bigoti arribarà fins a l’observació més gran, però
menor o igual que aquest límit. La zona que queda entre els punts Q3+1,5IQR i Q3+3IQR
s’anomena zona d’outliers suaus i cadascuna de les observacions que es troben en aquesta zona es
representarà com a ‘*’, i anàlogament amb la cua inferior. La zona superior al punt Q3+3IQR
s’anomena zona d’outliers extrems. Si una dada és outlier es posiciona en alguna d’aquestes zones
(outliers suaus o extrems ). El recíproc no és cert. La caracterització anterior és indicativa i és
l´estadístic qui determina si un valor és o no un outlier. Com a norma general no és preocupant
observar fins a un 1% d’outliers extrems i fins a un 5% d’outliers suaus en una distribució
qualsevol.
L’histograma és una representació molt utilitzada que representa barres d’altura proporcional al
nombre d’observacions sobre uns intervals que es defineixen (automàticament per a nosaltres)
sobre l’eix de la variable. Permet observar també la situació de la tendència central, la magnitud de
la dispersió, l’existència de dades extremes, la simetria de la distribució i algunes característiques
significatives com per exemple l’existència de diversos pics (vàries tendències centrals...n-
modalitat), el possible truncament d’una cua de la distribució (escarpat) o defectes en el
procediment de mesura (histograma escalat).

Les comandes bàsiques MINITAB per Estadística Descriptiva Univariant Gràfica són BOXPLOT i
HISTOGRAM. En entorn Windows, l’obtenció de boxplots requereix seleccionar les icones Graph
Boxplot i per tenir histogrames Graph Histo.



A. La variable Result
A1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable Result:
• Grandària (sense missings) .......... • Mínim ............ Màxim ............
• Primer quartil Q1 .................... • Mitjana ....................................
• Mediana .................... • Desviació estàndard ...................
• Tercer quartil Q3 .....................

Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la
taula d’indicadors numèrics podem concloure:
Hi ha dades mancants inicialment? Sí No
S’observen dades extremes o outliers? Sí No
En aquest cas s’observa que hi ha molts casos amb valor 0. No són outliers, i caldria fer estudis
concrets d’aquestes dades per controlar-ne les causes però el que farem serà substituir-los per dades
mancants per poder estudiar el gruix de les altres dades.
La operació de substitució és la instrucció CODE de Minitab obtenint la columna Resultat com a
Result depurada:
MTB > Code (...) '*' 'Result' 'Resultat' (Data->Code->Numeric to numeric)

A2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada:
• Grandària (sense missings) .......... • Mínim ....... Màxim .............
• Primer quartil Q1 .................... • Mitjana ...................................
• Mediana .................... • Desviació estàndard ................
• Tercer quartil Q3 .................... • Variància ................
• IQR .....................

Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en
les característiques de la variable abans i després de depurar



A3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins
indicadors ho veiem, en els aspectes següents:
- Tendència Central.

- Dispersió.

- Simetria.

B. La variable mem
B1. Realitzarem una descriptiva calculant els indicadors numèrics bàsics de la variable mem:
• Grandària (sense missings) .......... • Mínim ............. Màxim .............
• Primer quartil Q1 .......... ........ • Mitjana ....................................
• Mediana ..................... • Desviació estàndard ............... Mb.
• Tercer quartil Q3 .......................
Realitzarem unes representacions gràfiques (histograma i boxplot) i analitzant-les juntament amb la
taula d’indicadors numèrics podem concloure:
Hi ha dades mancants inicialment? Sí No
S’observen dades extremes o outliers? Sí No
La operació per substituïr els outliers és la instrucció CODE de Minitab obtenint la columna
memoria com a mem depurada.
MTB > Code ( ... ) '*' 'Mem' 'memoria' (Data->Code->Numeric to numeric)

B2. Realitzarem novament la descriptiva numèrica d’aquesta variable ja depurada:
• Grandària (sense missings) ............. • Mínim .......... Màxim ............
• Primer quartil Q1 ...................... • Mitjana .....................................
• Mediana ...................... • Desviació estàndard ................Mb.
• Tercer quartil Q3 .................... • Variància ....................... Mb2.
• IQR ...................



Realitzarem també les representacions gràfiques de la variable depurada, i analitzarem els canvis en
les característiques de la variable abans i després de depurar (en aquest cas s’observa que es pot
entrar en un procés iteratiu de detecció, substitució, nova detecció d’outliers,...)

B3. Un cop depurada comentarem les característiques d’aquesta variable, com ha canviat i en quins
indicadors ho veiem, en els aspectes següents:
- Tendència Central:

- Dispersió :

- Simetria

B4. Estudiarem en aquest cas la possibilitat de transformar la variable enlloc d’entrar en un procés
iteratiu de detecció i substitució de nous outliers (crearem la variable log_mem usant una
transformació força habitual que és el logaritme i que tornarem a usar més endevant)



DESCRIPCIÓ DE VARIABLES CATEGÒRIQUES

Les variables categòriques no prenen valors numèrics, sinó modalitats o categories (per exemple, el
sexe pot ser home o dona, o el color dels ulls pot ser blau, verd, marró, etc.). Les variables
categòriques no tenen significat numèric, tampoc té sentit establir mesures de tendència o de
dispersió. Les variables categòriques es descriuen numèricament amb recomptes de les modalitats
presents (icones Stat Tables Tally) o indicant la modalitat més freqüent de totes (Moda).

La representació gràfica que visualitza el resultat d’un tally és el diagrama de barres: icones
Graph Chart. Si hi ha poques categories també és adequada la representació gràfica via la selecció
de les icones Graph Pie Chart en entorn Windows.

La interpretació serà molt més senzilla en aquest cas: quantes modalitats hi ha? Es distribueixen
uniformement? Quines abunden més? ... o menys?

Si la variable és ordinal convé estudiar tendències: les modalitats d’ordre superior abunden més?
Conforme creix l’ordre d’una modalitat creix la seva freqüència? ... o decreix? Però per a fer-ho,
caldrà que les modalitats es representin ordenades correctament sobre el gràfic. Per a fer-ho, cal
indicar a Minitab, que l’ordre de les modalitats està definit i que ha de respectar aquest ordre en
totes les representacions (a la finestra que visualitza el fitxer de dades, posicionarse sobre el nom de
la variable, punxar el boto dret del ratoli i apareixerà un desplegable; seleccionar Column>Value
Order, marcar User Specified Order, definir l’ordre sobre la finestra dreta del formulari i fer Add
Order; assegurar-se que queda seleccionat abans d’acceptar)

La figura de l’esquerra mostra un típic histograma (consum per autopista), apropiat per les
característiques de la variable: quantitativa i contínua.

60
15
50
Count of students

40
Frequency

10
30

20
5
10

0
0
ia e ny ds en
str nc ma Ital
y an pai n
4 5 6 7 8 9 10 11 12 13
Au Fra Ger erl ed UK
Neth S Sw
cons-autop
students
Un diagrama de barres com el de la dreta serà útil per descriure una variable categòrica: observeu
que la adjacència de les barres del histograma subratlla l'aspecte numèric de la variable, i la
separació d'aquest diagrama destaca l’heterogeneïtat de les modalitats en el cas categòric.



C. La variable SO
A partir de la variable SO crearem, amb la instrucció CODE una variable “WinNoWin”
recodificada segons la següent equivalència:
SO Windows: W2000,W2003,XP recodificats com a Win
SO no windows: Linux,Unix,HP-UX,SOLARIS,Otros recodificats com a NoWin

Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques
(diagrama de barres o pastís) analitzarem les característiques de la nova variable

D. La variable Any
Realitzant un recompte de les modalitats (Stat Tables Tally) i realitzant representacions gràfiques
(diagrama de barres o pastís) analitzarem les característiques de la variable Any.

AVÍS: Cal guardar còpia del fitxer amb les variables “Resultat” i “memoria” depurades i amb la
nova variable “WinNoWin” per a la propera sessió de laboratori.


Laboratoris d’Estadística FIB P09 Qüestionari: univariant

NOMS:

Qüestionari de Descriptiva univariant.

1.- Per a la variable de resultat abans de depurar (Result) i després de depurar (Resultat) indiqueu
els canvis observats numèricament i gràfica de les característiques de:
- Tendència Central i Dispersió

- Simetria i Outliers

2.-Per a la variable de memòria abans de depurar (Mem) i després de depurar (Memoria i
log_mem) indiqueu els canvis observats numèricament i gràfica de les característiques de:
- Tendència Central i Dispersió

- Simetria i Outliers

3.- Indiqueu quins indicadors han canviat molt i quins no, a l’eliminar outliers. I indiqueu com
s’anomenen uns i altres segons si varien molt o no.

Departament d’Estadística i Investigació Operativa UPC pàg. 1

Laboratoris d’Estadística FIB P09 Qüestionari: univariant

4.- Quins són els indicadors de dispersió clàssics i quines unitats tenen? Indiqueu com es calculen.

5.- Per a les variables SO, WinNoWin i Any indiqueu les característiques de les respectives
distribucions (com les descriurieu per a un informe)


Laboratoris d’Estadística FIB T09 Guió S3: Problemes de CP i VA

Sessió 3. Càlcul de Probabilitats i Variable aleatòria
Els esquemes següents representen les fórmules de càlcul de probabilitats de la primera pàgina del
formulari:
Ω
A

0 ≤ P(A) ≤ 1 P(Ω) = 1

A
A
B B

P(A ∪ B) = P(A)+ P(B)- P(A ∩ B) si A ∩ B ≠ 0 P(A ∪ B) = P(A) + P(B) si A i B disjunts

A1 A2 ...
B Ai

P( B | Ai ) ⋅ P( Ai ) J
P( Ai | B ) = J
P(B) = ∑ P( B | A j) ⋅ P(A j)
∑ P(B
j=1
| A j) ⋅ P( A j) j=1

P(B|A)
B

A
P(A)
P(NoB|A) NoB

P(NoA) P(B|NoA) B
NoA

P(NoB|NoA)
NoB

P(A ∩ B)
P(B | A) = P(A ∩ B) = P(A) ⋅ P(B | A)
P(A)

Departament d’Estadística i Investigació Operativa UPC Guió S3 pàg. 1


Dependència i independència en CP

Amb les probabilitats conjuntes:

B ¬B
A P(A∩B) P(A∩¬B) P(A)

¬A P(¬A∩B) P(¬A∩¬B) P(¬A)
P(B) P(¬B)

Si P(A ∩B)= P(A) * P(B) i P(¬A ∩B)= P(¬A) * P(B)
i P(A ∩¬B)= P(A) * P(¬B) i P(¬A ∩¬B)= P(¬A) * P(¬B)
llavors A i B són independents

Amb les probabilitats condicionades (per files):

B ¬B
A P(A∩B) / P(A) = P(B|A) P(A∩¬B) / P(A) = P(¬B|A) 1

¬A P(¬A∩B) / P(¬A) = P(B|¬A) P(¬A∩¬B) / P(¬A) = P(¬B|¬A) 1

Si les probabilitats condicionades coincideixen ( P(B|A) = P(B|¬A) = P(B) i P(¬B|A) = P(¬B|¬A) = P(¬B) )

Amb les probabilitats condicionades (per columnes):

B ¬B
A P(A∩B) / P(B) = P(A|B) P(A∩¬B) / P(¬B) = P(A|¬B)
¬A P(¬A∩B) / P(B) = P(¬A|B) P(¬A∩¬B) / P(¬B) = P(¬A|¬B)
1 1
Si les probabilitats condicionades coincideixen ( P(A|B) = P(A|¬B) = P(A) i P(¬A|B) = P(¬A|¬B) = P(¬A) )



Problema A: Els flops erronis

Un ordinador conté 3 processadors (A1, A2 i A3) en paral·lel per realitzar operacions de càlcul en coma flotant
(anomenat floating point operations o flops en breu). Se sap que cada processador produeix flops amb resultats
incorrectes amb freqüències 0.01, 0.02 i 0.03 respectivament. Un usuari arranca un programa per fer una tasca de càlcul
que requereix 200 000 flops en total. El processador A1 processa 100 000 flops de la tasca, mentre A2 i A3 processen
50 000 cadascú. Ens interessa estudiar si un flop concret dels 200 000 que formen part de la tasca (li direm flop i) s’ha
executat amb èxit o ha estat incorrecte. Contesta les preguntes a continuació:
1. Quina és la probabilitat que el flop i sigui incorrecte?
2. Si sabem que el flop i és incorrecte, quin processador és el candidat més probable d’haver-lo executat?

Indicació per a la solució:

0.01 B
flop erroni
A1
... B
flop no erroni

1/2

... B
flop erroni

A2
...
... B
flop no erroni

...
... B
flop erroni
A3
... B
flop no erroni



Problema B: Usuaris i batchjobs

Un ordinador gran (mainframe) disposa d’una cua on els usuaris poden enviar treballs a processar pel sistema operatiu
(batchjobs). Es distingeixen batchjobs petits (P), mitjans (M) i grans (S) dependent dels recursos que exigeixen els
batchjobs (memòria, temps de CPU, ús de disc, etc.). La gran majoria dels usuaris treballa de manera interactiva amb
l’ordinador, i només 4 usuaris (A, B, C i D) solen enviar batchjobs. La pràctica ha ensenyat que els batchjobs que es
troben a la cua pertanyen a les diferents combinacions de categories amb les probabilitats:
Usuari A Usuari B Usuari C Usuari D
Petit 0.01 0.05 0.04 0.01
Mitja 0.02 0.08 0.03 0.03
Gran 0.04 0.54 0.09 0.06

Contesteu les preguntes següents:
1. Quina és la probabilitat que un batchjob qualsevol hagi estat enviat per l’usuari A?
2. Quina és la probabilitat que un batchjob petit hagi estat enviat per l’usuari A?
3. Quina és la probabilitat que un batchjob sigui un batchjob gran?
4. Quina és la probabilitat que un batchjob sigui gran i enviat per usuari B?
5. Hi ha independència entre l’usuari i el tipus de batchjob? Argumenteu la resposta.
6. Quina és la probabilitat que un batchjob hagi estat enviat per l’usuari A o l’usuari B?
7. Quina és la probabilitat que un batchjob gran hagi estat enviat per l’usuari A o B?
8. Donat que un determinat batchjob no es petit, quina es la probabilitat que hagi estat enviat per l'usuari C o
l'usuari D?


Probabilitats marginals:
Petit 0.01 0.05 0.04 0.01 0.11
Mitja 0.02 0.08 0.03 0.03 ...
Gran 0.04 0.54 0.09 0.06 ...
0.07 ... ... ... 1.00



Probabilitats condicionades:
- per columnes

Petit 0.14
Mitja 0.29
Gran 0.57
1.00 1.00 1.00 1.00 1.00

- per files

Petit 0.09 0.45 0.36 0.09 1.00
Mitja 1.00
Gran 1.00
1.00



Problema C: El paquet de tres bits (primera part)

Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de comunicació (Ω
= {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències són equiprobables. Es
defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3 bits i la variable Y és el
número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y ∈ {0,1,2}.
- Construïr la taula amb la funció de probabilitat conjunta de les variables X i Y.
- Calcular les esperances de X i de Y, i les variances de X i Y.

Possibilitats X (suma) Y (#alternances)
0 000 0 0
0 001 1 1
1
0 0 010 1 2
1
1 011
0 100
0
1 1 101
1 0 110
1 111 3 0

Probabilitats conjuntes:

PYX X=0 X=1 X=2 X=3
1/8
Y=0
0
Y=1
0
Y=2
1/8

Problema D: Resolució de problema en l’entorn e-status


Laboratoris d’Estadística FIB P09 Guió i exercicis S4: bivariant

Sessió 4. Estadística Descriptiva Bivariant

En la sessió d’univariant hem vist com les eines descriptives univariants ens permetien de
caracteritzar el comportament d’una variable aïllada. De fet, amb eines numèriques i gràfiques
podiem fer una fotografia sintètica de la variable.

Un cop conegudes les variables una a una, ens interessarem per un estudi més global, que les
posicioni unes respecte a les altres. Així doncs, la següent passa en l’anàlisi descriptiva és
l’anàlisi descriptiva bivariant, que té per objectiu estudiar com són les relacions entre les
variables dues a dues. Naturalment, aquest és el cas més simple de l’anàlisi descriptiva
multivariant, que estudia globalment les relacions existents entre un conjunt de variables que pot
ser molt nombrós (aquestes tècniques són més complexes i són objecte de l’assignatura optativa
TCD –Tècniques de Classificació i Discriminació, i connecten directament amb el món del Data
Mining).
En aquest curs estudiarem les tècniques més usuals d’anàlisi descriptiva bivariant. Al igual que
passava amb les univariants, en tindrem de dos tipus:
• Eines gràfiques: Permetran visualitzar com és la relació entre dues variables.
Generalment identificarem un patró general que regeix la relació i com son les
desviacions respecte d’ell.
• Eines numèriques: Quantifiquen el que s’observa en el gràfic, ja sigui a nivell de
proporcionar un model matemàtic per al patró general observat o per quantificar les
desviacions respecte d’ell.

D’altra banda cal tenir present que la naturalesa de les variables a estudiar jugarà un paper
fonamental en la determinació de quines eines seran o no adequades per cada cas. Així doncs,
distingirem bàsicament tres casos:
• Relacions entre una variable numèrica i una categòrica
• Relacions entre dues variables numèriques
• Relacions entre dues variables categòriques

A continuació tractarem cadascun d’ells.

Per últim, abans d’acabar aquest apartat, recordar que en tot treball, cal realitzar una acurada
depuració de les dades abans de començar l’anàlisi, i que això comporta, el tractament de
missing data i l’estudi dels possibles outliers de les variables que intervenen a l’estudi. Una
qüestió a tenir sempre present és la possible aparició de nous outliers en l’estudi bivariant. En
efecte, dades que estan prop de la tendència central d’una variable globalment, poden ser outliers
en un subgrup concret que es concentri en valors menors, per exemple: aquests outliers han de
tractar-se seguint la metodologia presentada a la pràctica anterior.

Deartament d’Estadística i Investigació Operativa UPC Guió S4 pàg. 1


RELACIÓ ENTRE VARIABLES NUMÈRIQUES I CATEGÒRIQUES

En aquest cas estem interessats en estudiar el comportament d'una variable numèrica segons les
modalitats que pren una variable categòrica, tot examinant així la relació entre les dues variables.
Amb aquesta anàlisi podrem observar les possibles diferències en el comportament de la variable
numèrica entre els grups que determina la variable categòrica.
Com ja hem dit, utilitzarem eines gràfiques i numèriques. De fet, en aquest àmbit s’introdueix
l’extensió de les 3 eines de Minitab bàsiques per estadística descriptiva que es coneixen de la
sessió anterior: DOTPLOT, BOXPLOT i DESCRIBE. L’extensió de les possibilitats de les
comandes s’assoleix mitjançant la introducció de subcomandes. Des del sistema de navegació
per menús que ofereix Minitab, això correspon a diferents opcions que presenten els formularis i
que introduirem tot seguit. Si es treballa directament contra l’intèrpret de comandes Minitab,
s’entra a nivell de subcomanda si, després d’indicar la comanda principal es prem “ ; Retorn”;
s’observarà un canvi en el Prompt de l’intèrpret que passarà de “MTB>” a “SUBC>”; ens
mantindrem dins aquest nivell de subcomanda fins que utilitzem el terminador de línia “.”, que
indica que es pot executar tot el bloc anterior .
Eines gràfiques d’anàlisi descriptiva bivariant (cas mixte)
Veurem en aquest curs el dotplot múltiple (el formulari del dotplot té un flag: BY, que cal
activar i indicar quina variable categòrica es vol utilitzar per definir els grups), i el boxplot
múltiple (en el formulari del Boxplot, omplir el camp X amb la variable categòrica; si a més
s’omple Grouping Variable amb la variable categòrica i es selecciona l’opció de “For each
group” , hi haurà un tramat/color diferent per cada grup).
La idea bàsica d’un gràfic múltiple és que es reprodueix un determinat gràfic per la variable
numèrica (el dotplot, o el boxplot, en el nostre cas), per tots els grups que indica la categòrica.
Els gràfics de tots els grups es representen juxtaposats sobre una mateixa escala per la variable
numèrica i això permet fer comparacions entre grups.
A la figura es mostra el dotplot múltiple de la variable velocitat de procés d’uns ordinadors (en
MHz) versus el sistema operatiu de suport de l’ordinador. En segon lloc es mostra el boxplot
múltiple de la puntuació que cada ordinador ha tret en un cert benchmark versus el sistema
operatiu (val a dir que a més alta puntuació, millor posicionat està l’ordinador). Es pot veure
com l’estructura bàsica d’un gràfic múltiple és, com ja s’ha dit, la repetició d’un gràfic de la
variable numèrica per cadascun dels grups que indica la categòrica.

Dotplot for velocidad

50

Sist. Oper. 40

W2000
30
Result

UnixWare
20

10

NT

100 200 300 400 500 600 700 800 900 1000 0
velocidad NT UnixWare W2000
Sist. Oper.



L’anàlisi ha de contemplar bàsicament dos aspectes:
• Com és el gràfic de cada grup per se. Per fer-ho hem de recórrer als coneixements
adquirits en la pràctica d’univariant.
• Com és la relació entre les dues variables. Per fer-ho analitzarem global i
comparativament tots els grups. Bàsicament ens interessarà observar si el comportament
de la variable numèrica és idèntic en tots els grups: mateixa tendència central, mateixa
dispersió, mateix grau de simetria... (la qual cosa apunta cap a la independència entre les
dues variables) o, per contra, existeix algun efecte del grup sobre la variable numèrica.

Minitab ofereix la possibilitat d’altres gràfics múltiples, que no veiem en aquest curs o bé per la
dificultat en obtenir-los, o bé per la dificultat en interpretar-los (tal és el cas de la representació
que Minitab ofereix de l’histograma múltiple).

Eines numèriques d’anàlisi descriptiva bivariant (cas mixte)
Al igual que en el cas univariant, els indicadors numèrics serviran per quantificar el que
s’observa en el gràfic. Així, quantificarem les tendències centrals, dispersions, etc. de cada grup
a través de la descriptiva múltiple (Basic Statistics>Display Descriptive Statistics de la variable
numèrica + Activar flag BY i indicar variable categòrica).
Es mostra a continuació la descriptiva múltiple de la variable velocitat dels processadors versus
el sistema operatiu, ja presentats a la secció anterior. Aquesta descriptiva vindria a complementar
la informació que visualitza el dotplot anterior.
Descriptive Statistics: velocidad by Sist. Oper.
Variable Sist. Op N Mean Median TrMean StDev
velocida NT 98 455,3 441,5 451,6 175,3
UnixWare 72 196,57 180,00 191,48 77,56
W2000 1 1000,0 1000,0 1000,0 *

Variable Sist. Op SE Mean Minimum Maximum Q1 Q3
velocida NT 17,7 133,0 866,0 333,0 550,0
UnixWare 9,14 75,00 450,00 133,00 233,00
W2000 * 1000,0 1000,0 * *

A part de l’anàlisi intern, grup a grup, observant globalment les característiques de cada grup,
podrem estudiar si hi ha semblances fortes entre grups o no.
Sobre la intensitat d’aquestes semblances existeixen també indicadors numèrics, però la seva
interpretació està lligada a raonaments no trivials i a la formalització d’alguns models que són
objecte de cursos posteriors. Per això, en aquest curs introductori ens quedarem a nivell
d’analitzar la descriptiva múltiple.



A. Relacions entre una variable numèrica i una categòrica: les variables
Resultat i SO, WinNoWin i Any

Treballarem les dades del fitxer CINT2000-2005.MTW de la sessió d’univaraint amb les
variables depurades (Resultat, memoria, WinNoWin)
Comencem analitzant la variable “Resultat” respecte les variables que ens indiquen el SO amb el
que es va realitzar la prova (les variables SO i WinNoWin)
Feu la descriptiva de Resultat per grups de la variable SO i copieu-la (atenció a les files: pot no
coincidir amb el ordre de sortida de Minitab):

SO N Mitjana Desv.
W2000
W2003
XP
Linux
Unix
SOLARIS
HP-UX
Otros

Torneu a fer la descriptiva de Resultat per grups de la variable WinNoWin:
WinNoWin N Mitjana Des.Típ
Win
NoWin
Compareu les dos taules i observeu les diferències entre les interpretacions que s’obtenen.

Analitzeu ara la variable “Resultat” respecte “Any”. Interpreteu-ne els resultats i comenteu si
observeu diferències entre els grups, quines, i quins elements estadístics ho posen de manifest.
Any N Mitjana Des.Típ
00
01
02
03
04
05



RELACIÓ ENTRE DUES VARIABLES NUMÈRIQUES

Aquest apartat tracta de l’estudi de les relacions entre dues variables numèriques mitjançant
eines gràfiques i numèriques.

Representació gràfica de parells de variables numèriques.
La manera natural d’iniciar un estudi consisteix en representar gràficament (diagrama bivariant ,
scatterplot en terminologia del Minitab ) les parelles de punts que constitueixen el núvol de
punts de les observacions de les dues variables:
( xi , yi ) i = 1… n

La comanda Minitab per construir un diagrama bivariant és PLOT (en entorn Windows cal
seleccionar les icones Graph Plot). X correspon a la variable en abcisses i Y, la variable en
ordenada, que sol ser la variable resposta si és que el paper de les dues variables està diferenciat
en l’estudi.
La gràfica, que és un diagrama cartesià ordinari, conté tota la informació sobre la relació entre
dues variables. Bàsicament analitzarem tres aspectes:
• Forma: el plot permet visualitzar la forma general de la distribució conjunta de les dues
variables i, per tant, les grans tendències de la seva relació. Així, podrem veure si el patró
general que regeix aquest parell de variables s’acosta a una línia recta, o a una paràbola,
o es sinusoïdal...
• Direcció: Veurem fàcilment també si la relació és directa (Y creix quan X creix) o
inversa (Y creix quan X decreix).
• Intensitat: Els punts poden estar molt agrupats entorn aquesta tendència general (poca
dispersió), la qual cosa indica que la relació és intensa o, per contra, existeix una
dispersió gran al voltant d’aquesta tendència, la qual cosa indica que la relació és feble i
que l’efecte d’X sobre Y està emmascarat, o bé per altres variables que no hem
considerat, o bé per una fluctuació aleatòria molt important.
Les figures al peu mostren exemples del que es consideraria una relació lineal creixent i molt
intensa, un relació no lineal, també creixent i menys intensa, i una relació no lineal, decreixent i
no molt intensa respectivament.
Fixem-nos que aquesta anàlisi és paral·lela al que ja s’havia fet en l’apartat d’univariant. La
filosofia segueix essent la mateixa: Identificar un patró general (en aquest cas bivariant) que
marca la tendència central (en aquest cas de la relació entre les variables) i caracteritzar com són
les variacions respecte d’aquest patró...

50 50
50

40 40

40
30 30
result PIII

Result

Result

20 20
30

10 10

20 0
0
800 1300 1800 2300
400 500 600 700 800 900 1000 1/12/95 1/11/96 1/10/97 1/9/98 1/8/99 1/7/00
dies fins ara
velocitat PIII Published



L’observació detallada del diagrama bivariant ha de permetre certes consideracions, com:
• és legítim modelitzar la relació entre les variables mitjançant una recta? o s’ha de pensar en
modelitzar mitjançant una corba més complexa?
• podrà servir el model escollit per predir o per estimar?
• existeixen outliers, es a dir, punts que s’aparten molt del núvol?

El plot múltiple
Fent una petita extensió al camp del tri-variant, podem estudiar l’efecte d’una tercera variable
categòrica sobre aquesta relació a través del plot múltiple, que sobre un plot, marca amb
diferents símbols o colors la modalitat corresponent a cada punt. Sobre el formulari del plot, cal
seleccionar Display: Bar For Each: Group Grouping Variable: la variable categòrica. A través
del botó Edit Attributes, podem indicar amb quins colors volem distingir les modalitats i fer més
visual el gràfic. Es poden presentar situacions en que la relació entre X i Y varii segons la
modalitat de la categòrica i s’aconselli un estudi separat...

Eines numèriques d’anàlisi de parells de variables numèriques

Ja hem dit que interessa quantificar aquelles coses que s’observen visualment en un gràfic. En
l’àmbit de les variables numèriques, la cosa es complica i els indicadors numèrics que podem
donar estan subjectes a formes concretes de la relació. No existeixen indicadors globals com hem
vist fins ara, sino indicadors lligats a certes formes.
Quant a les formes, el més habitual és representar-les com a funcions matemàtiques d’Y respecte
d’X, que seran funcions lineals si la relació té forma de recta, paràboles, si té forma quadràtica,
etc. El càlcul de l’equació matemàtica que millor s’ajusta a un núvol de punts constitueix el
camp de la modelització estadística i és complexe, quedant fora de l’àmbit d’aquest assignatura.
Convé dir, no obstant, que els paràmetres de forma i direcció de la relació que hem observat en
el plot queden capturats en l’equació del model.
Queda per tant, quantificar el tercer dels paràmetres. La intensitat de la relació. Necessitem un
coeficient que ens digui si les observacions estan a prop o lluny de la seva tendència central.
Però si la tendència central s’expressa com una funció matemàtica, està clar que avaluar la
dispersió, passarà per veure què tant a prop d’aquesta funció (del seu lloc geomètric, de fet)
estan les observacions. És per això que no tenim un coeficient global per qualsevol núvol, sino
que segons la forma de la relació els definirem diferentment.
En aquest curs, estudiarem només com quantificar la intensitat d’una relació lineal, és a dir, d’un
núvol de punts que té forma de línia recta. I que quedi clar que si la forma del núvol de punts és
una altra, aquest coeficient no mesura la intensitat de la relació.

Definim, doncs, el coeficient de correlació lineal rX,Y: (donarà un valor comprès entre –1 i +1)

∑ (x − x )( y i − y )
∑ (x − x )( y i − y )
i

(n − 1) =
i i
S X ,Y
rX ,Y = i
=
∑ (x − x) ∑ (y − y) S X SY S X SY
2 2
i i
i i

D’aquest coeficient n’interpretem dues coses:



• el signe del coeficient de correlació lineal està directament lligat a la direcció de la relació:
relació directa (coeficient positiu) o inversa (coeficient negatiu)
• la magnitud ( o valor absolut ) mesura directament la intensitat de la relació: més gran és la
magnitud, més intensa és la relació, més a prop estan els punts de la recta-tendència general,
i per tant, més allargada és la forma del núvol. Si aquest valor és exactament 1, els punts són
alineats sobre una recta perfecta: es verifica Y= a+bX (i X=c+dY), amb pendent positiu o
negatiu segons el signe d’r. En la pràctica, no es troben coeficients que valguin exactament 1
en valor absolut i s’ha de valorar si els valors són grans o petits.
L’obtenció del coeficient de correlació s’aconsegueix amb la comanda CORRELATION. En
entorn Windows cal seleccionar les icones Statistics BasicStatistics Correlation.

Dependència/independència entre variables numèriques

En absència de relació de tipus lineal, el coeficient de correlació val 0 (o s’hi acosta). Alerta,
però, això només significa que les dues variables no estan lligades per una línia recta, i no pas
que aquestes variables siguin independents. Podrien mantenir una relació quadràtica o d’un altre
tipus i molt intensa, i tenir un coeficient de correlació lineal quasi nul.

B. Relacions entre dues Variables Numèriques: les variables Resultat i MHz
Estudiem ara “Resultat” i “MHz” a través de l’”Scatterplot”.
Analitzem el gràfic, i valoreu direcció, forma i intensitat de la relació.



Feu el gràfic anterior separant els casos segons la variable WinNoWin i valoreu direcció, forma i
intensitat de la relació.

Aprofundim en la relació de Resultat i MHz mitjançant indicadors numèrics.
- calculem el “coeficient de correlació”
amb tots els casos: ...........
amb els casos Win: ...........
amb els casos NoWin: ……...

- valoreu-ne el signe (+ o -):

- valoreu-ne la magnitud (propera a 0, a 1 o a -1):

En la relació de Resultat i MHz quina de les dues variables té sentit que actuï com a resposta?



RELACIÓ ENTRE DUES VARIABLES CATEGÒRIQUES

Igual que en els altres casos, presentarem aquí eines de tipus gràfic i de tipus numèric.

Eines numèriques per analitzar la relació entre variables categòriques.
Les taules de contingència s’usen per fer una representació numèrica resumida de com es
relacionen dues variables categòriques. Suposem que estudiem n elements u observacions
i que per cada observació es coneix el valor de cada variable categòrica de forma que
podem conèixer el número nij de elements amb el valor i-èssim de la primera variable
categòrica X i amb el valor j-èssim de la segona variable categòrica Y. Amb aquesta
informació podem construir diferents tipus de taules de contingència (que tenen
l’estructura d’una matriu plana de doble entrada) tal i com veurem, associant els valors de
la variable X a les files de la taula i els de la variable Y a les columnes.

Si existeix un paper diferenciat de les dues variables (que una actuï com a variable
resposta – la que volem explicar en funció dels valors de l’altra - i l’altra com a
explicativa) és freqüent disposar la variable explicativa en files i la variable resposta en
columnes.
Per exemple, suposem que disposem de 171 ordinadors dels que coneixem els valors de
les variables categòriques Processador i Sistema Operatiu. Per estudiar la relació entre
aquestes variables podríem formar la següent taula:
Rows: Sist. Op Columns: procesador

Celeron Pentium PII PIII PPro Total

NT 6 7 44 40 1 98
UnixWare 4 36 17 0 15 72
W2000 0 0 0 1 0 1
Total 10 43 61 41 16 171

El que ens està dient la taula és que, dels 171 individus (en el sentit estadístic de la
paraula) estudiats, n’hi ha 44 que són PentiumII amb WindowsNT i, per exemple, 4 que
són Celeron amb sistema operatiu Unix.
La comanda Minitab TABLE ofereix les eines adequades per l’estudi de les taules de
contingència. Les icones a seleccionar són Stat Tables CrossTabulation. Veurem que hi
ha diferents opcions, que permeten representar diferents taules. Vejam quines.

Tipus de taules de contingència.
• Taules d’efectius totals: Presenten el nombre total d’observacions que hi ha en cada
casella. (subcomanda COUNT de la comanda TABLE).

o nij - Contingent d'observacions en la fila i i la columna j, és a dir, nombre
d’individus que són de la modalitat i per la variable X i de la modalitat j per la
variable Y. És el contingut de la casella ij de la taula.



o ni⋅ - Número total d'observacions amb el valor i-èssim de la variable categòrica
associada a files. Es calcula com la suma de totes les caselles de la fila ni⋅ = Σj
nij i es representa en el marge dret de la taula.
o n.j - Número total d'observacions amb el valor j-èssim de la variable categòrica
associada a columnes. Es calcula com la suma de totes les caselles de la columna
n⋅ j = Σi nij i es representa en el marge inferior de la taula.

En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els
marges inferiors i és igual al nombre total d’observacions estudiades.

Un estudi mitjançant taules de contingència s’inicia per Taules d’efectius totals ( o de
freqüències absolutes ). Ha de ressaltar-se, quasi exclusivament, les cel·les amb
majors i menors nombres d’observacions.

• Taules de freqüències absolutes, o de proporcions absolutes: Presenten la proporció
respecte del total d’observacions que hi ha en cada casella. (Subcomanda TOTPERC
de la comanda TABLE).

o pij – Proporció d'observacions en la fila i i la columna j respecte del total
d'observacions. pij= nij / n. És el contingut de cada casella.
o pi⋅ - Proporció, respecte del total d'observacions, d’observacions amb el valor i-
èssim de la variable categòrica associada a files. pi.= ni. / n. . Es representa en el
marge dret de la taula i s’anomena també distribució marginal de X.
o També, p⋅ j - Proporció, respecte del total d'observacions, d'observacions amb el
valor j-èssim de la variable categòrica associada a columnes. p.j= n.j / n. Es
representa en el marge inferior de la taula i s’anomena també distribució marginal
de Y.

En aquestes taules, la suma de tots els marges drets coincideix amb la suma de tots els
marges inferiors i és igual la unitat, que representa el 100% de les observacions.

• Taules de contingència condicionades per files: Per cada fila es representa una
distribució diferent, que indica, d’entre el total d’observacions que són de modalitat i,
quin percentatge n’hi ha de cada modalitat d’Y. De cadascuna d’aquestes
distribucions se’n diu perfil fila.
Així, la cel·la (i,j) conté l'element nij / ni⋅
S'afegeix una última fila, que representa la fila marginal. Els elements d'aquesta
última fila contenen els n⋅ j /n .
En aquestes taules la columna del marge dret, que és suma de cada fila és sempre
igual a 1, expressant que els percentatges s’han calculat independentment per cada
fila i no respecte del total d’observacions, amb la qual cosa la suma dels elements
d'una fila ha de ser 1.



Podrem analitzar sobre aquestes taules l’efecte de la variable explicativa sobre la
variable de resposta. Si no hi ha efecte, la separació de les observacions per grups d’X
no ha de modificar la distribució d’Y. Així, en cas d’independència entre les dues
variables, totes les files serien idèntiques (en un cas perfecte) i iguals a la distribució
marginal d’Y. Quan més lluny estem d’aquesta igualtat, més important és l’efecte de
la variable X sobre Y (conèixer el valor d’X aporta informació sobre com serà el
percentatge de certa modalitat d’Y).

Ara bé, sobre dades reals, quasi mai trobarem una situació d’independència pura, sino
que haurem de fixar un criteri previ d’equivalència, que ens permeti decidir fins a
quin nivell considerarem petites diferències com a negligibles. Per exemple, es poden
considerar equivalents tots els percentatges que difereixin en termes relatius menys
d’un 5%.
La subcomanda ROWPERCENT de la comanda TABLE s’usa per obtenir taules de
contingència condicionades per files i les utilitzarem per apuntar si l’efecte d’X sobre
Y és fort o feble. Si el resultat de l’anàlisi és que X afecta a Y, hem de ser capaços de
descriure com és aquest efecte.

Seguidament es presenta la taula de perfils fila que produeix Minitab per les dues
variables que ja havíem presentat. Cada fila representa com es distribueix el tipus de
processador per un sistema operatiu concret. Per exemple es veu que un 44,9% dels
ordinadors que funcionen sota WindowsNT tenen un processador PentiumII, o que
d’entre tots els ordinadors que funcionen en Unix, un 50% son Pentiums.


Celeron Pentium PII PIII PPro All

NT 6,12 7,14 44,90 40,82 1,02 100,00
UnixWare 5,56 50,00 23,61 -- 20,83 100,00
W2000 -- -- -- 100,00 -- 100,00
All 5,85 25,15 35,67 23,98 9,36 100,00
Cell Contents --
% of Row

• Taules de contingència condicionades per columnes: Per cada columna es representa
una distribució diferent, que indica, d’entre el total d’observacions que són de
modalitat j, quin percentatge n’hi ha de cada modalitat d’X. Són els perfils columna.
Així, la cel·la (i,j) conté l'element nij / n⋅j
S'afegeix una última columna, que representa la columna marginal. Els elements
d'aquesta última fila contenen els ni. /n .
En aquestes taules la fila del marge inferior, que és suma de cada columna és sempre
igual a 1, expressant que els percentatges s’han calculat independentment per cada
columna i no respecte del total d’observacions, amb la qual cosa la suma dels
elements d'una columna ha de ser 1.
L’obtenció de la taula de contingència de freqüències per columnes és mitjançant la
subcomanda COLPERCENT. L’estudi de taules condicionades és simètric per files i
columnes. De fet, la informació que ens proporcioni una ha de venir reflectida en



l'altre, per la qual cosa podria considerar-se que s'incorre en redundància al obtenir les
dues. Malgrat això sempre resulta profitós obtenir-les.

Veieu aquí la taula de perfils columna de les variables que il.lustren aquest apartat.
S’observa que de tots els ordinadors amb processador PentiumII, un 27,87% són
màquines que funcionen en Unix, per exemple. Hores d’ara ja haurà quedat molt clar
al lector, que Minitab no contempla, en aquestes taules de perfils, les caselles buides.


Celeron Pentium PII PIII PPro All

NT 60,00 16,28 72,13 97,56 6,25 57,31
UnixWare 40,00 83,72 27,87 -- 93,75 42,11
W2000 -- -- -- 2,44 -- 0,58
All 100,00 100,00 100,00 100,00 100,00 100,00
Cell Contents --
% of Col

• Taules de contingències de freqüències esperades. La cel·la (i,j) conté l'element
n'ij =n ×p⋅ j ×pi⋅ Els elements de la fila i columna marginal són els mateixos que els
de la taula de contingències totals absoluta.
En aquest cas, es representa el nombre d’observacions que hi hauria d’haver a cada
casella en cas que les dues variables fossin independents. I la forma de calcular
l’efectiu esperat es basa en la idea que, si hi ha independència, i el valor d’X no
modifica la distribució d’Y, les freqüències condicionades a files coincideixen amb
les marginals d’Y. Desenvolupant aquesta igualtat és fàcil aïllar quin hauria de ser el
contingut d’una casella i s’obté la relació anterior.
Aquesta taula és útil per estudiar directament la independència. Si efectivament hi ha
independència, aquesta taula s’hauria d’assemblar molt i molt a la taula d’efectius
totals. Minitab ens permet de construir la taula de contingències amb freqüències
esperades per ser comparada directament amb la taula de contingències de totals
absoluts superposant a cada cel·la el nombre d’observacions existent realment a cada
casella i el nombre d’observacions que hauria d’haver-hi en cas d’independència
(expected frequency o EXP FREQ).
Les cel·les que presenten una major discrepància entre els dos valors són les que més
contribueixen a la no independència de les variables i cal tenir-les present. Si a totes
les cel·les, el valor observat i el valor esperat d’observacions coincideix raonablement
aleshores es verifica, la independència (no relació) entre les dues variables estudiades.
De fet, Minitab calcula encara un coeficient, anomenat la distància de Chi-2 (Chi-
square, en Minitab) que hem d’interpretar com una distància entre les dues taules.
Quan més a prop de 0 estigui aquest coeficient, més s’assemblen les taules, i per tant,
més a prop estem de la independència. En cursos posteriors s’explicarà amb detall
com es calcula aquest coeficient.



Eines gràfiques per analitzar la relació entre variables categòriques.

Es tracta d’extensions del gràfic univariant diagrama de barres, ja presentat. Tots es
construeixen a partir d’opcions del Graph Chart i s’interpreten d’acord amb el tipus de
taula que representen. Bàsicament ens permetran visualitzar si existeix o no la independència
entre les variables i en cas que no, serà fàcil interpretar el sentit que té la relació entre X i Y.
Especialment en el cas que hi hagi alguna variable ordinal haurem de cercar si les seves
modalitats marquen alguna tendència en l’altra variable.

Vejam les eines gràfiques de que disposem:
• Diagrama de barres apilades: Consisteix a construir un diagrama de barres per X i distingir,
dins de cada barra amb diferents colors o trames, quin efectiu correspon a cada modalitat
d’Y. Dins el Chart cal posar en X una de les variables (normalment d’explicativa).
Seleccionar Display: Bar For Each: Group Grouping Variable: l’altre variable). Prémer el
botó Options i activar el flag Stack, tot indicant que la variable que s’usa per apilar les barres
és la mateixa que la que defineix els grups.
Aquest diagrama permet representar la taula d’efectius absoluts.
• Diagrama de barres adosades: És una evolució de l’anterior, consistent a deixar caure, un al
costat de l’altre, cada tram d’una barra d’X. Així, l’efecte final és que, sobre cada modalitat
d’X es representa un grupet de barres adosades, que representen les modalitats d’Y. Dins
d’Options, desactivar el flag de Stack, activar el de Cluster i posar-hi la variable de grup.
• Diagrama de barres segmentades: Aquest representa la taula de freqüències condicionades a
files o columnes, segons quina variable posem en l’eix d’abcisses. Per fer-lo en Minitab hem
de començar com si realitzéssim un diagrama de barres apilades. A més, però, en la finestra
d’options cal activar també el flag de Total Y to 100% within each X category.

Dependència/independència entre variables categòriques

Ja hem dit que en els valors de la taula creuada (especialment en els de les taules condicionades
per files o per columnes) es veu, en cas d’independència entre les dues variables, totes les files
amb valors idèntiques (en un cas perfecte) i iguals a la distribució marginal. Si no són les taules
condicionades es veu proporcionalitat. Això mateix s’observa en les distribucions de les barres
en els gràfics.
En cas de dependència entre les dues variables, quan més lluny estem de la igualtat o la
proporcionalitat en la taula o gràficament, més important és l’efecte d’una variable sobre l’altra
mostrant la seva dependència.



C. Relacions entre dues variables categòriques: les variables SO, WinNoWin i
Any
Analitzem gràficament i amb una taula creuada la relació entre la parella de variables Any i
WinNoWin i observeu-ne la relació de dependència/independència de les variables

NoWin Win ALL

00

01

02

03

04

05

ALL

I analitzem la relació entre la parella de variables Any i SO observant-ne també la relació de
dependència/independència de les variables

HP-UX Linux Otros SOLARIS Unix W2000 W2003 XP ALL

00

01

02

03

04

05

ALL


Laboratoris d’Estadística FIB P09 Qüestionari:bivariant

NOMS:

Qüestionari de Descriptiva bivariant

1.- A partir de les taules de Resultat amb SO i WinNoWin comenteu si tenen millors resultats els
casos Win o els NoWin

2.- A partir de la taula de Resultat i Any comenteu els resultats al llarg dels anys

3.- Què indica el signe i la magnitud del “coeficient de correlació”?


Laboratoris d’Estadística FIB P09 Qüestionari:bivariant

4.- Comenteu les diferències gràfiques i del coeficient de correlació de la relació Resultat-MHz en
els casos Win i en els NoWin

5.- Com es pot veure intuïtivament, en un gràfic i en la taula creuada, la dependència o
independència de dues variables categòriques? (comenteu-ho en general o en els casos estudiats a
l’exercici C)


Laboratoris d’Estadística FIB T09 Guió S5: problemes deVA

Sessió 5. Variable Aleatòria: VAD i VAC

Dependència i independència amb VA
Y=y1 Y=y2 ...
X=x1 P(X=x1 ∩ Y=y1) P(X=x1 ∩ Y=y2) P(X=x1)
X=x2 P(X=x2 ∩ Y=y1) P(X=x2 ∩ Y=y2 P(X=x2)
...

P(Y=y1) P(Y=y2)

Si ∀i ∀j P(X = xi ∩ Y = yj ) = P(X = xi) P(Y = yj) llavors X i Y són independents

Problema A. El paquet de tres bits (continuació)
Considerem el conjunt de tots els paquets de 3 bits que es poden enviar per una linea de
comunicació (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Suposem que totes las seqüències
són equiprobables. Es defineixen dues variables aleatòries X i Y. La variable X és la suma dels 3
bits i la variable Y és el número d’alternances en la seqüència de bits. Per tant, X ∈ {0,1,2,3} i Y
∈ {0,1,2}. A partir de la taula de la funció de probabilitat conjunta, indiqueu:
- ¿Són X i Y independents? Raoneu la resposta.
- Calculeu les esperances condicionales de X en funció dels valors de Y. Compareu amb
l’esperança de X
- Calculeu Cov(X,Y) (es pot usar l’expressió Cov(X,Y) = E(X*Y)-E(X)·E(Y)) i el coeficient
de correlació lineal ρX,Y.


X=0 X=1 X=2 X=3
Y=0 ... ... ... ... 1.00
Y=1 ... ... ... ... 1.00
Y=2 ... ... ... ... 1.00

E(X|Y=0) = ...
E(X|Y=1) = ...
E(X|Y=2) = ...



Funcions de distribució directes i inverses en models de probabilitat

Els següents problemes corresponen a situacions on s’hi escauen determinats models de
probabilitat. Per fer càlculs amb probabilitats acumulades tenim dues opcions:
- a les taules estadístiques podem trobar valors de les seves funcions de distribució.
- en Minitab, per a tota una sèrie de models, es pot calcular:
o la funció de distribució (probabilitat de valors iguals o inferiors al donat):
donat x calcular prob tq, prob = FX ( x ) = P( X ≤ x )
amb la comanda CDF (cumulated distribution function), al menú
Calc Probability Distributions ...
o la funció de distribució inversa
donat prob calcular x tq, x = FX−1 ( prob) ( P ( X ≤ x ) = prob )
amb la comanda INVCDF (invers distribution function), al menú
Calc Probability Distributions ...

p p
Problema 1: Problema 2:
donat x, donat p,
obtenir p obtenir x

x x

Calc -> Probability Distributions -> ... Calc -> Probability Distributions -> ...
• Cumulative probability • Inverse cumulative probability



Problema B. Caigudes d’un servidor (primera part)
Les caigudes d’un servidor en un centre de càlcul segueixen una distribució de Poisson amb
paràmetre λ=2 setmana-1 . Calculeu la probabilitat de:
1. Que no es produeixi cap avaria en una setmana.
2. Menys de 5 avaries en una setmana.
3. Menys de 6 avaries en un mes (4 setmanes)

Si considerem 10 centres de càlcul amb les característiques anteriors, quina és la probabilitat de
que hi hagi 8 centres amb menys de 5 avaries en una setmana?

Definir les següents variables

X=”nombre de caigudes (avaries) en una setmana”

X ~ ...

Y=”nombre d’avaries en un mes” = X+X+X+X

Y ~ ...

Q=”nombre de centres amb menys de 5 avaries en una setmana”

Q ~ ...

R=” nombre de centres amb 5 o més avaries en una setmana”

R ~ ...

Problema C. La distribució de la velocitat de transferir fitxers (primera part)
Baixar un mapa digitalitzat de Catalunya amb la previsió meteorològica d’un determinat servidor en
Internet al disc dur del vostre ordinador tarda cert temps que podem considerar com una variable aleatòria
X amb distribució exponencial amb una esperança de 10 segons.
¿Quina és la probabilitat de que una sola transferència del mapa trigui més de 12 segons?


X=“temps baixar mapa” X ~ Exp(λ= ... )
E(X) = ...
P ( X <= k ) = FX (k ) = 1 − e − λ ·k



Problema D. La distribució del resultat d’un “benchmark”
Suposem que el resultat obtingut per un ordinador de determinada marca i determinada configuració en
una prova “benchmark” segueix una distribució normal amb mitjana 30 i desviació típica 7.
1. ¿Quina és la probabilitat d’obtenir un resultat superior a 30?
2. ¿Quina és la probabilitat d’obtenir un resultat inferior a 23?
3. ¿Quina és la probabilitat d’obtenir un resultat entre 16 i 44?
4. ¿Quina és la probabilitat d’obtenir un resultat entre 20 i 35? Calcular el resultat amb 4 decimals usant
les taules de la distribució normal, i també amb més exactitut (6 decimals) amb Minitab.


X=“resultat en prova benchmark”

X ~ N ( µ = ... , σ = ... )
E(X) = ...
V(X) = ...


Laboratoris 1

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Laboratoris 1

Semelhante a Laboratoris 1 (20)

Laboratoris 1