SlideShare uma empresa Scribd logo
1 de 87
Analiza danych
(konwersatorium)
dr hab. Radosław Mącik, prof. UMCS
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
O mnie…
2
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zainteresowania zawodowe
 Zachowania konsumentów,
szczególnie w zakresie wpływu ICT na
nie,
 Badania marketingowe – ilościowe i
jakościowe, badania internetowe
 Analiza danych ilościowych i
jakościowych – psychometria i
ekonometria
 E-commerce, e-marketing
 Logistyka miejska i aglomeracyjna
3
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Projekty badawcze i doradcze – ciekawsze
4
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Moje oczekiwania
 Zaangażowanie i pasja:
 Nienawidzę: kombinatorstwa, zachowań nieetycznych i
braku szczerości.
5
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Kontakt
 Konsultacje:
– środa, 9.30-11.00, p. 506
 Dyżur:
– czwartek, 9.30-12:00, p. 506 lub 301
(za wyjątkiem dni obrad Rady Wydziału)
 E-mail:
– radoslaw.macik@umcs.lublin.pl  ogólny do kontaktu
– rmacik@hektor.umcs.lublin.pl  do przesyłania ćwiczeń
temat maila stacjonarne: [AD], niestacjonarne [AD_NS]
 Informacje:
– http://radoslawmacik.wordpress.com
6
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Profil osobowy, „stara strona”, blog dydaktyczny
7
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zaliczenie przedmiotu
 Udział w badaniach prowadzącego:
– 2-3 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
 Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
 Zaliczenie praktyczne:
– w środku semestru i na koniec – na komputerze
– więcej szczegółów w swoim czasie
8
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zaliczenie przedmiotu – st. niestacjonarne
 Udział w badaniach prowadzącego:
– Max. 2 razy w ciągu semestru, udział osobisty lub
rekrutacja właściwego uczestnika
 Zadania/case study
– Nieobecności nie upoważniają do nie wykonywania
ćwiczeń
– 3-cia nieobecność powoduje skreślenie z listy
 Zaliczenie praktyczne:
– na koniec semestru – na komputerze
– więcej szczegółów w swoim czasie
9
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Literatura
 Anna Malarska, STATYSTYCZNA ANALIZA
DANYCH WSPOMAGANA PROGRAMEM SPSS,
Predictive Solutions, Kraków 2010
 Jarosław Górniak, Janusz Wachnicki,
PIERWSZE KROKI W ANALIZIE DANYCH,
Predictive Solutions, Kraków 2011
 ANALIZA DANYCH ZASTANYCH PRZEWODNIK
DLA STUDENTÓW, red. nauk. Marta
Makowska, Wyd. SCHOLAR, Warszawa 2013
 Piotr Francuz, Rafał Mackiewicz, LICZBY NIE
WIEDZĄ, SKĄD POCHODZĄ. PRZEWODNIK PO
METODOLOGII I STATYSTYCE NIE TYLKO DLA
PSYCHOLOGÓW, Wyd. KUL, Lublin 2007
 Screencasty i webcasty – do znalezienia np.
na YouTube itd.
slajd 10

Wprowadzenie
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Zbieramy dane do analizy…
 Proszę wypełnić samodzielnie kwestionariusz
pod adresem:
https://www.surveymonkey.com
/r/esurvey_perception
slajd 12
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dane  …
slajd 13
Mądrość
Wiedza
Informacja
Dane
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dane, informacja, wiedza - zależności
slajd 14
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Czym jest analiza danych?
 Analiza danych jest procesem kontroli,
czyszczenia, transformacji i modelowania danych
w celu uzyskania z nich użytecznych informacji,
zasugerowania wniosków i wsparcia
podejmowania decyzji.
 Analiza danych ma wiele aspektów i podejść
obejmujących różne techniki analityczne
(występujące często pod różnymi nazwami) w
różnych dziedzinach – biznesie, naukach
przyrodniczych, czy też społecznych.
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Skalowanie wielowymiarowe
Stress = 0,098
R2 = 0,946
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Model ścieżkowy
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Alternatywne modele
– co jest artefaktem, a co jest rzeczywistością ?
18
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
SPSS
 Dzisiaj to rodzina IBM SPSS Statistics + AMOS
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 1
 Przygotowanie pliku danych i wprowadzanie danych –
bezpośrednio do SPSS
– Najpierw ćwiczymy samodzielnie
 Import danych z pliku Excela
– http://marketing.umcs.lublin.pl/rmacik/dane.xls
– Na co uważać?
– Sprawdzamy: http://marketing.umcs.lublin.pl/rmacik/dane.sav
 Plik „kompletny”:
http://marketing.umcs.lublin.pl/rmacik/dane2.sav
a
Rozkład normalny
i rozkłady od niego odbiegające
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkład normalny
 To jeden z najważniejszych
rozkładów prawdopodobieństwa,
jego potwierdzenie upoważnia do
stosowania wielu metod i testów
statystycznych nazywanych
parametrycznymi. Wykres funkcji
prawdopodobieństwa tego
rozkładu jest krzywą w kształcie
dzwonu (krzywa normalna)
 Wiele zjawisk w naturze posiada
rozkład zbliżony do normalnego.
 Rozkład normalny to rozkład
ciągły, w praktyce wiele
rozkładów ma charakter
dyskretny (nieciągły) co utrudnia
uznanie za rozkład normalny.
22
Gęstość
prawdopodobieństwa
Dystybuanta
(skumulowane
prawdopodobieństwo)
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Reguła trzech sigm
 Istnieje nieskończenie wiele rozkładów normalnych.
 We wszystkich rozkładach normalnych funkcja gęstości jest
symetryczna względem wartości średniej rozkładu.
 Około 68,3% pola pod wykresem krzywej znajduje się w odległości
jednego odchylenia standardowego od średniej, około 95,5% w
odległości dwóch odchyleń standardowych i około 99,7% w
odległości trzech (reguła trzech sigm).
 Punkt przegięcia krzywej znajduje się
w odległości jednego odchylenia
standardowego od średniej.
23
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Parametry rozkładu
 Wartość oczekiwana – wartość określająca spodziewany wynik
doświadczenia losowego. Estymatorem wartości oczekiwanej rozkładu
cechy w populacji jest średnia arytmetyczna.
 Mediana (drugi kwartyl) – wartość cechy w szeregu uporządkowanym,
powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Odporna
na wartości odstające.
 Wariancja - miara zmienności, jest średnią arytmetyczną kwadratów
odchyleń poszczególnych wartości cechy od wartości oczekiwanej
 Odchylenie standardowe – miara zmienności - jest pierwiastkiem
kwadratowym z wariancji. Im mniejsze odchylenie tym obserwacje są
bardziej skupione wokół średniej.
 Skośność rozkładu odnosi się do jego asymetrii
 Kurtoza
24
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Skośność
 Współczynnik skośności
przyjmuje wartości:
– zero dla rozkładu symetrycznego,
– wartości ujemne dla lewostronnej
asymetrii (wydłużone lewe ramię
rozkładu)
– wartości dodatnie dla prawostronnej
asymetrii (wydłużone prawe ramię
rozkładu).
 Jeśli rozkład ma „lewy ogon dłuższy" to nazywamy go lewostronnie skośnym,
ujemnie skośnym, lewostronnie asymetrycznym. Rozkład taki ma wartość
oczekiwaną (średnią) mniejszą od mediany. Sprawdza się relacja: Dominanta >
Mediana > Średnia
 Jeśli rozkład ma "prawy ogon dłuższy" to nazywamy go prawostronnie
skośnym, dodatnio skośnym, prawostronnie asymetrycznym. Rozkład taki ma
wartość oczekiwaną (średnią) większą od mediany. Sprawdza się relacja:
Dominanta < Mediana < Średnia
25
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Kurtoza
 Kurtoza to miara zagęszczenia (koncentracji) wyników wokół wartości
centralnej. To druga obok skośności miara kształtu rozkładu.
– Kurtoza w rozkładzie normalnym przyjmuje wartość „0”.
– Kurtoza większa od zera oznacza rozkład leptokurtycznym (wysmukły).
– Kurtoza mniejsza od zera oznacza rozkład platokurtyczny (spłaszczony).
26
K < 0  platokurtyczny
K > 0  leptokurtyczny
K = 0  mezokurtyczny
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkłady dyskretne, w tym mniej typowe
 Co można powiedzieć o ich normalności?
27
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Sprawdzenie normalności rozkładu
 Hipotezy:
– H0: Rozkład jest normalny
(o empirycznie ustalonej średniej i odchyleniu standardowym)
– H1: Rozkład odbiega od normalnego
 Typowe testy:
– Shapiro-Wilka (oryginalnie dla prób 3-50 obserwacji,
współcześnie do 5000 obserwacji, test mocny)
– Kołmogorowa-Smirnowa (może też służyć do innych
celów)
 H0 odrzucamy na rzecz H1 jeśli p0,05
28
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 2
 Sprawdzanie rozkładów
– Plik: http://marketing.umcs.lublin.pl/rmacik/rozkl.sav
– Zazwyczaj pożądany jest rozkład normalny lub
jednostajny (zm. grupujące)
 Analizy tabelaryczne
– Plik: http://marketing.umcs.lublin.pl/rmacik/dane2.sav
– Tabele liczebności
– Tabele krzyżowe – niezależność zmiennych – test χ2
(chi-kwadrat)
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozkład zbliżony do normalnego
 Czasem, szczególnie dla zmiennych o dużej dyskretyzacji
rozkładu trudno potwierdzić jego normalność, pomimo że
wygląda na „normalny” ;)
 Za pomocą histogramu i wykresu QQ (kwartyl-kwartyl)
można wtedy zdecydować o traktowaniu rozkładu jako
zbliżonego do normalnego, pomimo wartości testów
normalności wskazujących na odrzucenie hipotezy co do
normalności rozkładu (oczywiście przy
prawdopodobieństwie zwykle większym niż 0,000!)
 Robimy to jednak na własne ryzyko
30
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Normalność a wykresy QQ
 Rozkład normalny Rozkład odbiegający od normalnego
31
Shapiro-Wilk Test
PERF_D
W 0,981273
p-value 0,050467
alpha 0,05
normal yes
-3
-2
-1
0
1
2
3
0 1 2 3 4 5
StdNormal
Data
QQ Plot
Shapiro-Wilk Test
PERF_CM
W 0,944177
p-value 0,000019
alpha 0,05
normal no
-3
-2
-1
0
1
2
3
4
0 1 2 3 4 5
StdNormal
Data
QQ Plot
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Histogramy o różnych wartościach „koszyka”
 Bin=0,25 bin=0,5 bin=1
 Rozmiar „koszyka” wyrażony jest w jednostkach skali
pomiaru zmiennej
32
0
5
10
15
20
25
30
35
1.08
1.33
1.58
1.83
2.08
2.33
2.58
2.83
3.08
3.33
3.58
3.83
4.08
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
1.33
1.83
2.33
2.83
3.33
3.83
4.33
Frequency
Bin
Histogram
0
10
20
30
40
50
60
70
80
1.33
2.33
3.33
4.33
Frequency
Bin
Histogram
b
Obserwacje odstające
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające (outliers)
 Obserwacja odstająca (outlier) – obserwacja posiadająca nietypową
wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości
obydwu zmiennych – zależnej (objaśnianej) i objaśniającej, co oznacza,
że związek między Xi a Yi dla danej obserwacji jest inny niż dla reszty
obserwacji w zbiorze danych.
 Obserwacje odstające są na ogół spowodowane błędami w danych, na
skutek błędów pomiaru, pomyłek w kodowaniu itp. Duża liczba
elementów odstających może też być sygnałem dobrania złego modelu.
 Obserwacje odstające utrudniają a nawet uniemożliwiają analizę. Mało
odporne na nie są metody bazujące na założeniu rozkładu normalnego i
zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa
 Konieczne jest więc albo usuwanie obserwacji odstających, albo
stosowanie odpornych metod statystycznych np. metod rangowych (np.
korelacji rang Spearmana albo tau Kendalla).
34
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wykrywanie obserwacji odstających (1)
 Wizualnie na wykresie, głównie dla szeregów czasowych – niedokładne
 W oparciu kryterium kwartylowe (metoda Tukeya):
– oblicza się pierwszy (𝑄1) i trzeci kwartyl (𝑄3) oraz rozstęp
międzykwartylowy 𝐼𝑄𝑅 = 𝑄3 – 𝑄1 (interquartile range IQR).
– obserwacje podejrzane za odstające to te, których wartości wykraczają poza
przedział 𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅
– obserwacje ekstremalnie odstające to te, których wartości wykraczają poza
przedział 𝑄1– 3𝐼𝑄𝑅, 𝑄3 + 3𝐼𝑄𝑅
 W oparciu o odchylenie standardowe:
– dane standaryzuje się do rozkładu normalnego o średniej 𝑀 = 0 i odchyleniu
standardowym 𝑆𝐷 = 1, tj. 𝑁 0,1
– obserwacje odstające to te które wykraczają poza przedział −2,5𝑆𝐷, +2,5𝑆𝐷
 Test Grubbsa  http://www.statystycy.pl/t4873_test_grubbsa.php
 Wg odległości (np. euklidesowych) między danymi - wielowymiarowe
35
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające w szeregu czasowym
36
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 3
 Sprawdzanie poprawności danych
 Plik: http://marketing.umcs.lublin.pl/rmacik/dane-2zaj.sav
 Co sprawdzamy:
– Obecność wartości spoza zakresu:
• Potencjalne błędy kodowania – jak wykryć, kiedy i jak korygować?
• Nie zdefiniowane wartości zmiennej
– Obserwacje odstające:
• Co to takiego i w czym przeszkadzają?
• Jak zidentyfikować?
• Co z nimi robić?
– Rozkład zmiennej
• Zazwyczaj pożądany jest rozkład normalny lub jednostajny (zm. grupujące)
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda kwartylowa i test Grubbsa
 Plik P1.xlsx
 Główna seria danych to liczba użytkowanych samochodów
dostawczych w badanej firmie
 Sprawdzamy czy są obserwacje odstające metodą kwartylową:
– Obliczamy kwartyle: Q1 i Q3 oraz rozstęp międzykwartylowy IQR
=KWARTYL(zakres,nr_kwartyla)
– Obliczamy granice przedziałów dla obserwacji odstających i ekstremalnych –
oddzielnie dolną i górną
– Formułujemy warunek przynależności do przedziałów względem granic
 Test Grubbsa (jeżeli mamy narzędzia by go obliczyć):
– Z dodatku Real Statistics wybieramy opcję Descriptive Statistics and Normality
– Zaznaczamy w oknie dialogowym test Grubbsa, wpisujemy testowaną liczbę
obserwacji odstających, np. 6, 8 itd.
38
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda kwartylowa - rozwiązanie
39
Q1 1
Q3 3
IQR 2
odst_dół -2
odst_góra 6
ekstr_dół -5
ekstr_góra 9
Q1 =KWARTYL(B2:B82;1)
Q3 =KWARTYL(B2:B82;3)
IQR =I2-I1
odst_dół =I1-1,5*I3
odst_góra =I2+1,5*I3
ekstr_dół =I1-3*I3
ekstr_góra =I2+3*I3
odstająca ekstremalna
=JEŻELI(LUB(B2<$I$5;B2>$I$6);"tak";"nie") =JEŻELI(LUB(B2<$I$7;B2>$I$8);"tak";"nie")
Nr respondentaile pojazdówDominująca marka odstająca ekstremalna
297 20 lublin tak tak
298 4 LUBLIN,HONKER nie nie
299 3 Lublinek nie nie
300 1 Lublin nie nie
303 2 Citroen nie nie
305 4 Lublin nie nie
316 2 lublin nie nie
318 3 Ford Transit nie nie
319 5 HONKER nie nie
321 2 renault nie nie
324 3 Mercedes nie nie
325 200 żuk lublin tak tak
326 2 Lublin nie nie
Formuły
Wyniki
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obserwacje odstające w dwu wymiarach
 Trudniej wykrywalne, czasem łatwiej zauważyć wizualnie
niż wykryć analitycznie
40
Liniami przerywanymi
zaznaczono granice
przedziałów
⟨𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅⟩
dla obu zmiennych
Obserwacja
odstająca
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 4
 Tabele krzyżowe
– Co mówi test niezależności?
– Kiedy wolno posługiwać się korelacjami?
– Plik danych:
http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
 Ćwiczenie samodzielne do wysłania na maila:
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/ai.sav
– Analiza jak preferencje udziału w ankietach internetowych zależą
od wybranych zmiennych grupujących  Pytanie q0003
względem pytań q0014 i q0017 (łącznie z wiekiem – zmienna
wieku kodowana do wybranej liczby grup – procedura RECODE)
41
a
Wprowadzenie
do weryfikacji hipotez
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Weryfikacja hipotez statystycznych
 Weryfikacja hipotez statystycznych to sprawdzanie sądów o
populacji przez badanie jej wycinka (próby).
 Stąd, w większości przypadków, nie ma sensu testowanie hipotez
statystycznych w badaniach wyczerpujących.
 Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu
populacji generalnej (jego postaci funkcyjnej lub wartości
parametrów).
 Testem statystycznym nazywamy regułę postępowania, która każdej
możliwej próbie przyporządkowuje decyzję odrzucenia hipotezy lub
braku podstaw do jej odrzucenia.
43
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Hipotezy badawcze a hipotezy statystyczne
 Nie można ich ze sobą utożsamiać!
 Hipoteza badawcza jest przypuszczalną odpowiedzią na pytanie
badawcze.
 Weryfikacja hipotezy badawczej (np. w badaniach jakościowych)
może być opisowa.
 Hipoteza badawcza zwykle ma postać hipotezy alternatywnej
(zakłada np. istnienie różnic między grupami, niezerową wartość
średniej).
 Hipotezę badawczą można weryfikować za pomocą co najmniej
jednej hipotezy statystycznej, weryfikując hipotezę zerową (a więc o
braku różnic między grupami, zerowej wartości średniej itd.), i ją
odrzucając, bądź stwierdzając brak podstaw do tego.
44
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Warunki stosowalności testów
 Stosowanie większości testów statystycznych wymaga spełnienia
wielu założeń, czasem nawet mało realistycznych w prawdziwych
badaniach. Naruszenie założeń skutkuje wynikami, które wprowadzają
w błąd, a w skrajnym przypadku są zupełnie nieodpowiednie
 Typowe założenia co do danych to:
– Normalność – dane powinny mieć rozkład normalny lub zbliżony do
normalnego (bez silnej asymetrii)
– Jednorodność wariancji w grupach – równa wariancja we wszystkich
analizowanych grupach, dla wielu testów istnieją warianty dla grup
niespełniających tego założenia, ale ich moc jest mniejsza
– Liniowość – liniowe zależności między zmiennymi
– Niezależność – obserwacje powinny być niezależne od siebie (chyba że
testujemy dane zależne – schemat!)
 Minimalna liczebność każdej grupy – ok. 16-20 obserwacji, rzadko mniej
45
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Błędy I-go i II-go rodzaju
Hipoteza zerowa
Prawdziwa
Brak podstaw do
odrzucenia H0
Odrzucono H0,
błędnie
przyjmując H1 
błąd I rodzaju
Fałszywa
Błędnie uznano,
że brak podstaw
do odrzucenia H0
 błąd II rodzaju
Odrzucono H0,
przyjmując H1
46
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowa procedura weryfikacji hipotez stat.
 Sformułowanie hipotezy zerowej i alternatywnej
 Wybór statystyki testowej
 Określenie poziomu istotności α
 Wyznaczenie obszaru krytycznego testu
 Obliczenie statystyki na podstawie próby
 Podjęcie decyzji weryfikacyjnej
47
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowa interpretacja wyników testów
 Narzędzia obliczeniowe i pakiety statystyczne podają poziom
prawdopodobieństwa P-value (krytyczny poziom istotności;
prawdopodobieństwo testowe).
 Jest to najmniejszy poziom istotności przy którym dla
zaobserwowanej wartości statystyki testowej odrzucilibyśmy
hipotezę zerową.
 Hipotezę zerową odrzucamy, gdy wyliczone prawdopodobieństwo
testowe (𝑝) okaże się nie większe od przyjętego przez nas poziomu
istotności (zwykle 0,05)  𝑝 ≤ 𝑃𝑣𝑎𝑙𝑢𝑒
 Posługiwanie się unormowaną wielkością, w przeciwieństwie do
różnorodnych statystyk testowych (Z, F, t, itd.) pozwala bezpośrednio
ocenić wynik weryfikacji hipotezy poprzez proste porównanie
wartości 𝑝 z poziomem istotności, np. 0,05; 0,1 czy też 0,001
48
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Testy jednostronne i dwustronne
 Test dwustronny:
𝐻 𝑜: 𝜃 = 𝜃0
𝐻 𝑜: 𝜃 ≠ 𝜃0
 Test lewostronny:
𝐻 𝑜: 𝜃 ≥ 𝜃0
𝐻 𝑜: 𝜃 < 𝜃0
 Test prawostronny:
𝐻 𝑜: 𝜃 ≤ 𝜃0
𝐻 𝑜: 𝜃 > 𝜃0
49
Obszarykrytyczne
b
Główne testy istotności
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Schemat wyboru testu
Sytuacja
Cel testowania
Testy
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
Różne
poziomy
pomiaru
Porównania
między-
grupowe
Grupy
niezależne
Grupy
zależne
51
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Schemat wyboru testu – testowanie związku
Typ testu
Poziom pomiaru
Sytuacja
Cel testowania
Związek
między
zmiennymi
Ten sam
poziom
pomiaru
nominalny
Chi-kwadrat
niezależności
porządkowy
Rho Spearmana,
Tau Kendalla
ilościowy
r Pearsona
Różne
poziomy
pomiaru
nominalny x
porządkowy
Gdy mało grup:
chi-kwadrat,
porównania
międzygrupowe
nominalny x
ilościowy
Porównania
międzygrupowe
porządkowy
x ilościowy
Rho Spearmana,
Tau Kendalla
52
W większości  dzień 2  współzmienność
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównania międzygrupowe – grupy niezależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
niezależne
2 grupy
Nomi-
nalny
Chi-
kwadrat
Porząd-
kowy
U
Manna-
Whitneya
Ilościo-
wy
Odbiegający
od
normalnego
U
Manna-
Whitneya
Normalny
lub
zbliżony
t dla prób
niezależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Chi-
kwadrat,
Porząd-
kowy
H
Kruskala
-Wallisa
Ilościo-
wy
Odbiegający
od
normalnego
H
Kruskala
-Wallisa
Normalny
lub
zbliżony
F
ANOVA
53
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównania międzygrupowe – grupy zależne
Typ testu
Rozkład
Poziom pomiaru
Liczba grup
Cel testowania
Grupy
zależne
2 grupy
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
rango-
wanych
znaków
Ilościo-
wy
Odbiegający
od
normalnego
Test
rango-
wanych
znaków
Normalny
lub
zbliżony
t dla prób
zależ-
nych
3 lub
więcej
grup
Nomi-
nalny
Q
Cochrana
Porząd-
kowy
Test
Friedma-
na
Ilościo-
wy
Odbiegający
od
normalnego
Test
Friedma-
na
Normalny
lub
zbliżony
Powta-
rzane
pomiary
ANOVA
54
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porównanie
3+ grup
niezależnych
55
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Ćwiczenie 5
 Porównania 2 grup
– Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav
– 2 grupy niezależne i 2 grupy zależne – testy parametryczne i
nieparametryczne  schemat!
 Ćwiczenie samodzielne do wysłania na maila:
– Plik danych j.w.
– Analiza porównania częstości dokonywania zakupów w różnych
formatów sklepów (itemy P2) względem płci (grupy niezależne)
– Analiza porównania częstości dokonywania zakupów w różnych
formatach sklepów względem siebie u tych samych osób (grupy
zależne)
– Wybieramy po 4 dowolne itemy z P2
56
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Testy - ćwiczenia
 Plik http://marketing.umcs.Lublin.pl/rmacik/dane2_v3.sav
 Sprawdzamy losowość i normalność rozkładu  wyciągamy wnioski
 Przygotowujemy roboczy arkusz ze zmiennymi według grup
 Zaczynamy od porównań międzygrupowych
– Porównajmy różnice w częstości kupowania w różnych formatach
sklepów wg płci respondenta (jakie testy?)
– J.w. ale według kategorii miejsca zamieszkania – uwaga na liczebność
grup! (jakie testy)
– Czy częstość kupowania w jednym formacie sklepu wiąże się z
częstością kupowania w innym formacie (dla tych samych osób) – jakie
testy
– Czy można porównać testami dla prób zależnych częstość kupowania w
określonym formacie sklepów z jego lubieniem? (dlaczego tak/nie???)
57
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Test serii
 Test serii (test serii Walda-Wolfowitza) to nieparametryczny test
losowości próby.
 Hipotezę zerową i alternatywną formułujemy w sposób następujący:
– H0: dobór jednostek do próby jest losowy.
– H1: dobór jednostek do próby nie jest losowy.
 Seria to każdy ciąg identycznych elementów w zbiorze
uporządkowanym według przyjętego kryterium
– Np. ciąg danych wg płci ma 8 serii: M M Ż Ż M Ż Ż Ż M M Ż M Ż Ż Ż.
– Dane ilościowe należy zdychotomizować w oparciu o medianę.
 Ogólna liczba serii w ciągu n-elementowym jest zmienną losową K o
znanym i ujętym w tablice rozkładzie.
– Zliczoną w próbie liczbę serii 𝑘 porównujemy z wartościami krytycznymi testu.
– Jeżeli i 𝑘 ≤ 𝑘1 lub 𝑘 ≥ 𝑘2, odrzucamy H0 na rzecz H1  próba nie jest losowa
58

Wielowymiarowe
metody analizy danych
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Główne cele stosowania metod
wielowymiarowych
 Redukcja liczby wymiarów
– Dla 2-3 wymiarów możliwa interpretacja graficzna
 Odkrycie ukrytych struktur
– Określenie (nie)podobieństwa zmiennych lub
obiektów
– Wskazanie naturalnych skupień obiektów
60
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rzetelność i trafność pomiaru
 Rzetelność -
powtórzenie
pomiaru w tych
samych
warunkach daje
ten sam rezultat
 Trafność -
instrument mierzy
tę cechę, którą
chcemy zmierzyć
 Wysoka rzetelność
= mały błąd
przypadkowy
 Wysoka trafność =
mały błąd
systematyczny
61
Pomiar
mało
trafny
i mało
rzetelny
Pomiar
trafny
ale mało
rzetelny
Pomiar
mało
trafny
ale
rzetelny
Pomiar
trafny
rzetelny
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Praktyka ustalania trafności i rzetelności
 Ustalenie trafności czynnikowej  EFA
 Określenie rzetelności dla każdego czynnika 
 Cronbacha lub CR
 Modyfikacje na podstawie analizy pozycji i
sugestii z EFA
 Potwierdzenie istnienia wymiarów 
Konfirmacyjna analiza czynnikowa (CFA)
62
a
Eksploracyjne
analizy czynnikowe
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Analizy czynnikowe
 Jedna z metod redukcji wymiarów – celem analizy czynnikowej jest
zredukowanie dużej liczby zmiennych do mniejszego zbioru, co
uzyskujemy przez założenie, że pewne grupy zmiennych reprezentują
zmienność tych samych czynników.
 Główne zastosowania to odnajdywanie ukrytych wymiarów lub struktur
w zbiorze zmiennych.
 Dwa podejścia:
– eksploracyjna analiza czynnikowa (EFA - Exploratory Factor Analysis) - czynniki
są początkowo nieznane i zostają wyodrębnione dzięki analizie posiadanych
danych, to podejście jest bardziej rozpowszechnione,
– konfirmacyjna analiza czynnikowa (CFA - Confirmatory Factor Analysis) -
zakładamy istnienie pewnego określonego zbioru czynników i
przyporządkowania zmiennych do tych czynników - badamy zasadność naszego
przypuszczenia poprzez modelowanie równań strukturalnych  np. w AMOS
64
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Eksploracyjne analizy czynnikowe - procedura
 Sprawdzenie własności macierzy korelacji
– miara KMO > 0,7;
– test sferyczności Bartletta – p<0,05 (odrzucamy H0 że macierz
współczynników korelacji jest macierzą jednostkową, co oznacza, że nie ma
istotnych korelacji między zmiennymi; odrzucenie H0 jest potwierdzeniem, że
analiza przyniesie sensowny rezultat.
 Wybór metody wyodrębniania czynników – typowo: PCA – analiza
głównych składowych i rotacji czynników – zwykle Varimax (czynniki
ortogonalne) lub Oblimin (czynniki ukośne)
 Kryteria wyboru liczby czynników:
– Skumulowany procent wariancji – czynniki mają wyjaśnić > 60% wariancji
– Wartość własna czynnika > 1 (Kryterium Kaisera) – czynnik ma zastąpić więcej
niż jedną zmienną wejściową (czasem po rotacji)
– Test osypiska (kryterium Cattella) – wybrać tyle czynników ile nie leży w
osypisku
65
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wykres osypiska
66
Osypisko się wypłaszcza
przy 3-4 czynnikach
Ponieważ wartość własna
4 czynnika (bez rotacji)
jest bliska 1,
prawdopodobnie 4
czynniki są lepszym
wyborem
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
EFA – procedura (2)
 Dla wybranej liczby czynników analizujemy macierz
rotowanych składowych
 Zmienne z ładunkami czynnikowymi >0,7 pasują dobrze
do danej składowej, między 0,58 a 0,7 słabiej, ale jeśli nie
ma ładunków krzyżowych (podobnej wartości ładunków
w różnych składowych) można je zaliczyć do danej
składowej.
 Nazywamy wyodrębnione składowe – trudność nazwania
– trudność interpretacji czynnika
67
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
EFA – przykładowe wyniki
 Macierz danych - OK
 2 czynniki, wybór na
podstawie testu
osypiska, wyjaśniają
prawie 81% wariancji
 Przyporządkowanie
zmiennych do
składowych
zaznaczono
68
Uwaga:
Ładunek
krzyżowy,
jeszcze nie
przeszkadza
bardzo, ale
jest
b
Rzetelność skali
i analiza pozycji
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Obliczenie rzetelności skali
 Sposób:
– Dawniej: Test – retest lub metoda połówkowa
– Dzisiaj: Poprzez zgodność wewnętrzną: współczynnik  Cronbacha
lub wzór KR-20, lepiej też użyć współczynnika CR (Composite
Reliability – tzw. rzetelność łączna)
 Pożądana wartość współczynników  i CR to:
0,7<<0,95
 >0,95 sugeruje współliniowość pozycji skali – pytamy
respondentów „w kółko” o to samo – zazwyczaj niepotrzebnie
 Dla skali krótkiej - o 2-3 stwierdzeniach dopuszcza się >0,6
 Wykonaj analizę pozycji – być może trzeba jeszcze coś
poprawić, usunąć, dodać – to jest już podejście empiryczne!
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rzetelność i analiza pozycji - przykład
71
Chętnie
zmieniam
marki, które
kupuję
c
Analizy skupień
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Analiza skupień - klasteryzacja
 Analiza skupień (cluster analysis) - jest to metoda
grupowania elementów we względnie jednorodne klasy.
 Podstawą grupowania w większości algorytmów jest
podobieństwo/niepodobieństwo pomiędzy elementami –
wyrażone przy pomocy funkcji (metryki) podobieństwa –
zwykle określonej miary odległości między elementami
grupowanego zbioru
 Jest to metoda eksploracyjna, generalnie służąca
klasyfikacji, odkrywaniu nieznanej struktury
analizowanych danych (która „ukrywa” się w wielu
wymiarach
73
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Typowe miary odległości
 Euklidesowa 𝑑 𝑒 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
2
tutaj: 𝑑 𝑒 = 5 − 1 2 + 4 − 1 2 = 16 + 9 = 5
 Kwadrat odległości euklidesowej 𝑑 𝑒2 = 𝑑 𝑒
2
tu: 𝑑 𝑒2 = 52 = 25
 Miejska (Manhattan) 𝑑 𝑚 = 𝑖=1
𝑘
𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑚 = 4 + 3 = 7
 Czebyszewa 𝑑 𝑐 = 𝑚𝑎𝑥 𝑏𝑖 − 𝑎𝑖
tu: 𝑑 𝑐 = 4
 Użycie odległości euklidesowej przy wielu wymiarach „spłaszcza”
różnice, jej kwadratu lub odległości miejskiej – uwypukla,
 dla odległości Czebyszewa znaczenie ma tylko jeden wymiar z
największą różnicą, inne są pomijane.
74
0
1
2
3
4
5
0 1 2 3 4 5 6
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Odległość euklidesowa a miejska
75
Ile wynosi odległość euklidesowa,
a ile miejska w tym przypadku?
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Algorytmy skupiania
 metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię
klasyfikacji, istnieją dwa rodzaje metod hierarchicznych:
– procedury aglomeracyjne (ang. agglomerative) – tworzą macierz podobieństw
klasyfikowanych obiektów, a następnie w kolejnych krokach łączą w skupienia
obiekty najbardziej do siebie podobne,
– procedury deglomeracyjne (ang. divisive) – odwrotnie, tj. zaczynają od skupienia
obejmującego wszystkie obiekty, a następnie w kolejnych krokach dzielą je na
mniejsze grupy.
 metoda k-średnich (ang. k-means) - grupowanie polega na wstępnym
podzieleniu populacji na z góry założoną liczbę klas. Następnie uzyskany
podział jest poprawiany przez iteracyjne przenoszenie niektórych elementów
do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz skupień.
 metody rozmytej analizy skupień (ang. fuzzy clustering), wśród których
najbardziej znaną jest metoda c-średnich (c-means). Metody rozmytej analizy
skupień mogą przydzielać element do więcej niż jednej kategorii z określonym
prawdopodobieństwem.
76
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metody hierarchiczne
 Skupiamy:
– Zmienne – redukcja wymiarów
– Obserwacje – segmentacja, poszukiwanie ukrytych struktur
 Typowe algorytmy skupiania:
– Średniej odległości między skupieniami – maksymalizuje ją
– Warda – minimalizuje wariancję wewnątrz skupienia
 Wizualny efekt – dendrogram
 Przykłady:
– Zmienne –
http://marketing.umcs.lublin.pl/rmacik/a6_sklepy.sav
– Obserwacje -
http://marketing.umcs.lublin.pl/rmacik/a6_powiaty.sav
77
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według
wskaźników
charakteryzujących
aktywność
zawodową, poziom
zatrudnienia i
bezrobocie (łącznie
13 zmiennych – po
odrzuceniu
zmiennych wysoko
ze sobą
skorelowanych
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
78
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw
Według udziałów
sektorów
gospodarczych
w zatrudnieniu
(łącznie 5
zmiennych)
Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS.
79
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Dendrogram: podobieństwo formatów sklepów
 Skupiane zmienne,
 Odległość euklidesowa
 Wiązanie Warda
80
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Porady
 Jak dobrać zmienne?
– Unikamy bardzo wysokich dodatnich korelacji – współliniowość
jest niepożądana
 Co jeśli wartości zmiennych mają różne rzędy wielkości?
– Standaryzujemy dane
 Ile wybrać skupień?
– Szukamy rozwiązania stabilnego – kiedy przez dłuższy czas „nic
się nie dzieje”
 Trudności w interpretacji?
– Zmieniamy miarę odległości i/lub algorytm skupiania – wolno
nam, bo analiza skupień jest metodą eksploracyjną
81
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Metoda k-średnich (Quick Cluster)
 Grupowanie po wstępnym podzieleniu populacji na z góry
założoną liczbę klas iteracyjnie jest poprawiane tak, by
uzyskać minimalną wariancję wewnątrz klas.
 Podstawowy algorytm:
– losowy wybór środków (centroidów) klas (skupień),
– przypisanie punktów do najbliższych centroidów,
– wyliczenie nowych środków skupień,
– powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności (do
kroku, w którym nie zmieniła się przynależność punktów do klas).
 Nadaje się do klasyfikacji nowych obiektów do istniejących klas
 Tabela ANOVA jako wskaźnik efektywności grupowania
82
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Rozrzut w 3 wymiarach
83
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Wyniki k-średnich
84
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Segmentacja za pomocą analizy skupień
 Hierarchiczna analiza – przegląd dendrogramu –
wybór orientacyjnej liczby skupień
 Lub: powtórzenie analizy za pomocą k-średnich
dla wybranej liczby skupień (przy dodawaniu nowych
obiektów do istniejących skupień tylko klasyfikacja po wczytaniu z
pliku centrów skupień)
 Profilowanie skupień/segmentów [wykres
profilowy]
85
Analiza danych - konwersatorium
e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik
Zarządzanie II st.
Profile segmentów
86
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
1
2
3
4
5
Dziękuję za uwagę :)
Kontakt:
radoslaw.macik@umcs.pl

Mais conteúdo relacionado

Mais procurados

Cashing in on analytics in the retail chain
Cashing in on analytics in the retail chain Cashing in on analytics in the retail chain
Cashing in on analytics in the retail chain Tridant
 
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...Karol Wolski
 
Дипломная работа Колдышевой Ирины Алексеевны
Дипломная работа Колдышевой Ирины АлексеевныДипломная работа Колдышевой Ирины Алексеевны
Дипломная работа Колдышевой Ирины АлексеевныИрина Колдышева
 
Badania rynku i konkurencji praktyczny poradnik
Badania rynku i konkurencji praktyczny poradnikBadania rynku i konkurencji praktyczny poradnik
Badania rynku i konkurencji praktyczny poradnikAsen Gyczew
 
Software architecture
Software architectureSoftware architecture
Software architectureFoyzul Karim
 
Badania marketingowe
Badania marketingoweBadania marketingowe
Badania marketingoweAdam Borodo
 
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...Karol Wolski
 
Prezentacja metody badań
Prezentacja   metody badańPrezentacja   metody badań
Prezentacja metody badańaniaa0891
 
Adoption of analytics in retail | Retail Analytics
Adoption of analytics in retail | Retail AnalyticsAdoption of analytics in retail | Retail Analytics
Adoption of analytics in retail | Retail AnalyticsAnkur Khandelwal
 

Mais procurados (11)

arIIIrZiM
arIIIrZiMarIIIrZiM
arIIIrZiM
 
Cashing in on analytics in the retail chain
Cashing in on analytics in the retail chain Cashing in on analytics in the retail chain
Cashing in on analytics in the retail chain
 
Purchasing merchandise
Purchasing merchandisePurchasing merchandise
Purchasing merchandise
 
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...
Metodologia badań psychologicznych - zajęcia 2 - operacjonalizacja zmiennych,...
 
Дипломная работа Колдышевой Ирины Алексеевны
Дипломная работа Колдышевой Ирины АлексеевныДипломная работа Колдышевой Ирины Алексеевны
Дипломная работа Колдышевой Ирины Алексеевны
 
Badania rynku i konkurencji praktyczny poradnik
Badania rynku i konkurencji praktyczny poradnikBadania rynku i konkurencji praktyczny poradnik
Badania rynku i konkurencji praktyczny poradnik
 
Software architecture
Software architectureSoftware architecture
Software architecture
 
Badania marketingowe
Badania marketingoweBadania marketingowe
Badania marketingowe
 
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
 
Prezentacja metody badań
Prezentacja   metody badańPrezentacja   metody badań
Prezentacja metody badań
 
Adoption of analytics in retail | Retail Analytics
Adoption of analytics in retail | Retail AnalyticsAdoption of analytics in retail | Retail Analytics
Adoption of analytics in retail | Retail Analytics
 

Mais de Radosław Mącik

Badania marketingowe II - wykład (2018)
Badania marketingowe II - wykład (2018)Badania marketingowe II - wykład (2018)
Badania marketingowe II - wykład (2018)Radosław Mącik
 
Materiały dydaktyczne z MBR TSL - zima 2017/18
Materiały dydaktyczne z MBR TSL - zima 2017/18Materiały dydaktyczne z MBR TSL - zima 2017/18
Materiały dydaktyczne z MBR TSL - zima 2017/18Radosław Mącik
 
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18Radosław Mącik
 
E-marketing i Social Media - wykład (wersja 2017)
E-marketing i Social Media - wykład (wersja 2017)E-marketing i Social Media - wykład (wersja 2017)
E-marketing i Social Media - wykład (wersja 2017)Radosław Mącik
 
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)Radosław Mącik
 
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)Radosław Mącik
 
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17Radosław Mącik
 
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenową
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenowąKonsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenową
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenowąRadosław Mącik
 
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumenta
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumentaOsobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumenta
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumentaRadosław Mącik
 
Short presentation from Social media training for scientists
Short presentation from Social media training for scientistsShort presentation from Social media training for scientists
Short presentation from Social media training for scientistsRadosław Mącik
 
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedaży
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedażyOdczuwana prywatność w wirtualnym i fizycznym kanale sprzedaży
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedażyRadosław Mącik
 
Użytkownicy o ankietach internetowych
Użytkownicy o ankietach internetowychUżytkownicy o ankietach internetowych
Użytkownicy o ankietach internetowychRadosław Mącik
 
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?E-handel a handel stacjonarny - konkurencyjność czy komplementarność?
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?Radosław Mącik
 

Mais de Radosław Mącik (20)

Badania marketingowe II - wykład (2018)
Badania marketingowe II - wykład (2018)Badania marketingowe II - wykład (2018)
Badania marketingowe II - wykład (2018)
 
Materiały dydaktyczne z MBR TSL - zima 2017/18
Materiały dydaktyczne z MBR TSL - zima 2017/18Materiały dydaktyczne z MBR TSL - zima 2017/18
Materiały dydaktyczne z MBR TSL - zima 2017/18
 
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18
Zachowania konsumentów (POW Ekonomia) - edycja zima 2017/18
 
E-marketing i Social Media - wykład (wersja 2017)
E-marketing i Social Media - wykład (wersja 2017)E-marketing i Social Media - wykład (wersja 2017)
E-marketing i Social Media - wykład (wersja 2017)
 
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)
Materiały z Zachowań konsumentów dla studentów FiR (wersja 2017)
 
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)
Materiały z Zachowań konsumentów - Ekonomia (zima 2016/17)
 
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17
Materiały z wykładu z Jakościowych badań marketingowych (JBM) - wersja 2016/17
 
Rm owe-listopad2016
Rm owe-listopad2016Rm owe-listopad2016
Rm owe-listopad2016
 
Rm lm-2016edit
Rm lm-2016editRm lm-2016edit
Rm lm-2016edit
 
Rm bm2-2016edit
Rm bm2-2016editRm bm2-2016edit
Rm bm2-2016edit
 
Rm zk-fi r-2016edit
Rm zk-fi r-2016editRm zk-fi r-2016edit
Rm zk-fi r-2016edit
 
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenową
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenowąKonsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenową
Konsument w świecie e-handlu. Quasi-eksperyment z porównywarką cenową
 
Jbm zagadnienia
Jbm zagadnieniaJbm zagadnienia
Jbm zagadnienia
 
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumenta
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumentaOsobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumenta
Osobista innowacyjność w dziedzinie IT a wirtualizacja zachowań konsumenta
 
Short presentation from Social media training for scientists
Short presentation from Social media training for scientistsShort presentation from Social media training for scientists
Short presentation from Social media training for scientists
 
Consumer Perfectionism
Consumer PerfectionismConsumer Perfectionism
Consumer Perfectionism
 
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedaży
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedażyOdczuwana prywatność w wirtualnym i fizycznym kanale sprzedaży
Odczuwana prywatność w wirtualnym i fizycznym kanale sprzedaży
 
Użytkownicy o ankietach internetowych
Użytkownicy o ankietach internetowychUżytkownicy o ankietach internetowych
Użytkownicy o ankietach internetowych
 
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?E-handel a handel stacjonarny - konkurencyjność czy komplementarność?
E-handel a handel stacjonarny - konkurencyjność czy komplementarność?
 
Marketing Kultury1
Marketing Kultury1Marketing Kultury1
Marketing Kultury1
 

Materiały z zajęć z Analizy danych

  • 1. Analiza danych (konwersatorium) dr hab. Radosław Mącik, prof. UMCS
  • 2. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. O mnie… 2
  • 3. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Zainteresowania zawodowe  Zachowania konsumentów, szczególnie w zakresie wpływu ICT na nie,  Badania marketingowe – ilościowe i jakościowe, badania internetowe  Analiza danych ilościowych i jakościowych – psychometria i ekonometria  E-commerce, e-marketing  Logistyka miejska i aglomeracyjna 3
  • 4. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Projekty badawcze i doradcze – ciekawsze 4
  • 5. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Moje oczekiwania  Zaangażowanie i pasja:  Nienawidzę: kombinatorstwa, zachowań nieetycznych i braku szczerości. 5
  • 6. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Kontakt  Konsultacje: – środa, 9.30-11.00, p. 506  Dyżur: – czwartek, 9.30-12:00, p. 506 lub 301 (za wyjątkiem dni obrad Rady Wydziału)  E-mail: – radoslaw.macik@umcs.lublin.pl  ogólny do kontaktu – rmacik@hektor.umcs.lublin.pl  do przesyłania ćwiczeń temat maila stacjonarne: [AD], niestacjonarne [AD_NS]  Informacje: – http://radoslawmacik.wordpress.com 6
  • 7. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Profil osobowy, „stara strona”, blog dydaktyczny 7
  • 8. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Zaliczenie przedmiotu  Udział w badaniach prowadzącego: – 2-3 razy w ciągu semestru, udział osobisty lub rekrutacja właściwego uczestnika  Zadania/case study – Nieobecności nie upoważniają do nie wykonywania ćwiczeń – 3-cia nieobecność powoduje skreślenie z listy  Zaliczenie praktyczne: – w środku semestru i na koniec – na komputerze – więcej szczegółów w swoim czasie 8
  • 9. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Zaliczenie przedmiotu – st. niestacjonarne  Udział w badaniach prowadzącego: – Max. 2 razy w ciągu semestru, udział osobisty lub rekrutacja właściwego uczestnika  Zadania/case study – Nieobecności nie upoważniają do nie wykonywania ćwiczeń – 3-cia nieobecność powoduje skreślenie z listy  Zaliczenie praktyczne: – na koniec semestru – na komputerze – więcej szczegółów w swoim czasie 9
  • 10. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Literatura  Anna Malarska, STATYSTYCZNA ANALIZA DANYCH WSPOMAGANA PROGRAMEM SPSS, Predictive Solutions, Kraków 2010  Jarosław Górniak, Janusz Wachnicki, PIERWSZE KROKI W ANALIZIE DANYCH, Predictive Solutions, Kraków 2011  ANALIZA DANYCH ZASTANYCH PRZEWODNIK DLA STUDENTÓW, red. nauk. Marta Makowska, Wyd. SCHOLAR, Warszawa 2013  Piotr Francuz, Rafał Mackiewicz, LICZBY NIE WIEDZĄ, SKĄD POCHODZĄ. PRZEWODNIK PO METODOLOGII I STATYSTYCE NIE TYLKO DLA PSYCHOLOGÓW, Wyd. KUL, Lublin 2007  Screencasty i webcasty – do znalezienia np. na YouTube itd. slajd 10
  • 12. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Zbieramy dane do analizy…  Proszę wypełnić samodzielnie kwestionariusz pod adresem: https://www.surveymonkey.com /r/esurvey_perception slajd 12
  • 13. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Dane  … slajd 13 Mądrość Wiedza Informacja Dane
  • 14. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Dane, informacja, wiedza - zależności slajd 14
  • 15. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Czym jest analiza danych?  Analiza danych jest procesem kontroli, czyszczenia, transformacji i modelowania danych w celu uzyskania z nich użytecznych informacji, zasugerowania wniosków i wsparcia podejmowania decyzji.  Analiza danych ma wiele aspektów i podejść obejmujących różne techniki analityczne (występujące często pod różnymi nazwami) w różnych dziedzinach – biznesie, naukach przyrodniczych, czy też społecznych.
  • 16. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Skalowanie wielowymiarowe Stress = 0,098 R2 = 0,946
  • 17. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Model ścieżkowy
  • 18. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Alternatywne modele – co jest artefaktem, a co jest rzeczywistością ? 18
  • 19. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. SPSS  Dzisiaj to rodzina IBM SPSS Statistics + AMOS
  • 20. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Ćwiczenie 1  Przygotowanie pliku danych i wprowadzanie danych – bezpośrednio do SPSS – Najpierw ćwiczymy samodzielnie  Import danych z pliku Excela – http://marketing.umcs.lublin.pl/rmacik/dane.xls – Na co uważać? – Sprawdzamy: http://marketing.umcs.lublin.pl/rmacik/dane.sav  Plik „kompletny”: http://marketing.umcs.lublin.pl/rmacik/dane2.sav
  • 21. a Rozkład normalny i rozkłady od niego odbiegające
  • 22. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rozkład normalny  To jeden z najważniejszych rozkładów prawdopodobieństwa, jego potwierdzenie upoważnia do stosowania wielu metod i testów statystycznych nazywanych parametrycznymi. Wykres funkcji prawdopodobieństwa tego rozkładu jest krzywą w kształcie dzwonu (krzywa normalna)  Wiele zjawisk w naturze posiada rozkład zbliżony do normalnego.  Rozkład normalny to rozkład ciągły, w praktyce wiele rozkładów ma charakter dyskretny (nieciągły) co utrudnia uznanie za rozkład normalny. 22 Gęstość prawdopodobieństwa Dystybuanta (skumulowane prawdopodobieństwo)
  • 23. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Reguła trzech sigm  Istnieje nieskończenie wiele rozkładów normalnych.  We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu.  Około 68,3% pola pod wykresem krzywej znajduje się w odległości jednego odchylenia standardowego od średniej, około 95,5% w odległości dwóch odchyleń standardowych i około 99,7% w odległości trzech (reguła trzech sigm).  Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej. 23
  • 24. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Parametry rozkładu  Wartość oczekiwana – wartość określająca spodziewany wynik doświadczenia losowego. Estymatorem wartości oczekiwanej rozkładu cechy w populacji jest średnia arytmetyczna.  Mediana (drugi kwartyl) – wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. Odporna na wartości odstające.  Wariancja - miara zmienności, jest średnią arytmetyczną kwadratów odchyleń poszczególnych wartości cechy od wartości oczekiwanej  Odchylenie standardowe – miara zmienności - jest pierwiastkiem kwadratowym z wariancji. Im mniejsze odchylenie tym obserwacje są bardziej skupione wokół średniej.  Skośność rozkładu odnosi się do jego asymetrii  Kurtoza 24
  • 25. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Skośność  Współczynnik skośności przyjmuje wartości: – zero dla rozkładu symetrycznego, – wartości ujemne dla lewostronnej asymetrii (wydłużone lewe ramię rozkładu) – wartości dodatnie dla prawostronnej asymetrii (wydłużone prawe ramię rozkładu).  Jeśli rozkład ma „lewy ogon dłuższy" to nazywamy go lewostronnie skośnym, ujemnie skośnym, lewostronnie asymetrycznym. Rozkład taki ma wartość oczekiwaną (średnią) mniejszą od mediany. Sprawdza się relacja: Dominanta > Mediana > Średnia  Jeśli rozkład ma "prawy ogon dłuższy" to nazywamy go prawostronnie skośnym, dodatnio skośnym, prawostronnie asymetrycznym. Rozkład taki ma wartość oczekiwaną (średnią) większą od mediany. Sprawdza się relacja: Dominanta < Mediana < Średnia 25
  • 26. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Kurtoza  Kurtoza to miara zagęszczenia (koncentracji) wyników wokół wartości centralnej. To druga obok skośności miara kształtu rozkładu. – Kurtoza w rozkładzie normalnym przyjmuje wartość „0”. – Kurtoza większa od zera oznacza rozkład leptokurtycznym (wysmukły). – Kurtoza mniejsza od zera oznacza rozkład platokurtyczny (spłaszczony). 26 K < 0  platokurtyczny K > 0  leptokurtyczny K = 0  mezokurtyczny
  • 27. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rozkłady dyskretne, w tym mniej typowe  Co można powiedzieć o ich normalności? 27
  • 28. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Sprawdzenie normalności rozkładu  Hipotezy: – H0: Rozkład jest normalny (o empirycznie ustalonej średniej i odchyleniu standardowym) – H1: Rozkład odbiega od normalnego  Typowe testy: – Shapiro-Wilka (oryginalnie dla prób 3-50 obserwacji, współcześnie do 5000 obserwacji, test mocny) – Kołmogorowa-Smirnowa (może też służyć do innych celów)  H0 odrzucamy na rzecz H1 jeśli p0,05 28
  • 29. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Ćwiczenie 2  Sprawdzanie rozkładów – Plik: http://marketing.umcs.lublin.pl/rmacik/rozkl.sav – Zazwyczaj pożądany jest rozkład normalny lub jednostajny (zm. grupujące)  Analizy tabelaryczne – Plik: http://marketing.umcs.lublin.pl/rmacik/dane2.sav – Tabele liczebności – Tabele krzyżowe – niezależność zmiennych – test χ2 (chi-kwadrat)
  • 30. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rozkład zbliżony do normalnego  Czasem, szczególnie dla zmiennych o dużej dyskretyzacji rozkładu trudno potwierdzić jego normalność, pomimo że wygląda na „normalny” ;)  Za pomocą histogramu i wykresu QQ (kwartyl-kwartyl) można wtedy zdecydować o traktowaniu rozkładu jako zbliżonego do normalnego, pomimo wartości testów normalności wskazujących na odrzucenie hipotezy co do normalności rozkładu (oczywiście przy prawdopodobieństwie zwykle większym niż 0,000!)  Robimy to jednak na własne ryzyko 30
  • 31. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Normalność a wykresy QQ  Rozkład normalny Rozkład odbiegający od normalnego 31 Shapiro-Wilk Test PERF_D W 0,981273 p-value 0,050467 alpha 0,05 normal yes -3 -2 -1 0 1 2 3 0 1 2 3 4 5 StdNormal Data QQ Plot Shapiro-Wilk Test PERF_CM W 0,944177 p-value 0,000019 alpha 0,05 normal no -3 -2 -1 0 1 2 3 4 0 1 2 3 4 5 StdNormal Data QQ Plot
  • 32. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Histogramy o różnych wartościach „koszyka”  Bin=0,25 bin=0,5 bin=1  Rozmiar „koszyka” wyrażony jest w jednostkach skali pomiaru zmiennej 32 0 5 10 15 20 25 30 35 1.08 1.33 1.58 1.83 2.08 2.33 2.58 2.83 3.08 3.33 3.58 3.83 4.08 4.33 Frequency Bin Histogram 0 10 20 30 40 50 60 1.33 1.83 2.33 2.83 3.33 3.83 4.33 Frequency Bin Histogram 0 10 20 30 40 50 60 70 80 1.33 2.33 3.33 4.33 Frequency Bin Histogram
  • 34. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Obserwacje odstające (outliers)  Obserwacja odstająca (outlier) – obserwacja posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej, co oznacza, że związek między Xi a Yi dla danej obserwacji jest inny niż dla reszty obserwacji w zbiorze danych.  Obserwacje odstające są na ogół spowodowane błędami w danych, na skutek błędów pomiaru, pomyłek w kodowaniu itp. Duża liczba elementów odstających może też być sygnałem dobrania złego modelu.  Obserwacje odstające utrudniają a nawet uniemożliwiają analizę. Mało odporne na nie są metody bazujące na założeniu rozkładu normalnego i zależnościach liniowych, takie jak korelacja Pearsona, regresja liniowa  Konieczne jest więc albo usuwanie obserwacji odstających, albo stosowanie odpornych metod statystycznych np. metod rangowych (np. korelacji rang Spearmana albo tau Kendalla). 34
  • 35. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Wykrywanie obserwacji odstających (1)  Wizualnie na wykresie, głównie dla szeregów czasowych – niedokładne  W oparciu kryterium kwartylowe (metoda Tukeya): – oblicza się pierwszy (𝑄1) i trzeci kwartyl (𝑄3) oraz rozstęp międzykwartylowy 𝐼𝑄𝑅 = 𝑄3 – 𝑄1 (interquartile range IQR). – obserwacje podejrzane za odstające to te, których wartości wykraczają poza przedział 𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅 – obserwacje ekstremalnie odstające to te, których wartości wykraczają poza przedział 𝑄1– 3𝐼𝑄𝑅, 𝑄3 + 3𝐼𝑄𝑅  W oparciu o odchylenie standardowe: – dane standaryzuje się do rozkładu normalnego o średniej 𝑀 = 0 i odchyleniu standardowym 𝑆𝐷 = 1, tj. 𝑁 0,1 – obserwacje odstające to te które wykraczają poza przedział −2,5𝑆𝐷, +2,5𝑆𝐷  Test Grubbsa  http://www.statystycy.pl/t4873_test_grubbsa.php  Wg odległości (np. euklidesowych) między danymi - wielowymiarowe 35
  • 36. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Obserwacje odstające w szeregu czasowym 36
  • 37. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Ćwiczenie 3  Sprawdzanie poprawności danych  Plik: http://marketing.umcs.lublin.pl/rmacik/dane-2zaj.sav  Co sprawdzamy: – Obecność wartości spoza zakresu: • Potencjalne błędy kodowania – jak wykryć, kiedy i jak korygować? • Nie zdefiniowane wartości zmiennej – Obserwacje odstające: • Co to takiego i w czym przeszkadzają? • Jak zidentyfikować? • Co z nimi robić? – Rozkład zmiennej • Zazwyczaj pożądany jest rozkład normalny lub jednostajny (zm. grupujące)
  • 38. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Metoda kwartylowa i test Grubbsa  Plik P1.xlsx  Główna seria danych to liczba użytkowanych samochodów dostawczych w badanej firmie  Sprawdzamy czy są obserwacje odstające metodą kwartylową: – Obliczamy kwartyle: Q1 i Q3 oraz rozstęp międzykwartylowy IQR =KWARTYL(zakres,nr_kwartyla) – Obliczamy granice przedziałów dla obserwacji odstających i ekstremalnych – oddzielnie dolną i górną – Formułujemy warunek przynależności do przedziałów względem granic  Test Grubbsa (jeżeli mamy narzędzia by go obliczyć): – Z dodatku Real Statistics wybieramy opcję Descriptive Statistics and Normality – Zaznaczamy w oknie dialogowym test Grubbsa, wpisujemy testowaną liczbę obserwacji odstających, np. 6, 8 itd. 38
  • 39. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Metoda kwartylowa - rozwiązanie 39 Q1 1 Q3 3 IQR 2 odst_dół -2 odst_góra 6 ekstr_dół -5 ekstr_góra 9 Q1 =KWARTYL(B2:B82;1) Q3 =KWARTYL(B2:B82;3) IQR =I2-I1 odst_dół =I1-1,5*I3 odst_góra =I2+1,5*I3 ekstr_dół =I1-3*I3 ekstr_góra =I2+3*I3 odstająca ekstremalna =JEŻELI(LUB(B2<$I$5;B2>$I$6);"tak";"nie") =JEŻELI(LUB(B2<$I$7;B2>$I$8);"tak";"nie") Nr respondentaile pojazdówDominująca marka odstająca ekstremalna 297 20 lublin tak tak 298 4 LUBLIN,HONKER nie nie 299 3 Lublinek nie nie 300 1 Lublin nie nie 303 2 Citroen nie nie 305 4 Lublin nie nie 316 2 lublin nie nie 318 3 Ford Transit nie nie 319 5 HONKER nie nie 321 2 renault nie nie 324 3 Mercedes nie nie 325 200 żuk lublin tak tak 326 2 Lublin nie nie Formuły Wyniki
  • 40. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Obserwacje odstające w dwu wymiarach  Trudniej wykrywalne, czasem łatwiej zauważyć wizualnie niż wykryć analitycznie 40 Liniami przerywanymi zaznaczono granice przedziałów ⟨𝑄1– 1,5𝐼𝑄𝑅, 𝑄3 + 1,5𝐼𝑄𝑅⟩ dla obu zmiennych Obserwacja odstająca
  • 41. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Ćwiczenie 4  Tabele krzyżowe – Co mówi test niezależności? – Kiedy wolno posługiwać się korelacjami? – Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav  Ćwiczenie samodzielne do wysłania na maila: – Plik danych: http://marketing.umcs.Lublin.pl/rmacik/ai.sav – Analiza jak preferencje udziału w ankietach internetowych zależą od wybranych zmiennych grupujących  Pytanie q0003 względem pytań q0014 i q0017 (łącznie z wiekiem – zmienna wieku kodowana do wybranej liczby grup – procedura RECODE) 41
  • 43. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Weryfikacja hipotez statystycznych  Weryfikacja hipotez statystycznych to sprawdzanie sądów o populacji przez badanie jej wycinka (próby).  Stąd, w większości przypadków, nie ma sensu testowanie hipotez statystycznych w badaniach wyczerpujących.  Hipotezą statystyczną jest dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów).  Testem statystycznym nazywamy regułę postępowania, która każdej możliwej próbie przyporządkowuje decyzję odrzucenia hipotezy lub braku podstaw do jej odrzucenia. 43
  • 44. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Hipotezy badawcze a hipotezy statystyczne  Nie można ich ze sobą utożsamiać!  Hipoteza badawcza jest przypuszczalną odpowiedzią na pytanie badawcze.  Weryfikacja hipotezy badawczej (np. w badaniach jakościowych) może być opisowa.  Hipoteza badawcza zwykle ma postać hipotezy alternatywnej (zakłada np. istnienie różnic między grupami, niezerową wartość średniej).  Hipotezę badawczą można weryfikować za pomocą co najmniej jednej hipotezy statystycznej, weryfikując hipotezę zerową (a więc o braku różnic między grupami, zerowej wartości średniej itd.), i ją odrzucając, bądź stwierdzając brak podstaw do tego. 44
  • 45. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Warunki stosowalności testów  Stosowanie większości testów statystycznych wymaga spełnienia wielu założeń, czasem nawet mało realistycznych w prawdziwych badaniach. Naruszenie założeń skutkuje wynikami, które wprowadzają w błąd, a w skrajnym przypadku są zupełnie nieodpowiednie  Typowe założenia co do danych to: – Normalność – dane powinny mieć rozkład normalny lub zbliżony do normalnego (bez silnej asymetrii) – Jednorodność wariancji w grupach – równa wariancja we wszystkich analizowanych grupach, dla wielu testów istnieją warianty dla grup niespełniających tego założenia, ale ich moc jest mniejsza – Liniowość – liniowe zależności między zmiennymi – Niezależność – obserwacje powinny być niezależne od siebie (chyba że testujemy dane zależne – schemat!)  Minimalna liczebność każdej grupy – ok. 16-20 obserwacji, rzadko mniej 45
  • 46. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Błędy I-go i II-go rodzaju Hipoteza zerowa Prawdziwa Brak podstaw do odrzucenia H0 Odrzucono H0, błędnie przyjmując H1  błąd I rodzaju Fałszywa Błędnie uznano, że brak podstaw do odrzucenia H0  błąd II rodzaju Odrzucono H0, przyjmując H1 46
  • 47. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Typowa procedura weryfikacji hipotez stat.  Sformułowanie hipotezy zerowej i alternatywnej  Wybór statystyki testowej  Określenie poziomu istotności α  Wyznaczenie obszaru krytycznego testu  Obliczenie statystyki na podstawie próby  Podjęcie decyzji weryfikacyjnej 47
  • 48. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Typowa interpretacja wyników testów  Narzędzia obliczeniowe i pakiety statystyczne podają poziom prawdopodobieństwa P-value (krytyczny poziom istotności; prawdopodobieństwo testowe).  Jest to najmniejszy poziom istotności przy którym dla zaobserwowanej wartości statystyki testowej odrzucilibyśmy hipotezę zerową.  Hipotezę zerową odrzucamy, gdy wyliczone prawdopodobieństwo testowe (𝑝) okaże się nie większe od przyjętego przez nas poziomu istotności (zwykle 0,05)  𝑝 ≤ 𝑃𝑣𝑎𝑙𝑢𝑒  Posługiwanie się unormowaną wielkością, w przeciwieństwie do różnorodnych statystyk testowych (Z, F, t, itd.) pozwala bezpośrednio ocenić wynik weryfikacji hipotezy poprzez proste porównanie wartości 𝑝 z poziomem istotności, np. 0,05; 0,1 czy też 0,001 48
  • 49. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Testy jednostronne i dwustronne  Test dwustronny: 𝐻 𝑜: 𝜃 = 𝜃0 𝐻 𝑜: 𝜃 ≠ 𝜃0  Test lewostronny: 𝐻 𝑜: 𝜃 ≥ 𝜃0 𝐻 𝑜: 𝜃 < 𝜃0  Test prawostronny: 𝐻 𝑜: 𝜃 ≤ 𝜃0 𝐻 𝑜: 𝜃 > 𝜃0 49 Obszarykrytyczne
  • 51. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Schemat wyboru testu Sytuacja Cel testowania Testy Związek między zmiennymi Ten sam poziom pomiaru Różne poziomy pomiaru Porównania między- grupowe Grupy niezależne Grupy zależne 51
  • 52. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Schemat wyboru testu – testowanie związku Typ testu Poziom pomiaru Sytuacja Cel testowania Związek między zmiennymi Ten sam poziom pomiaru nominalny Chi-kwadrat niezależności porządkowy Rho Spearmana, Tau Kendalla ilościowy r Pearsona Różne poziomy pomiaru nominalny x porządkowy Gdy mało grup: chi-kwadrat, porównania międzygrupowe nominalny x ilościowy Porównania międzygrupowe porządkowy x ilościowy Rho Spearmana, Tau Kendalla 52 W większości  dzień 2  współzmienność
  • 53. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Porównania międzygrupowe – grupy niezależne Typ testu Rozkład Poziom pomiaru Liczba grup Cel testowania Grupy niezależne 2 grupy Nomi- nalny Chi- kwadrat Porząd- kowy U Manna- Whitneya Ilościo- wy Odbiegający od normalnego U Manna- Whitneya Normalny lub zbliżony t dla prób niezależ- nych 3 lub więcej grup Nomi- nalny Chi- kwadrat, Porząd- kowy H Kruskala -Wallisa Ilościo- wy Odbiegający od normalnego H Kruskala -Wallisa Normalny lub zbliżony F ANOVA 53
  • 54. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Porównania międzygrupowe – grupy zależne Typ testu Rozkład Poziom pomiaru Liczba grup Cel testowania Grupy zależne 2 grupy Nomi- nalny Q Cochrana Porząd- kowy Test rango- wanych znaków Ilościo- wy Odbiegający od normalnego Test rango- wanych znaków Normalny lub zbliżony t dla prób zależ- nych 3 lub więcej grup Nomi- nalny Q Cochrana Porząd- kowy Test Friedma- na Ilościo- wy Odbiegający od normalnego Test Friedma- na Normalny lub zbliżony Powta- rzane pomiary ANOVA 54
  • 55. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Porównanie 3+ grup niezależnych 55
  • 56. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Ćwiczenie 5  Porównania 2 grup – Plik danych: http://marketing.umcs.Lublin.pl/rmacik/dane2.sav – 2 grupy niezależne i 2 grupy zależne – testy parametryczne i nieparametryczne  schemat!  Ćwiczenie samodzielne do wysłania na maila: – Plik danych j.w. – Analiza porównania częstości dokonywania zakupów w różnych formatów sklepów (itemy P2) względem płci (grupy niezależne) – Analiza porównania częstości dokonywania zakupów w różnych formatach sklepów względem siebie u tych samych osób (grupy zależne) – Wybieramy po 4 dowolne itemy z P2 56
  • 57. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Testy - ćwiczenia  Plik http://marketing.umcs.Lublin.pl/rmacik/dane2_v3.sav  Sprawdzamy losowość i normalność rozkładu  wyciągamy wnioski  Przygotowujemy roboczy arkusz ze zmiennymi według grup  Zaczynamy od porównań międzygrupowych – Porównajmy różnice w częstości kupowania w różnych formatach sklepów wg płci respondenta (jakie testy?) – J.w. ale według kategorii miejsca zamieszkania – uwaga na liczebność grup! (jakie testy) – Czy częstość kupowania w jednym formacie sklepu wiąże się z częstością kupowania w innym formacie (dla tych samych osób) – jakie testy – Czy można porównać testami dla prób zależnych częstość kupowania w określonym formacie sklepów z jego lubieniem? (dlaczego tak/nie???) 57
  • 58. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Test serii  Test serii (test serii Walda-Wolfowitza) to nieparametryczny test losowości próby.  Hipotezę zerową i alternatywną formułujemy w sposób następujący: – H0: dobór jednostek do próby jest losowy. – H1: dobór jednostek do próby nie jest losowy.  Seria to każdy ciąg identycznych elementów w zbiorze uporządkowanym według przyjętego kryterium – Np. ciąg danych wg płci ma 8 serii: M M Ż Ż M Ż Ż Ż M M Ż M Ż Ż Ż. – Dane ilościowe należy zdychotomizować w oparciu o medianę.  Ogólna liczba serii w ciągu n-elementowym jest zmienną losową K o znanym i ujętym w tablice rozkładzie. – Zliczoną w próbie liczbę serii 𝑘 porównujemy z wartościami krytycznymi testu. – Jeżeli i 𝑘 ≤ 𝑘1 lub 𝑘 ≥ 𝑘2, odrzucamy H0 na rzecz H1  próba nie jest losowa 58
  • 60. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Główne cele stosowania metod wielowymiarowych  Redukcja liczby wymiarów – Dla 2-3 wymiarów możliwa interpretacja graficzna  Odkrycie ukrytych struktur – Określenie (nie)podobieństwa zmiennych lub obiektów – Wskazanie naturalnych skupień obiektów 60
  • 61. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rzetelność i trafność pomiaru  Rzetelność - powtórzenie pomiaru w tych samych warunkach daje ten sam rezultat  Trafność - instrument mierzy tę cechę, którą chcemy zmierzyć  Wysoka rzetelność = mały błąd przypadkowy  Wysoka trafność = mały błąd systematyczny 61 Pomiar mało trafny i mało rzetelny Pomiar trafny ale mało rzetelny Pomiar mało trafny ale rzetelny Pomiar trafny rzetelny
  • 62. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Praktyka ustalania trafności i rzetelności  Ustalenie trafności czynnikowej  EFA  Określenie rzetelności dla każdego czynnika   Cronbacha lub CR  Modyfikacje na podstawie analizy pozycji i sugestii z EFA  Potwierdzenie istnienia wymiarów  Konfirmacyjna analiza czynnikowa (CFA) 62
  • 64. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Analizy czynnikowe  Jedna z metod redukcji wymiarów – celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych reprezentują zmienność tych samych czynników.  Główne zastosowania to odnajdywanie ukrytych wymiarów lub struktur w zbiorze zmiennych.  Dwa podejścia: – eksploracyjna analiza czynnikowa (EFA - Exploratory Factor Analysis) - czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie posiadanych danych, to podejście jest bardziej rozpowszechnione, – konfirmacyjna analiza czynnikowa (CFA - Confirmatory Factor Analysis) - zakładamy istnienie pewnego określonego zbioru czynników i przyporządkowania zmiennych do tych czynników - badamy zasadność naszego przypuszczenia poprzez modelowanie równań strukturalnych  np. w AMOS 64
  • 65. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Eksploracyjne analizy czynnikowe - procedura  Sprawdzenie własności macierzy korelacji – miara KMO > 0,7; – test sferyczności Bartletta – p<0,05 (odrzucamy H0 że macierz współczynników korelacji jest macierzą jednostkową, co oznacza, że nie ma istotnych korelacji między zmiennymi; odrzucenie H0 jest potwierdzeniem, że analiza przyniesie sensowny rezultat.  Wybór metody wyodrębniania czynników – typowo: PCA – analiza głównych składowych i rotacji czynników – zwykle Varimax (czynniki ortogonalne) lub Oblimin (czynniki ukośne)  Kryteria wyboru liczby czynników: – Skumulowany procent wariancji – czynniki mają wyjaśnić > 60% wariancji – Wartość własna czynnika > 1 (Kryterium Kaisera) – czynnik ma zastąpić więcej niż jedną zmienną wejściową (czasem po rotacji) – Test osypiska (kryterium Cattella) – wybrać tyle czynników ile nie leży w osypisku 65
  • 66. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Wykres osypiska 66 Osypisko się wypłaszcza przy 3-4 czynnikach Ponieważ wartość własna 4 czynnika (bez rotacji) jest bliska 1, prawdopodobnie 4 czynniki są lepszym wyborem
  • 67. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. EFA – procedura (2)  Dla wybranej liczby czynników analizujemy macierz rotowanych składowych  Zmienne z ładunkami czynnikowymi >0,7 pasują dobrze do danej składowej, między 0,58 a 0,7 słabiej, ale jeśli nie ma ładunków krzyżowych (podobnej wartości ładunków w różnych składowych) można je zaliczyć do danej składowej.  Nazywamy wyodrębnione składowe – trudność nazwania – trudność interpretacji czynnika 67
  • 68. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. EFA – przykładowe wyniki  Macierz danych - OK  2 czynniki, wybór na podstawie testu osypiska, wyjaśniają prawie 81% wariancji  Przyporządkowanie zmiennych do składowych zaznaczono 68 Uwaga: Ładunek krzyżowy, jeszcze nie przeszkadza bardzo, ale jest
  • 70. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Obliczenie rzetelności skali  Sposób: – Dawniej: Test – retest lub metoda połówkowa – Dzisiaj: Poprzez zgodność wewnętrzną: współczynnik  Cronbacha lub wzór KR-20, lepiej też użyć współczynnika CR (Composite Reliability – tzw. rzetelność łączna)  Pożądana wartość współczynników  i CR to: 0,7<<0,95  >0,95 sugeruje współliniowość pozycji skali – pytamy respondentów „w kółko” o to samo – zazwyczaj niepotrzebnie  Dla skali krótkiej - o 2-3 stwierdzeniach dopuszcza się >0,6  Wykonaj analizę pozycji – być może trzeba jeszcze coś poprawić, usunąć, dodać – to jest już podejście empiryczne!
  • 71. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rzetelność i analiza pozycji - przykład 71 Chętnie zmieniam marki, które kupuję
  • 73. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Analiza skupień - klasteryzacja  Analiza skupień (cluster analysis) - jest to metoda grupowania elementów we względnie jednorodne klasy.  Podstawą grupowania w większości algorytmów jest podobieństwo/niepodobieństwo pomiędzy elementami – wyrażone przy pomocy funkcji (metryki) podobieństwa – zwykle określonej miary odległości między elementami grupowanego zbioru  Jest to metoda eksploracyjna, generalnie służąca klasyfikacji, odkrywaniu nieznanej struktury analizowanych danych (która „ukrywa” się w wielu wymiarach 73
  • 74. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Typowe miary odległości  Euklidesowa 𝑑 𝑒 = 𝑖=1 𝑘 𝑏𝑖 − 𝑎𝑖 2 tutaj: 𝑑 𝑒 = 5 − 1 2 + 4 − 1 2 = 16 + 9 = 5  Kwadrat odległości euklidesowej 𝑑 𝑒2 = 𝑑 𝑒 2 tu: 𝑑 𝑒2 = 52 = 25  Miejska (Manhattan) 𝑑 𝑚 = 𝑖=1 𝑘 𝑏𝑖 − 𝑎𝑖 tu: 𝑑 𝑚 = 4 + 3 = 7  Czebyszewa 𝑑 𝑐 = 𝑚𝑎𝑥 𝑏𝑖 − 𝑎𝑖 tu: 𝑑 𝑐 = 4  Użycie odległości euklidesowej przy wielu wymiarach „spłaszcza” różnice, jej kwadratu lub odległości miejskiej – uwypukla,  dla odległości Czebyszewa znaczenie ma tylko jeden wymiar z największą różnicą, inne są pomijane. 74 0 1 2 3 4 5 0 1 2 3 4 5 6
  • 75. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Odległość euklidesowa a miejska 75 Ile wynosi odległość euklidesowa, a ile miejska w tym przypadku?
  • 76. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Algorytmy skupiania  metody hierarchiczne – algorytm tworzy dla zbioru obiektów hierarchię klasyfikacji, istnieją dwa rodzaje metod hierarchicznych: – procedury aglomeracyjne (ang. agglomerative) – tworzą macierz podobieństw klasyfikowanych obiektów, a następnie w kolejnych krokach łączą w skupienia obiekty najbardziej do siebie podobne, – procedury deglomeracyjne (ang. divisive) – odwrotnie, tj. zaczynają od skupienia obejmującego wszystkie obiekty, a następnie w kolejnych krokach dzielą je na mniejsze grupy.  metoda k-średnich (ang. k-means) - grupowanie polega na wstępnym podzieleniu populacji na z góry założoną liczbę klas. Następnie uzyskany podział jest poprawiany przez iteracyjne przenoszenie niektórych elementów do innych klas, tak, aby uzyskać minimalną wariancję wewnątrz skupień.  metody rozmytej analizy skupień (ang. fuzzy clustering), wśród których najbardziej znaną jest metoda c-średnich (c-means). Metody rozmytej analizy skupień mogą przydzielać element do więcej niż jednej kategorii z określonym prawdopodobieństwem. 76
  • 77. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Metody hierarchiczne  Skupiamy: – Zmienne – redukcja wymiarów – Obserwacje – segmentacja, poszukiwanie ukrytych struktur  Typowe algorytmy skupiania: – Średniej odległości między skupieniami – maksymalizuje ją – Warda – minimalizuje wariancję wewnątrz skupienia  Wizualny efekt – dendrogram  Przykłady: – Zmienne – http://marketing.umcs.lublin.pl/rmacik/a6_sklepy.sav – Obserwacje - http://marketing.umcs.lublin.pl/rmacik/a6_powiaty.sav 77
  • 78. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw Według wskaźników charakteryzujących aktywność zawodową, poziom zatrudnienia i bezrobocie (łącznie 13 zmiennych – po odrzuceniu zmiennych wysoko ze sobą skorelowanych Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS. 78
  • 79. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Dendrogram: Podobieństwo rynku pracy woj. lubelskiego do innychwojewództw Według udziałów sektorów gospodarczych w zatrudnieniu (łącznie 5 zmiennych) Źródło: Opracowanie własne na podstawie danych Banku Danych Lokalnych, GUS. 79
  • 80. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Dendrogram: podobieństwo formatów sklepów  Skupiane zmienne,  Odległość euklidesowa  Wiązanie Warda 80
  • 81. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Porady  Jak dobrać zmienne? – Unikamy bardzo wysokich dodatnich korelacji – współliniowość jest niepożądana  Co jeśli wartości zmiennych mają różne rzędy wielkości? – Standaryzujemy dane  Ile wybrać skupień? – Szukamy rozwiązania stabilnego – kiedy przez dłuższy czas „nic się nie dzieje”  Trudności w interpretacji? – Zmieniamy miarę odległości i/lub algorytm skupiania – wolno nam, bo analiza skupień jest metodą eksploracyjną 81
  • 82. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Metoda k-średnich (Quick Cluster)  Grupowanie po wstępnym podzieleniu populacji na z góry założoną liczbę klas iteracyjnie jest poprawiane tak, by uzyskać minimalną wariancję wewnątrz klas.  Podstawowy algorytm: – losowy wybór środków (centroidów) klas (skupień), – przypisanie punktów do najbliższych centroidów, – wyliczenie nowych środków skupień, – powtarzanie algorytmu aż do osiągnięcia kryterium zbieżności (do kroku, w którym nie zmieniła się przynależność punktów do klas).  Nadaje się do klasyfikacji nowych obiektów do istniejących klas  Tabela ANOVA jako wskaźnik efektywności grupowania 82
  • 83. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Rozrzut w 3 wymiarach 83
  • 84. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Wyniki k-średnich 84
  • 85. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Segmentacja za pomocą analizy skupień  Hierarchiczna analiza – przegląd dendrogramu – wybór orientacyjnej liczby skupień  Lub: powtórzenie analizy za pomocą k-średnich dla wybranej liczby skupień (przy dodawaniu nowych obiektów do istniejących skupień tylko klasyfikacja po wczytaniu z pliku centrów skupień)  Profilowanie skupień/segmentów [wykres profilowy] 85
  • 86. Analiza danych - konwersatorium e: radoslaw.macik@umcs.lublin.pl slideshare: rmacik Zarządzanie II st. Profile segmentów 86 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 1 2 3 4 5
  • 87. Dziękuję za uwagę :) Kontakt: radoslaw.macik@umcs.pl