SlideShare uma empresa Scribd logo
1 de 3
Baixar para ler offline
DM2007 model theorie-opgaven week 4
1. Wat zijn de twee verschillen tussen perceptronleerregel en de leerregel gebruikt bij Winnow?
• de gewichten in perceptronleerregel worden vernieuwd door optellen of aftrekken, bij
Winnow door vermenigvuldigen of delen. (1/2 punt)
• bij Winnow wordt de klasse bepaald door gebruik van een (aanpasbare) parameter
theta, bij perceptron wordt de klasse bepaald door te kijken naar het teken (positief of
negatief)(1/2 punt)
2. Bij instance learning kan de beste klasse worden bepaald door de testinstantie te vergelijken met alle
trainingsinstanties. Waarom zijn kD-bomen effici¨enter voor het kiezen van de beste klasse voor een
testinstantie?
kD-bomen vinden een initi¨ele nearest-neighbor gebaseerd op de leaf node waarin de nieuwe
instantie valt. Vervolgens wordt er omhoog in de boom gekeken of er punten kunnen zijn die
dichterbij liggen dan het initi¨ele punt. Het aantal vergelijkingen dat gedaan moet worden
is (meestal) veel kleiner dan zonder boom, waarbij de nieuwe instantie met elke opgeslagen
instatie vergeleken moet worden. (1 punt)
3. Uit de weerdata (Tabel 1.2 op bladzijde 11 van het boek) kan de itemset outlook=sunny; humid-
ity=high; play=no worden afgeleid. Hoeveel associatieregels kunnen maximaal uit zo’n itemset
worden gehaald? En hoeveel van deze regels hebben in dit geval een accuraatheid van 100%?
Er kunnen 7 associatieregels afgeleid worden (zie voorbeeld op blz. 115 in tweede editie)
(1/2 punt)
Zoals te zien in de tabel hebben 2 regels 100% accuraatheid (1/2 punt)
regel accuraatheid
if outlook = sunny and humidity = high then play = no 3/3
if outlook = sunny and play = no then humidity = high 3/3
if humidity = high and play = no then outlook = sunny 3/4
if outlook = sunny then humidity = high and play = no 3/5
if humidity = high then outlook = sunny and play = no 3/7
if play = no then outlook = sunny and humidity = high 3/5
if - then outlook = sunny and humidity = high and play = no 3/14
4. Leid de beste dekkingsregel (covering rule) af voor de aanbeveling ”soft” volgens de contactlensdata
(Tabel 1.1 op bladzijde 6 van de tweede editie van het boek). Laat alle stappen van de afleiding zien en
geef bij elke stap aan wat de dekking en selectie is van de afgeleide voorwaarden. Indien er meerdere
”beste” beste dekkingsregels zijn dan hoeft u daar maar 1 van af te leiden. zie tabel op volgende
bladzijde (1 punt)
5. Reken uit hoeveel entropy(1,4) bedraagt. Geef niet alleen een getal als antwoord maar laat alle
stappen van de berekening zien. (1 punt)
Er had moeten staan: bereken info[1,4].
info[1,4] = entropy(1/5,4/5)
entropy(1/5,4/5) = -1/5 * log(1/5) - 4/5 * log(4/5) = 0.464 + 0.258 = 0.722 bits
if ? then recommendation = soft
- age = young 2/8
- age = pre-pres. 2/8
- age = pres. 1/8
- spec. pres. = myope 2/12
- spec. pres. = hyperm. 3/12
- astig. = no 5/12
- astig. = yes 0/12
- tear pr. = reduced 0/12
- tear pr. = normal 5/12
if astig. = no and ? then recommendation = soft
- age = young 2/4
- age = pre-pres. 2/4
- age = pres. 1/4
- spec. pres. = myope 2/6
- spec. pres. = hyperm. 3/6
- tear pr. = reduced 0/6
- tear pr. = normal 5/6
if astig. = no and tear pr. = normal and ? then recommendation = soft
- age = young 2/2
- age = pre-pres. 2/2
- age = pres. 1/2
- spec. pres. = myope 2/3
- spec. pres. = hyperm. 3/3
if astig. = no and tear pr. = normal and spec. pres. = hyperm. then recommendation = soft
6. Bij een clusteringprobleem met zes datapunten en drie clusters als doel, start k-means in de volgende
situatie (o: datapunten 1-6; x: clustercentra A-C; afstanden C4 = A3 > B4 = B3). Hoe liggen de
clustercentra nadat het algoritme is toegepast? (1/2 punt) Is die eindsituatie optimaal?
Gezien het aantal clusters en de ligging van de datapunten is deze eindsituatie optimaal.
(1/2 punt)
7. Leg het concept Lift uit aan de hand van een voorbeeld uit Tabel ”Performance of the Profiling Mod-
ule” op bladzijde 69.
Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een
taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt)
Bijvoorbeeld, de apriorikan op een kind in de leeftijd 2 tot en met 11 is 0.2482. In de se-
lectie van het profilingsysteem is deze kans 0.8421. De lift veroorzaakt door het systeem is
0.8421/0.2482=3.39.
8. Het ADS-systeem krijgt via PVRs alleen te zien waarnaar gekeken wordt en niet wie er kijkt. Hoe
komt het systeem desondanks aan modellen gebaseerd op leeftijd en geslacht van de kijker?
De training set bevat de samenstellingen van de huishoudens (leeftijden, geslachten) en door
dit te combineren met het kijkgedrag kunnen modellen geleerd worden die aan de hand van
het kijkgedrag een schatting doen van de samenstelling van het huishouden. (1 punt)
9. De Profiling Module deelt verschillende huishoudens in in clusters. Als je die clusters vergelijkt
met de vormen genoemd in sectie 4.8 van het Dataminingboek, zijn ze dan exclusief, overlappend of
probabilistisch?
Probabilistisch; er wordt met een percentage aangeduid hoe groot de kans is dat een huishouden
tot een bepaald cluster hoort. (1 punt)
10. Aan het einde van de sectie ”Departure from Traditional Role” doen de auteurs vier voorstellen over
hoe om te gaan met de verzamelde informatie. Wat vindt u van deze voorstellen? Licht uw antwoord
toe.
eigen mening (1 punt)

Mais conteúdo relacionado

Destaque

Chapter1 de vrieshuizing
Chapter1 de vrieshuizingChapter1 de vrieshuizing
Chapter1 de vrieshuizingokeee
 
Sw practicumopdracht 1
Sw practicumopdracht 1Sw practicumopdracht 1
Sw practicumopdracht 1okeee
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizingokeee
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzichtokeee
 
Sw semantic web
Sw semantic webSw semantic web
Sw semantic webokeee
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508okeee
 
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...okeee
 
Hcm p137 hilliges
Hcm p137 hilligesHcm p137 hilliges
Hcm p137 hilligesokeee
 
Web 2.0 Online Collaboration examples
Web 2.0 Online Collaboration examplesWeb 2.0 Online Collaboration examples
Web 2.0 Online Collaboration examplesR. Sosa
 

Destaque (11)

Chapter1 de vrieshuizing
Chapter1 de vrieshuizingChapter1 de vrieshuizing
Chapter1 de vrieshuizing
 
Sw practicumopdracht 1
Sw practicumopdracht 1Sw practicumopdracht 1
Sw practicumopdracht 1
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizing
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzicht
 
Sw semantic web
Sw semantic webSw semantic web
Sw semantic web
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508
 
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...
Really usefulebooks 0262012421_the mit press a semantic web primer 2nd editio...
 
Hcm p137 hilliges
Hcm p137 hilligesHcm p137 hilliges
Hcm p137 hilliges
 
Web 2.0 Online Collaboration examples
Web 2.0 Online Collaboration examplesWeb 2.0 Online Collaboration examples
Web 2.0 Online Collaboration examples
 
Chapter 2 rizal
Chapter 2 rizalChapter 2 rizal
Chapter 2 rizal
 
Rizal - Chapter 1
Rizal - Chapter 1Rizal - Chapter 1
Rizal - Chapter 1
 

Mais de okeee

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homeworkokeee
 
Prob18
Prob18Prob18
Prob18okeee
 
Overfit10
Overfit10Overfit10
Overfit10okeee
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11okeee
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handoutokeee
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handoutokeee
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutokeee
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handoutokeee
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)okeee
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizingokeee
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-imageokeee
 
Kbms audio
Kbms audioKbms audio
Kbms audiookeee
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)okeee
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-appokeee
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposalokeee
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4okeee
 
Sw wordnet h1
Sw wordnet h1Sw wordnet h1
Sw wordnet h1okeee
 
Sw wordnet intro
Sw wordnet introSw wordnet intro
Sw wordnet introokeee
 
Sw 7 triple20
Sw 7 triple20Sw 7 triple20
Sw 7 triple20okeee
 

Mais de okeee (19)

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homework
 
Prob18
Prob18Prob18
Prob18
 
Overfit10
Overfit10Overfit10
Overfit10
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handout
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handout
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handout
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handout
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizing
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-image
 
Kbms audio
Kbms audioKbms audio
Kbms audio
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-app
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposal
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4
 
Sw wordnet h1
Sw wordnet h1Sw wordnet h1
Sw wordnet h1
 
Sw wordnet intro
Sw wordnet introSw wordnet intro
Sw wordnet intro
 
Sw 7 triple20
Sw 7 triple20Sw 7 triple20
Sw 7 triple20
 

Dm uitwerkingen wc4

  • 1. DM2007 model theorie-opgaven week 4 1. Wat zijn de twee verschillen tussen perceptronleerregel en de leerregel gebruikt bij Winnow? • de gewichten in perceptronleerregel worden vernieuwd door optellen of aftrekken, bij Winnow door vermenigvuldigen of delen. (1/2 punt) • bij Winnow wordt de klasse bepaald door gebruik van een (aanpasbare) parameter theta, bij perceptron wordt de klasse bepaald door te kijken naar het teken (positief of negatief)(1/2 punt) 2. Bij instance learning kan de beste klasse worden bepaald door de testinstantie te vergelijken met alle trainingsinstanties. Waarom zijn kD-bomen effici¨enter voor het kiezen van de beste klasse voor een testinstantie? kD-bomen vinden een initi¨ele nearest-neighbor gebaseerd op de leaf node waarin de nieuwe instantie valt. Vervolgens wordt er omhoog in de boom gekeken of er punten kunnen zijn die dichterbij liggen dan het initi¨ele punt. Het aantal vergelijkingen dat gedaan moet worden is (meestal) veel kleiner dan zonder boom, waarbij de nieuwe instantie met elke opgeslagen instatie vergeleken moet worden. (1 punt) 3. Uit de weerdata (Tabel 1.2 op bladzijde 11 van het boek) kan de itemset outlook=sunny; humid- ity=high; play=no worden afgeleid. Hoeveel associatieregels kunnen maximaal uit zo’n itemset worden gehaald? En hoeveel van deze regels hebben in dit geval een accuraatheid van 100%? Er kunnen 7 associatieregels afgeleid worden (zie voorbeeld op blz. 115 in tweede editie) (1/2 punt) Zoals te zien in de tabel hebben 2 regels 100% accuraatheid (1/2 punt) regel accuraatheid if outlook = sunny and humidity = high then play = no 3/3 if outlook = sunny and play = no then humidity = high 3/3 if humidity = high and play = no then outlook = sunny 3/4 if outlook = sunny then humidity = high and play = no 3/5 if humidity = high then outlook = sunny and play = no 3/7 if play = no then outlook = sunny and humidity = high 3/5 if - then outlook = sunny and humidity = high and play = no 3/14 4. Leid de beste dekkingsregel (covering rule) af voor de aanbeveling ”soft” volgens de contactlensdata (Tabel 1.1 op bladzijde 6 van de tweede editie van het boek). Laat alle stappen van de afleiding zien en geef bij elke stap aan wat de dekking en selectie is van de afgeleide voorwaarden. Indien er meerdere ”beste” beste dekkingsregels zijn dan hoeft u daar maar 1 van af te leiden. zie tabel op volgende bladzijde (1 punt) 5. Reken uit hoeveel entropy(1,4) bedraagt. Geef niet alleen een getal als antwoord maar laat alle stappen van de berekening zien. (1 punt) Er had moeten staan: bereken info[1,4]. info[1,4] = entropy(1/5,4/5) entropy(1/5,4/5) = -1/5 * log(1/5) - 4/5 * log(4/5) = 0.464 + 0.258 = 0.722 bits
  • 2. if ? then recommendation = soft - age = young 2/8 - age = pre-pres. 2/8 - age = pres. 1/8 - spec. pres. = myope 2/12 - spec. pres. = hyperm. 3/12 - astig. = no 5/12 - astig. = yes 0/12 - tear pr. = reduced 0/12 - tear pr. = normal 5/12 if astig. = no and ? then recommendation = soft - age = young 2/4 - age = pre-pres. 2/4 - age = pres. 1/4 - spec. pres. = myope 2/6 - spec. pres. = hyperm. 3/6 - tear pr. = reduced 0/6 - tear pr. = normal 5/6 if astig. = no and tear pr. = normal and ? then recommendation = soft - age = young 2/2 - age = pre-pres. 2/2 - age = pres. 1/2 - spec. pres. = myope 2/3 - spec. pres. = hyperm. 3/3 if astig. = no and tear pr. = normal and spec. pres. = hyperm. then recommendation = soft
  • 3. 6. Bij een clusteringprobleem met zes datapunten en drie clusters als doel, start k-means in de volgende situatie (o: datapunten 1-6; x: clustercentra A-C; afstanden C4 = A3 > B4 = B3). Hoe liggen de clustercentra nadat het algoritme is toegepast? (1/2 punt) Is die eindsituatie optimaal? Gezien het aantal clusters en de ligging van de datapunten is deze eindsituatie optimaal. (1/2 punt) 7. Leg het concept Lift uit aan de hand van een voorbeeld uit Tabel ”Performance of the Profiling Mod- ule” op bladzijde 69. Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van een taak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt) Bijvoorbeeld, de apriorikan op een kind in de leeftijd 2 tot en met 11 is 0.2482. In de se- lectie van het profilingsysteem is deze kans 0.8421. De lift veroorzaakt door het systeem is 0.8421/0.2482=3.39. 8. Het ADS-systeem krijgt via PVRs alleen te zien waarnaar gekeken wordt en niet wie er kijkt. Hoe komt het systeem desondanks aan modellen gebaseerd op leeftijd en geslacht van de kijker? De training set bevat de samenstellingen van de huishoudens (leeftijden, geslachten) en door dit te combineren met het kijkgedrag kunnen modellen geleerd worden die aan de hand van het kijkgedrag een schatting doen van de samenstelling van het huishouden. (1 punt) 9. De Profiling Module deelt verschillende huishoudens in in clusters. Als je die clusters vergelijkt met de vormen genoemd in sectie 4.8 van het Dataminingboek, zijn ze dan exclusief, overlappend of probabilistisch? Probabilistisch; er wordt met een percentage aangeduid hoe groot de kans is dat een huishouden tot een bepaald cluster hoort. (1 punt) 10. Aan het einde van de sectie ”Departure from Traditional Role” doen de auteurs vier voorstellen over hoe om te gaan met de verzamelde informatie. Wat vindt u van deze voorstellen? Licht uw antwoord toe. eigen mening (1 punt)