SlideShare uma empresa Scribd logo
1 de 131
Baixar para ler offline
Seminarski rad: Maˇsinsko uˇcenje,
inteligentni agenti
Popovi´c Zoran
Centar za multidisciplinarne studije
Univerzitet u Beogradu
23. maj 2007
Saˇzetak
Ovaj tekst je zamiˇsljen kao pregled sadrˇzaja knjiga i radova iz
oblasti maˇsinskog uˇcenja i inteligentnih agenata. Rad je pisan pomo´cu
TEX-a tj. LATEX-a kao njegovog dijalekta i jfig alata - [PG] i [TB].
Profesor: Vladan Devedˇzi´c
Maˇsinsko uˇcenje, inteligentni agenti 1
Sadrˇzaj
1 Poglavlje 1 - uvod 4
1.1 Pojam maˇsinskog uˇcenja . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tipovi uˇcenja i osnovne odlike . . . . . . . . . . . . . . . . . . 6
1.3 Neuronske mreˇze i genetski algoritmi . . . . . . . . . . . . . . 8
2 Uˇcenje koncepta i ured¯enje od opˇsteg ka posebnom 10
2.1 Uˇcenje koncepta . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Algoritam eliminacije kandidata . . . . . . . . . . . . . . . . . 12
2.3 Induktivni bias . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Uˇcenje drvetom odluke . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Reprezentacija . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Okamova oˇstrica . . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Proˇsirenja ID3 . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Vrednovanje hipoteze . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1 Upored¯ivanje hipoteza . . . . . . . . . . . . . . . . . . 22
2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja . . . . . . 22
2.6.1 Induktivno logiˇcko programiranje . . . . . . . . . . . . 24
2.6.2 Kanonski ILP algoritam . . . . . . . . . . . . . . . . . 25
2.6.3 Indukcija kao inverzna rezolucija . . . . . . . . . . . . 28
2.7 Raˇcunska i statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . 30
2.7.1 Statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . . . 30
2.7.2 ERM princip . . . . . . . . . . . . . . . . . . . . . . . 31
2.7.3 SRM princip . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7.4 VAK (PAC) pristup . . . . . . . . . . . . . . . . . . . . 34
2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa 35
2.7.6 Optimalna granica greˇske . . . . . . . . . . . . . . . . 36
2.7.7 Graniˇcno uˇcenje . . . . . . . . . . . . . . . . . . . . . . 36
3 Statistiˇcko i Bajesovo uˇcenje 43
3.1 Bajesovo uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Veza najverovatnije hipoteze i LMS . . . . . . . . . . . 44
3.1.2 MDL princip . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.3 Bajesovi klasifikatori, Gibsov algoritam . . . . . . . . . 45
3.1.4 Mreˇze uverenja . . . . . . . . . . . . . . . . . . . . . . 47
3.1.5 EM algoritam . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Statistiˇcko uˇcenje i funkcija gubitka . . . . . . . . . . . . . . . 51
2 Seminarski rad
3.3 Kombinatorna optimizacija, inteligencija roja . . . . . . . . . 53
3.4 Apriori metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Uˇcenje instancama i metode klasifikacije 58
4.1 Metod najbliˇzih suseda . . . . . . . . . . . . . . . . . . . . . . 58
4.1.1 Lokalno-teˇzinska regresija . . . . . . . . . . . . . . . . 60
4.2 Funkcije radijalne baze . . . . . . . . . . . . . . . . . . . . . . 60
4.2.1 Zakljuˇcivanje izborom sluˇcaja . . . . . . . . . . . . . . 61
4.3 Nenadgledano uˇcenje i metode klasterovanja . . . . . . . . . . 62
4.4 Vremenske instance i problem predvid¯anja . . . . . . . . . . . 66
4.5 SVM, maˇsine potpornih vektora . . . . . . . . . . . . . . . . . 68
5 Analitiˇcko uˇcenje i uˇcenje objaˇsnjenjima 71
5.1 Uˇcenje objaˇsnjenjima (EBL) . . . . . . . . . . . . . . . . . . . 71
5.2 Analitiˇcko uˇcenje i deduktivno zakljuˇcivanje . . . . . . . . . . 75
5.3 Induktivno i analitiˇcko uˇcenje . . . . . . . . . . . . . . . . . . 76
6 Uˇcenje ojaˇcavanjem 78
6.1 Pojam uˇcenja ojaˇcavanjem . . . . . . . . . . . . . . . . . . . . 78
6.2 Q-funkcija i uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1 Nedeterministiˇcki sluˇcaj . . . . . . . . . . . . . . . . . 81
7 Otkrivanje znanja i traganje kroz znanje (Data Mining) 82
7.1 Pojam otkrivanja znanja . . . . . . . . . . . . . . . . . . . . . 82
7.2 Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8 Arhitektura i tipovi inteligentnih agenata 87
8.1 Tropistiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Histeretiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Agenti nivoa znanja . . . . . . . . . . . . . . . . . . . . . . . . 90
8.4 Agenti znanja u koracima . . . . . . . . . . . . . . . . . . . . 93
8.5 Agenti s namerom . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.6 Promiˇsljeni (racionalni) agenti . . . . . . . . . . . . . . . . . . 100
9 Multi-agentski sistemi i primeri 102
9.1 Multi-agentski sistemi . . . . . . . . . . . . . . . . . . . . . . 102
9.2 JADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.2.1 FIPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2.2 FIPA-SL . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Maˇsinsko uˇcenje, inteligentni agenti 3
9.3 Primer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.3.1 Modifikovan model najbliˇzih suseda . . . . . . . . . . . 116
9.3.2 Razvojno okruˇzenje . . . . . . . . . . . . . . . . . . . . 118
9.3.3 Alternativna okruˇzenja . . . . . . . . . . . . . . . . . . 119
9.4 Prototip primera . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.4.1 Pokretanje . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.4.2 Opis korisniˇckog interfejsa i primer unosa . . . . . . . . 124
9.4.3 Opis postavljanja upita . . . . . . . . . . . . . . . . . . 125
9.4.4 Ostale mogu´ce dorade . . . . . . . . . . . . . . . . . . 126
9.4.5 Aplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4.6 To-Do lista . . . . . . . . . . . . . . . . . . . . . . . . 127
4 Seminarski rad
1 Poglavlje 1 - uvod
Maˇsinsko uˇcenje kao oblast veˇstaˇcke inteligencije predstavlja skup para-
digmi, algoritama, teorijskih rezultata i primena iz razliˇcitih oblasti veˇstaˇcke
inteligencije i evolucionih modela (u smislu pretraˇzivanja) ali i drugih oblasti:
statistike i verovatno´ce (Bajesov klasifikator, raspodele i testovi) i drugih
oblasti matematike, teorije izraˇcunljivosti (mora postojati svest o sloˇzenosti
problema i ograniˇcenjima koja proistiˇcu iz toga), teorije (adaptivnog) upravljanja,
informacione teorije, psihlogije i neurobiologije (neuronske mreˇze), filozofije,
kognitivnih i drugih nauka. Cilj je napraviti programe koji bi bili u stanju
da uˇce - zaˇsto bi raˇcunari i maˇsine uopˇste morali da budu u stanju da uˇce
? Pored mogu´cnosti istraˇzivanja i isprobavanja razliˇcitih modela uˇcenja kod
ljudi i ˇzivotinja u psihologiji, postoje daleko praktiˇcniji razlozi za tako neˇsto:
• neki se problemi nemogu jednostavno definisati osim primerima u toku
praktiˇcnog rada (npr. prepoznavanje glasa ili problemi vizije kod kojih
je neophodno personalizovati bazu znanja o konkretnom glasu ili licu
koji se prepoznaje radi autentifikacije ili zbog optimalnijeg rada) ili
ako okruˇzenje u kojem se koristi sistem nije poznato u toku njegovog
projektovanja
• u velikoj koliˇcini podataka se kriju neoˇcigledni entiteti i relacije med¯u
njima - problem otrivanja znanja (Data Mining): postoje metode ma-
ˇsinskog uˇcenja koje se uspeˇsno primenjuju u mnogim oblastima
• ˇcesto su koliˇcine podataka i odnosa u njima toliko velike da je ljudima
praktiˇcno nemogu´ce da znanje u njima u celini obuhvate, koriste ili
zapiˇsu - onda je praktiˇcnije, ako je mogu´ce, postupno maˇsinski obuhvatiti
takvo znanje
• maˇsine i programi koji se prilogad¯avaju okruˇzenju koje se menja vremenom
(dinamiˇcki sistemi) su ˇcest i potreban zahtev u mnogim oblastima, a
za mnoge zadatke je cilj na´ci reˇsenje koje se fleksibilno prilagod¯ava
umesto da se koriste metode veˇstaˇcke inteligencije kojima je potreban
reinˇzenjering nakon svake suˇstinske promene
Ve´cina danaˇsnjih praktiˇcno uspeˇsnih sistema maˇsinskog uˇcenja spada u one
koji su ,,tabula rasa” ˇsto se tiˇce nekakvog predznanja (znanja kojim uˇcenik
raspolaˇze pre nego ˇsto krene da uˇci), pored reprezentacije hipoteze i primera
- tek neke metode pokazuju potencijal u tom smislu (uˇcenje objaˇsnjenjima
Maˇsinsko uˇcenje, inteligentni agenti 5
i Bajesove mreˇze) i zato je neophodno dalje unapred¯ivanje sliˇcnih metoda.
Budu´cnost maˇsinskog uˇcenja je i u sistemima koji se ne tiˇcu samo jednog
zadatka ili tipa zadataka ve´c predstavljaju uopˇstene i fleksibilne sisteme koji
uˇce dugo (life-long learning: samostalni agenti koji starenjem poboljˇsavaju
performanse, uˇce nove reprezentacije, itd.), kao i u razvojnim okruˇzenjima (i
moˇzda proˇsirenjima programskih jezika) koja sadrˇze neophodne mehanizme
potrebne za maˇsinsko uˇcenje. Na kraju, tek je naˇceto istraˇzivanje mogu´cnosti
uˇcenja prirodnim jezikom kao izvorom iskustva - najve´ci deo danaˇsnjeg polustruktuiranog
sadrˇzaja interneta je upravo u obliku nekakvog teksta.
1.1 Pojam maˇsinskog uˇcenja
Jedna preciznija definicija pojma maˇsinskog uˇcenja (kako se navodi u
[TM-ML]) bi bila:
Definicija 1.1 Program (maˇsina) M uˇci iz iskustva E u odnosu na klasu
zadataka T i meru performansi P (mera je definisana nad osobinom ili
skupom osobina koje takod¯e moraju biti definisane), ako se mera performansi
P programa poboljˇsava u vezi zadataka T nakon iskustva E.
U primeru prepoznavanja pisanog teksta T je prepoznavanje i klasifikovanje
reˇci ili slova u datoj slici, P je procenat ispravno prepoznatih, E je skup
obuˇcavanja koji ˇcini bazu zadatih slika slova i reˇci i njihovih klasifikacija.
Klasiˇcan je primer i Sejmurov program koji uˇci da igra dame. Mera performansi
je onda sposobnost da pobedi protivnika nakon iskustva steˇcenog u igranju
protiv samog sebe ili protivnika koji ume da igra. Objekat uˇcenja mogu biti
razliˇcite konceptualizacije sveta, odnosno izraˇcunljive strukture:
• funkcije - mnogi se problemi mogu svesti na zadatak traˇzenja preslikavanja
f nad nekim skupovima gde je hipoteza preslikavanje h (iste arnosti)
a skup obuˇcavanja S je odred¯en broj parova zadatih vrednosti domena
i f, a cilj je da se h iz neke klase fukcija H ˇsto bolje ,,poklapa” sa
f (h = f, idealno). Na primer funkcija evaluacije u teoriji igara koja
je obiˇcno predstavljena vektorom parametara (uz npr. LMS pravilo
uˇcenja)
• logiˇcki programi, frejmovi - osnovni vid konceptualizacije sveta u kojem
se traˇzi reˇsenje nekog problema je jezik PR1 ili nekog od njegovih
,,dijalekata” (npr. PROLOG) kao i druge formalizacije
6 Seminarski rad
• produkciona pravila
• konaˇcni automati, formalne gramatike
• neuronske mreˇze i drugi sistemi koji reˇsavaju probleme
1.2 Tipovi uˇcenja i osnovne odlike
Osnova podela tipova uˇcenja vezuje se za uˇcenje funkcija, ali se uoˇcava
sliˇcno i sa drugim objektima uˇcenja:
Nadgledano (supervised) - kada su zadate vrednosti funkcije u skupu obuˇcavanja
(trivijalan primer moˇze biti interpolacija ili fitovanje krive)
Nenadgledano (unsupervised) - kada nisu zadate vrednosti funkcije u skupu
obuˇcavanja (obiˇcno se svodi na neki problem klasifikovanja tj. kao da
je u prethodnom sluˇcaju vrednost zapravo klasa pripadnosti)
Hipoteza kao nauˇceno znaˇcenje konceptualizacije sveta (okruˇzenja) i njena
taˇcnost kao polazna mera performansi su zajedniˇcke ve´cini sistema maˇsinskog
uˇcenja. Struktura jednog prototipa takvog klasiˇcnog sistema (npr. mnogi
problemi igara, klase neuronskih mreˇza, razliˇciti sistemi prepoznavanja ˇsablona
ili klasifikacije, itd.) je prikazana pomo´cu ˇcetiri povezane celine:
o
(igra sa tablom b)
(game history)
Kriticar
Hipoteza
Parovi
performansama
Sistem sa
Generalizator
eksperimenata
Generator
Rezultati
Novi problem
(b, V (b))
Maˇsinsko uˇcenje, inteligentni agenti 7
Tako je opisan, na primer, program koji igra dame sa funkcijom evaluacije V
koja ima koeficijente wi i vrednostima stanja table xi kao n-torke b domena te
funkcije kao objekta uˇcenja. Sistem sa performansama i radnom hipotezom
V daje nekakvo reˇsenje (solution trace, npr. lista poteza tj. stanja b i
ocena njihovih vrednosti) koje preuzima kritiˇcar - postoji skup obuˇcavanja
kojeg ˇcine parovi (b, Vo(b)), ali ovima kritiˇcar pridruˇzuje ,,iskustvo” nastalo
nakon svake partije tako ˇsto za med¯upoteze u partiji (pogotovu za koje nema
vrednosti u skupu obuˇcavanja) uzima ocenu vrednosti Vo(b) ← V (succ(b))
(pravilo ocene vrednosti obuke, gde je succ(b) stanje table nakon poteza
programa, tj. ono kod kojeg se oˇcekuje slede´ci potez protivnika). Ovo
je pogotovu korisno ako je jedino iskustvo dostupno nastalo u partijama
odigranim protiv samog sebe (ovo je dodatno korisno kod sistema koji nemogu
da prevazid¯u problem ,,loˇseg iskustva” kada uˇce od protivnika koji ne zna
dobro da igra - Semjuelov primer). Sigurno je poznato samo da je neko
dobio ili izgubio partiju, a na ovaj naˇcin se ocenjuju i med¯uvrednosti funkcije
evaluacije, ali se i koristi i nauˇceno znanje. Pokazuje se da je ovo veoma
efikasan metod uˇcenja i u posebnim sluˇcajevima (uˇcenje sa ojaˇcavanjem)
moˇze se pokazati da obavezno teˇzi ka najboljem reˇsenju (npr. perceptron, u
sluˇcajevima kada takvo reˇsenje postoji). Generalizator je komponenta koja
ima ulogu primene steˇcenog znanja na osnovu pravila uˇcenja i njegov rezultat
je nova hipoteza - npr. LMS (Least Mean Squares) podrazumeva da najbolja
hipoteza minimizuje zbir kvadrata greˇsaka (razlike pojedinih vrednosti iz
skupa obuˇcavanja i hipoteze) E = (b,Vo(b))∈S [Vo(b) − V (b)]2
i to se realizuje,
na primer, slede´cim iterativnim pravilom uˇcenja:
wi ← wi + η[Vo(b) − V (b)]xi
gde je η ∈ (0, 1) parametar brzine uˇcenja. Nova hipoteza bi trebala da
svakim ovakvim ciklusom (epohom) daje bolje performanse. Na osnovu
nje, trenutnog skupa obuˇcavanja i strategije uˇcenja generator eksperimenata
kreira novo poˇcetno stanje (prazna tabla u konkretnom sluˇcaju). U opˇstem
sluˇcaju su mogu´ce mnoge varijacije ovakve strukture uˇcenja gde se pored
drugaˇcijeg izbora iskustva i generisanja sluˇcajeva moˇze izabrati drugaˇcija
strategija uˇcenja koja podrazumeva i drugaˇciju funkciju evaluacije (koja je
ponekad i objekat uˇcenja, objektivna funkcija) i njenu reprezentaciju, kao i
drugaˇciji algoritam uˇcenja (npr. gradijent metoda, dinamiˇcko programiranje
i drugo) tj. generalizatora. Tu se postavljaju mnoga pitanja - kako realizovati
opisane komponente optimalno, kakav skup obuˇcavanja je potreban (koliki
broj parova, kako raznovrsnost utiˇce na sposobnost generalizacije nauˇcenog
8 Seminarski rad
znanja), kako (i zaˇsto) ograniˇciti klasu raspoloˇzivih hipoteza i drugo. Takod¯e,
veoma je vaˇzan izbor ˇclanova skupa obuˇcavanja i naˇcin evaluacije performansi
uˇcenja - koliko je potrebno parova obuˇcavanja da bi se postiglo optimalno
vreme i performanse uˇcenja ? Ako je skup parova obuˇcavanja ujedno i jedini
izvor znanja za sistem koji uˇci, i jedini izvor za ocene performansi uˇcenja -
kako biti siguran da ´ce sistem kasnije uspeˇsno raditi i sa nepoznatim parovima
van skupa obuˇcavanja (koliko je u stanju da generalizuje) ? ˇCest praktiˇcan
metod da se ovo postigne je podela skupa obuˇcavanja na n particija (n folds,
gde je n obiˇcno izmed¯u 3 i 10), gde se u n iteracija jedna particija koristi
za ocenu performansi a ostale za uˇcenje. O nekim drugim metodima ´ce
viˇse detalja biti u narednim poglavljima. Cilj daljeg teksta pre svega je
pregled razliˇcitih metoda uˇcenja bez posebnog razmatranja detalja osim kao
ilustracije naˇcina primene i pregleda sadrˇzaja.
1.3 Neuronske mreˇze i genetski algoritmi
Neuronske mreˇze i genetski algoritmi (evoluciono programiranje) kao pa-
radigme Soft Computing oblasti prirodno podrˇzavaju mnoge aspekte maˇsin-
skog uˇcenja. Izmed¯u ostalog, predstavljaju dobar primer sistema u kome
je primenjeno maˇsinsko uˇcenje. Ako se pod¯e od klase NM sa povratnim
propagiranjem (kao i nekih drugih), kod uopˇstenog prototipa sistema maˇsinskog
uˇcenja mogu se prepoznati onda svi njegovi elementi - zadaci koje sistem mora
da vrˇsi, performanse sistema koje se mere (recimo, numeriˇcka taˇcnost NM
ili efikasnost klasifikacije, LMS greˇska), kao i iskustvo i skupovi obuˇcavanja.
Strategije obuˇcavanja i struktura mogu biti i veoma drugaˇcije od opisanog
primera i prototipa ˇsto je obiˇcno posledica specifiˇcnog domena i problema
koji se reˇsava ovakvim sistemima. NM pokazuju osobine induktivnih sistema
maˇsinskog uˇcenja - imaju sposobnost generalizacije na osnovu datih primera.
Genetski algoritmi u opˇstem sluˇcaju se mogu posmatrati kao algoritmi
maˇsinskog uˇcenja koji uˇce (odnosno traˇze) hipotezu gde je prostor hipoteza
uslovljen specifiˇcnim prostorom pretrage konkretnog GA sa svojim zadatkom
- postavlja se onda pitanje: kakvu ulogu ima iskustvo kod GA ? Objektivna
funkcija (,,fitnes populacije”) se moˇze zadati ili menjati primerima, i tada
imamo iskustvo i uˇcenje - na primer, GA koji generiˇse program (ili neki drugi
izraˇcunljivi formalizam) sa iskustvom zadatim osobinama. Tada se nekim
metrikama kao ˇsto su taˇcnost rezultata na osnovu zadatih ulaza (instanci),
duˇzinom koda ili efikasnoˇs´cu definiˇse objektivna funkcija.
Maˇsinsko uˇcenje, inteligentni agenti 9
Navedeni su samo neki od mnogih primera primene NM i GA u oblastima
maˇsinskog uˇcenja bez posebnih detalja u vezi istih.
Prvih ˇsest poglavlja ovog rada se odnose na maˇsinsko uˇcenje i oslanjaju
se najve´cim delom na knjigu [TM-ML], dok se poslednja dva odnose na
inteligentne agente gde se koriste prikazi arhitkture i tipova iz [GN], i primeri
iz [TIS] (kao i za sedmo poglavlje o otkrivanju znanja).
10 Seminarski rad
2 Uˇcenje koncepta i ured¯enje od opˇsteg ka
posebnom
Jedno od centralnih pitanja maˇsinskog uˇcenja je otkrivanje opˇsteg znanja
ili funkcija na osnovu datih specifiˇcnih primera (u skupu obuˇcavanja). Ako
se koncept u smislu deklarativnog znanja moˇze opisati pozitivnim primerima
(ˇsta on jeste) ili negativnim primerima (ˇsta on nije), onda se uˇcenje koncepta
moˇze formulisati kao pretraˇzivanje prostora (potencijalnih) hipoteza (verzija,
kasnije) sa ciljem pronalaˇzenja hipoteze koja najbolje odgovara datim primerima.
Ovo se u mnogim sluˇcajevima moˇze pojednostavniti koriˇs´cenjem strukture
tog prostora - ured¯enjem med¯u hipotezama od opˇsteg ka posebnom. Ovo je
ujedno i vid primene induktivnog zakljuˇcivanja i uˇcenja - ˇcesto se oˇcekuje
od sistema koji uˇci da bude u stanju da uopˇstava, da zakljuˇci neˇsto ako je
potrebno ve´c na osnovu jednog primera ili da sa naknadno dodatim novim
primerima promeni svoje znanje.
2.1 Uˇcenje koncepta
Metoda uˇcenja koncepta (ili pretraˇzivanja prostora hipoteza) je metoda
koja je u osnovnom obliku korisna i kao pojaˇsnjenje problema induktivnog
uˇcenja i kao veoma praktiˇcna metoda u nekim poboljˇsanim varijantama.
Moˇze se posmatrati i kao traˇzenje Bulove funkcije na osnovu datih primera
(svi mogu´ci atributi sa njihovim vrednostima su argumenti funkcije koja ima
dve vrednosti, ˇsto je zapravo relacija), pa se umesto algebarske strukture i
njenog modela pod konceptom ovde podrazumeva Bulova funkcija:
Definicija 2.1 Koncept c je Bulova funkcija nad skupom instanci X, tj.
c : X → {0, 1}. Intanca x pripada konceptu c akko je c(x) = 1.
Instance su zadati vektori konkretnih vrednosti atributa i vrednosti te funkcije
(koncepta), a hipoteza h ∈ H je Bulova funkcija koja aproksimira ciljni
koncept. Skup (prostor) H hipoteza je zapisan kao vektor uslova (constraint)
za te atribute, gde svaki atribut moˇze imati: konkretnu vrednost u hipotezi,
proizvoljnu vrednost (ˇsto se prikazuje jednostavnosti radi sa ,,?”kao nekakav
asterisk) ili nijednu (prikazuje se, opet radi jednostavnosti, sa ∅). Instanca
x ∈ D iz skupa primera D ⊆ X moˇze tako da zadovolji hipotezu (pozitivna,
c(x) = 1) ili da je ne zadovolji (negativna, c(x) = 0). Najopˇstija hipoteza je
Maˇsinsko uˇcenje, inteligentni agenti 11
onda oblika (?, ?, ..., ?), a najposebnija je oblika (∅, ∅, ..., ∅) (zapravo, dovoljno
je da bilo koji atribut ima ∅ kao ograniˇcenje da bi sve instance bile odbaˇcene
- veliki broj hipoteza osim ovakvih je semantiˇcki ekvivalentan). Polazna
pretpostavka induktivnog uˇcenja je da je bilo koja hipoteza koju zadovoljavaju
zadati primeri (dovoljno veliki broj takvih) u stanju da dobro aproksimira
ciljni koncept svim predstavljen primerima (induktivna pretpostavka). Za
hipotezu hj se kaˇze da je opˇstija ili jednaka hk akko (∀x ∈ X)hk(x) = 1 ⇒
hj(x) = 1, i to se zapisuje kao hj ≥g hk. Stroga opˇstost se definiˇse sa:
hj >g hk akko hj ≥g hk ∧ hk g hj, a tako se mogu definisati i odgovaraju´ce
relacije posebnosti. Ovo su relacije parcijalnog ured¯enja (za svaki lanac vaˇzi
da postoji donja i gornja granica).
Algoritam (Find-S) koji nalazi maksimalno specifiˇcnu (posebnu) hipotezu
na osnovu datih primera:
1. h ← (∅, ∅, ..., ∅)
2. za svaku pozitivnu instancu x,
za svaki uslov ai u h:
ako ai nije zadovoljen sa x onda’
zameni ai sa slede´cim opˇstijim uslovom koji je
zadovoljen sa x (vrednost ili ,,?”)
3. rezultat je hipoteza h
(preuzet primer iz [TM-ML])
12 Seminarski rad
Algoritam u osnovi dobro radi sa prostorom hipoteza koje se sastoje od
konjunkcija uslova (dosad opisane, proste hipoteze) i ako nema pogreˇsnih
primera. Za druge prostore je potrebno dodati backtracking da bi se pokrili
i drugi lanci sa svojim maksimalno specifiˇcnim hipotezama.
2.2 Algoritam eliminacije kandidata
Ovaj algoritam (Mitchell, prva primena 1979.) pristupa problemu uˇcenja
koncepta tako ˇsto traˇzi skup svih hipoteza konzistentnih sa datim primerima
za razliku od prethodnog koji nalazi jedan (i ostaje pitanje da li je to jedini
takav i ispravan). Ovo je poznato i kao metod (i problem) formacije koncepta.
Hipoteza h je konzistentna (saglasna) sa skupom primera D (zapisano kao
h ∼ D) akko h(x) = c(x) za svaki primer (x, c(x)) ∈ D. Prostor verzija
(mogu´cnosti) V SH,D je podskup prostora hipoteza H konzistentnih sa primerima
u D: V SH,D = {h ∈ H| (∀(x, c(x)) ∈ D)h(x) = c(x)}. Program koji uˇci
(uˇcenik L) je konzistentan ako daje konzistentne hipoteze. Uopˇstena granica
(ili granica uopˇstenja, general boundary) je skup maksimalno uopˇstenih ˇclanova
H konzistentnih sa D, a specifiˇcna granica (ili granica posebnosti, specific
boundary) je skup minimalno uopˇstenih hipoteza iz H konzistentnih sa D.
Algoritam listaj-pa-eliminiˇsi (list-then-eliminate) uzima prostor verzija kao
spisak najpre svih u H a onda eliminiˇse sve koji nisu konzistentni sa svaki
primerom u D redom. Takav algoritam ipak nije pogodan za dovoljno veliki
prostoh hipoteza (koji nemora biti konaˇcan uopˇste).
Definicija 2.2 Opˇsta granica GH,D, u odnosu na skup dopustivih hipoteza
H i skup primera za uˇcenje D, je skup najopˇstijih hipoteza iz H saglasnih sa
primerima iz D, odnosno:
G = {g ∈ H| g ∼ D ∧ (¬∃g′
∈ H)[(g′
>g g) ∧ g′
∼ D]}
Definicija 2.3 Specifiˇcna granica SH,D, u odnosu na skup dopustivih hipoteza
H i skup primera za uˇcenje D, je skup najmanje opˇstih hipoteza iz H saglasnih
sa primerima iz D, odnosno:
S = {s ∈ H| s ∼ D ∧ (¬∃s′
∈ H)[(s >g s′
) ∧ s′
∼ D]}
Koriste´ci kompaktniji prikaz prostora verzija granicama G i S algoritam
eliminacije kandidata to reˇsava. Teorema reprezentacije prostora verzija
Maˇsinsko uˇcenje, inteligentni agenti 13
pokazuje da za svaki skup instanci X, hipoteza H, ciljni koncept c i skup
primera D za koje je G i S definisan vaˇzi:
V SH,D = {h ∈ H : (∃s ∈ S)(∃g ∈ G) g ≥g h ≥g s}
Algoritam eliminacije kandidata je onda:
1. G ← (?, ?, ..., ?) (ili inicijalizacija uopˇstenom granicom)
S ← (∅, ∅, ..., ∅) (ili inicijalizacija specifiˇcnom granicom)
2. za svaki primer d iz skupa obuˇcavanja:
• ako je d pozitivan primer:
– izuzmi iz G sve hipoteze koje nisu konzistentne sa d
– za svaku hipotezu s ∈ S koja nije konzistentna sa d:
∗ izuzmi s iz S
∗ dodaj u S sva minimalna uopˇstenja h od s takva da je:
h konzistentno sa d, i neka hipoteza
iz G je opˇstija od h
∗ izuzmi iz S sve hipoteze koje su opˇstije od S
• ako je d negativan primer:
– izuzmi iz S sve hipoteze koje nisu konzistentne sa d
– za svaku hipotezu g ∈ G koja nije konzistentna sa d:
∗ izuzmi g iz G
∗ dodaj u G sva minimalne specijalizacije h od g td. je:
h konzistentno sa d, i neka hipoteza
iz S je posebnija od h
∗ izuzmi iz G sve hipoteze koje su manje opˇste od G
3. rezultat je ograniˇcen sa S i G.
Primer (uzeto iz [TM-ML], kao i nekoliko joˇs primera u daljem tekstu):
14 Seminarski rad
Algoritam eliminacije kandidata konvergira ka reˇsenju ako postoji ciljna hi-
poteza u prostoru hipoteza koja taˇcno opisuje ciljni koncept i ako nema
greˇsaka u primerima - idealno dobija se prostor verzija koji sadrˇzi taˇcno jednu
hipotezu. Ako postoji greˇska u primerima ili ako prostor hipoteza ne sadrˇzi
nijednu hipotezu koja opisuje ciljni koncept dobija se prazan prostor verzija.
Brzina konvergiranja je idealno najve´ca kada se biraju naredni primeri kojima
se broj hipoteza u prostoru verzija koji je konzistentan prepolovi - tada bi
bio dovoljan log2 |V S| primera (eksperimenata). Ako nije do kraja nauˇcen,
pozitivan primer se slaˇze sa svima u S, negativan ni sa jednim u G - ali
ne menja prostor verzija. Ako je broj pozitivnih ili negativnih ve´ci od
drugih u prostoru verzija nedovoljnog nauˇcenog koncepta i ako je prihvatljiva
Maˇsinsko uˇcenje, inteligentni agenti 15
pretpostavka da su sve hipoteze podjednako verovatne u H, onda se uzima
da je proporcionalno verovatno instanca pozitivna, odnosno negativna.
2.3 Induktivni bias
Ako se prostor hipoteza izabere tako mu ne pripada hipoteza koja pokriva
ciljni koncept (npr. skup konjunktivnih hipoteza, a ciljni koncept je disjunkcija
koja nije pokrivena) onda su pretpostavke o klasi hipoteza prejake i prostor
hipoteza nije dovoljno izraˇzajan dabi se dobio rezultat. Ako prostor hipoteza
nije dovoljno ili nije uopˇste uslovljen tj. sadrˇzi sve raspoloˇzive hipoteze (sve
koncepte koji se mogu nauˇciti - sve podskupove domena X funkcije koja
se uˇci), algoritam nije u stanju viˇse da generalizuje jer mu upravo bias
prostora hipoteza H - tj. uslovi kojima se definiˇse njegova struktura, ili
konceptualni bias - daje za to potrebno ,,znanje”. Bez konceptualnog biasa
ili nekog drugog uslova se algoritam svodi na skupljanje pojedinih pozitvnih
i negativnih primera (,,rote-learner” - S je uvek onda disjunkcija pozitivnih
primera a G negacija disjunkcije negativnih).
Ako je Dc = {(x, c(x))} skup primera ciljnog koncepta c, algoritam L koji
uˇci nakon obuˇcavanja klasifikuje novu instancu xi bilo pozitivno ili negativno,
ˇsto se zapisuje kao L(xi, Dc). Ovo je induktivno zakljuˇcivanje (xi ∧ Dc) ≻
L(xi, Dc) (klasifikacija se zakljuˇcuje induktivno na osnovu Dc i xi). Pokazuje
se da je induktivni (ili logiˇcki) bias B algoritma L skup dodatnih pretpostavki
dovoljnih da se deduktivnim zakljuˇcivanjem dod¯e do istog rezultata: (B ∧
Dc ∧xi) ⊢ L(xi, Dc). Za algoritam eliminisanja kandidata to je B = {c ∈ H}
(Find-S ima joˇs jaˇci bias). Na taj naˇcin se svakom induktivnom sistemu
zakljuˇcivanja pridruˇzuje odgovaraju´ci ekvivalentan deduktivni. Metod formacije
koncepta je tako potpupno odred¯en kao ˇcetvorka L = (P, N, H, B) - P je skup
pozitivnih primera, N je skup negativnih primera, H je konceptualni bias, a
B je logiˇcki bias. Poseban izazov predstavljaju algoritmi koji uˇce i otkrivaju
sopstveni bias uporedo.
2.4 Uˇcenje drvetom odluke
Metod sliˇcan prethodno opisanom uˇcenju koncepta koji koristi sistem i
algoritam ID3 (kao i ASSISTANT i C4.5) koji generiˇse pravilo, odnosno drvo
klasifikacije za dati koncept sa svojim atributima i njihovim vrednostima.
Njegov induktivni bias je prednost malih drve´ca nad ve´cim, a u stanju je
16 Seminarski rad
da klasifikuje i disjunktivne koncepte. Ovakav metod moˇze da bude daleko
efikasniji od drugih sistema za induktivno uˇcenje, ali i neprimenjiv u nekim
sloˇzenim domenima. Postoje varijante (bagging, random forest) koje uporedu
razvijaju viˇse takvih drveta.
2.4.1 Reprezentacija
Uˇcenje drvetom odluke predstavlja vid aproksimacije funkcije (diskretne
vrednosti) atributa i njihovih diskretnih vrednosti. Drvo odluke klasifikuje
instancu prihvataju´ci atribute od korena do lista jedne grane, a moˇze se
posmatrati i kao spisak ako-onda pravila (svaka grana predstavlja konjunkciju
uslova nad atributima, a celo drvo disjunkciju). Primer (Quinlan, 1986, za
ID3) drveta za PlayTennis koncept:
(primer takod¯e preuzet iz [TM-ML])
koji predstavlja izraz:
(Outlook = Sunny) ∧ (Humidity = Normal)
∨ (Outlook = Overcast)
∨ (Outlook = Rain ∧ Wind = Weak)
Kao ˇsto se vidi, instance su predstavljene listama parova atribut-vrednost,
ciljna funkcija u primeru je Bulova ali se moˇze proˇsiriti na diskretnu ili ˇcak
realnu funkciju. Instance primera mogu sadrˇzati greˇske (bilo u vrednosti
atributa ili klasifikacije) ili nedefinisane vrednosti atributa. Glavno pitanje je
od kojeg atributa krenuti s klasifikacijom - cilj je izabrati najkorisniji atribut
Maˇsinsko uˇcenje, inteligentni agenti 17
(sliˇcno biranju instance koja polovi prostor verzija u problemu formacije
koncepta), i to se ˇcini ocenjivanjem statistiˇcke osobine informacione dobiti
(snage, information gain) koja se definiˇse entropijom skupa S:
E(S) ≡ −p⊕ log2 p⊕ − p⊖ log2 p⊖
gde je p⊕ proporcionalan odnos pozitivnih instanci u S, a p⊖ odnos negativnih
u S (ima vrednost nula ako svi primeri pripadaju istoj klasi). Ako ciljni
atribut u opˇstem sluˇcaju ima c diskretnih vrednosti onda je E(S) ≡ c
i=1 −pi log2 pi.
Ako je V alues(A) skup vrednosti atributa A i Sv = {s ∈ S : A(s) = v}
(skup instanci gde A ima vrednost v) onda je:
Gain(S, A) ≡ E(S) −
v∈V alues(A)
|Sv|
|S|
E(Sv)
Verzija ID3 algoritma za Bulove funkcije (CLS algoritam, Hunt, 1966):
ID3(S, c, atributi)
1. kreiraj ˇcvor Koren stabla
2. ako su svi primeri u S pozitivni,
vrati Koren sa oznakom=+
3. ako su svi primeri u S negativni,
vrati Koren sa oznakom=−
4. ako je atributi lista atributa koje treba testirati prazna,
vrati Koren sa oznakom=najˇceˇs´ca vrednost u primerima
5. inaˇce:
(a) A ← iz atributi liste atribut koji najbolje klasifikuje prema Gain(S, A),
Koren ← A
(b) za svaku vrednost vi atributa A:
i. dodaj novu granu ispod Koren za uslov A = vi
ii. ako je Svi
prazan
• onda: ispod dodaj list sa oznakom=najˇceˇs´ca vrednost u
primerima
18 Seminarski rad
• inaˇce: dodaj ispod poddrvo ID3(Svi
, c, atributi − A)
6. vrati Koren
Ovakav ID3 algoritam se lako moˇze uopˇstiti za funkciju diskretnih vrednosti
(oznaka), i koristi se obiˇcno prozor koji ˇcini podskup skupa primera (zadate
veliˇcine) nad kojim se primeni ovakav algoritam, a onda se u prozor unesu
svi izuzeci iz skupa primera koji ne odgovaraju klasifikaciji i ako ih ima
ponovi se postupak. Time se prevazilazi ograniˇcenje veliˇcine skupa primera.
Induktivni bias ID3 algoritma koji proistiˇce iz redosleda i prostora pretrage
(bias preferencije ili pretrage) je zapravo taj da preferira kra´ce drve´ce sa
ˇcvorovima ve´ce informacione snage bliˇze korenu, dok konceptualnog biasa
nema (sve konaˇcne diskretne funkcije dolaze u obzir jer mogu predstaviti
nekim drvetom odluke) - naspram metode formacije koncepta gde mora da
postoji konceptualni bias i gde je induktivni posledica takve reprezentacije
hipoteze (bias restrikcije ili jeziˇcki bias), a ne redosleda pretrage. Zato je
ID3 nema problem konceptualnog biasa, i poˇsto koristi statistiˇcke ocene svih
primera daleko je manje osetljiv na greˇske nego formacija koncepta, a lako se
moˇze omogu´citi i da prihvata hipoteze koje ne odgovaraju primerima sasvim
taˇcno. Neki sistemi mogu kombinovati biase restrikcije i pretrage, kao kod
primera uˇcenja funkcije evaluacije igre i LMS uˇcenja.
2.4.2 Okamova oˇstrica
Da li je ID3 bias opravdan ? Mnogi filozofi su vekovima razmatrali pitanje
o izboru hipoteze (i dalje raspravljaju) - Okam (William of Occam, 1320) je
to formulisao otprilike ovako: bolja je jednostavnija hipoteza koja odgovara
podacima (eksperimentima, primerima). Fiziˇcari vole ovu hipotezu - ˇcisto
kombinatornim argumentima moˇze se pokazati da kra´cih hipoteza ima daleko
manje nego duˇzih - ali postoje i kritike: postoje i druge malobrojne klase
hipoteza (veˇstaˇcke), a rezultat zavisi i od interne reprezentacije hipoteze
(obiˇcno se onda koristi evolucioni argument da biva izabrana interpretacija
koja ovaj kriterijum ˇcini uspeˇsnijim).
2.4.3 Proˇsirenja ID3
Za hipotezu h se kaˇze da overfituje (overfitting) primere ako ima manju
greˇsku nego neka druga hipoteza h′
nad primerima, ali ve´cu nad ukupnom
raspodelom instanci (van skupa primera). Problem nastaje kada postoje
Maˇsinsko uˇcenje, inteligentni agenti 19
nasumiˇcne greˇske u podacima kada nakon odred¯enog broj primera poˇcinje
da opada ukupna taˇcnost klasifikacije iako raste na skupu primera. Jedan
naˇcin je da se zaustavi rast drveta pre idealne klasifikacije primera, drugi
je da se nakon klasifikacije potkreˇse drvo (post-pruning). Kriterijumi u oba
sluˇcaja mogu biti:
• obuka i validacija - izdvajanje iz skupa primera jedan podskup na kome
se testira taˇcnost izvan skupa primera
• χ-test ili neki drugi statistiˇcki test procene performanse nad celom
raspodelom instanci (Quinlan, 1986)
• princip minimalne duˇzine opisa (Minimum Description Length - MDL,
Quinlan i Rivest 1989, Mehta 1995) - kodiranjem drveta i primera na
neki naˇcin dobija se mera sloˇzenosti tj. veliˇcina kodiranja - kada je
veliˇcina minimizovana prekida se rast drveta odluke
Kresanje se vrˇsi zamenom poddrveta listom sa najˇceˇs´com (proseˇcnom) klasifikacijom
sve dok se time ne dobija manje performantno drvo odluke. ID3 drˇzi samo
jednu hipotezu tokom pretrage za razliku od formacije koncepta, u osnovnom
obliku nema backtracking i zato je mogu´ce da nad¯e reˇsenje koje nije globalno
najbolje iako je obiˇcno performantniji od prethodnog. Ovo se takod¯e reˇsava
potkresivanjem.
Postoji tehnika potkresivanja pravila (rule post-prunning, Quinlan 1993)
u sistemu C4.5 u slede´cim koracima:
1. generiˇsi drvo uz mogu´ce overfitovanje
2. pretoˇci drvo odluke u niz pravila (za svaku granu, redom)
3. izbaci iz pravila (generalizuj) preduslove ako se time ne naruˇsavaju
performanse
4. sortiraj dobijena pravila prema ocenjenoj taˇcnosti i razmatraj ih tim
redosledom tokom klasifikacije instanci
Sliˇcno ovome, mogu´ce je drvo odluˇcivanja pretoˇciti u optimizovani graf (odluˇcivanja)
kojim se pre svega eliminiˇse redundantno poddrve´ce i time smanjuje nepotreban
broj primera.
20 Seminarski rad
Ograniˇcenje da atributi moraju biti diskretne vrednosti se moˇze prevazi´ci
dodelom karakteristiˇcnih intervala kontinualnim vrednostima, gde se za svaku
diskretnu vrednost ciljnog atributa nalazi prag ocenom najve´ce informacione
snage primera sortiranih po atributu koji se ocenjuje (Fayyad 1991).
Postoji problem kod atributa kao ˇsto je datum - iako nosi veliku informacionu
snagu, obiˇcno razdvaja primere u male grupe bez nekog velikog uticaja na
vrednost ciljnog atributa. Jedno reˇsenje je da se koristi alternativna ocena
atributa - npr. odnos snage (gain ratio, Quinlan 1986) koji je osetljiv na
uniformno deljenje primera:
SplitInformation(S, A) ≡ −
c
i=1
|Si|
|S|
log2
|Si
|S|
GainRation(S, A) ≡
Gain(S, A)
SplitInformation(S, A)
Svaki atribut moˇze prema nekim kriterijumima imati dodatno cenu Cost(A)
gde je cilj da se atributi sa ve´com cenom koriste prilikom pouzdane klasifikacije
(da bi se pove´cala zahtevana taˇcnost). Tada se koristi umesto informacione
snage Gain2
(S,A)
Cost(A)
ili 2Gain(S,A)−1
(Cost(A)+1)w gde je w ∈ [0, 1] parametar koji ocenjuje znaˇcaj
cene u odnosu na informacionu snagu (Tan, Schlimmer 1990-1993, Nunez
1991).
Ako ne postoji vrednost nekog atributa A u ˇcvoru u kome treba oceni
informacionu snagu moˇze se koristiti:
• najˇceˇs´ca vrednost primera u tom ˇcvoru
• najˇceˇs´ca vrednost primera sa vrednoˇs´cu ciljnog atributa datog primera
• umesto najˇceˇs´ce vrednosti moˇze se koristiti vrednost s najve´com procenjenom
verovatno´com primera u datom ˇcvoru (Quinlan 1993)
2.5 Vrednovanje hipoteze
Empirijsko vrednovanje taˇcnosti hipoteze je suˇstinski znaˇcajno za maˇsinsko
uˇcenje. Tri pitanja se postavljaju:
Maˇsinsko uˇcenje, inteligentni agenti 21
• ako je data taˇcnost nad skupom primera koji predstavlja manji podskup
svih mogu´cih instanci, koliko je time dobro procenjena taˇcnost nad
dodatnim primerima tj. ostalim instancama ?
• ako neka hipoteza daje bolje performanse od neke druge u skupu primera,
koliko je verovatno da je bolja uopˇste (izvan skupa primera) ?
• kako na najbolji naˇcin iskoristiti skup primera da bi se nauˇcila hipoteza
i procenila njena taˇcnost ?
Izbor instanci u skupu primera (odnosno njihova raspodela u odnosu na
ukupnu populaciju u statistiˇckom smislu) utiˇce na procenu taˇcnosti u odnosu
na ostatak instanci - bias u izboru stvara bias u proceni. ˇCak i kada nema
biasa u izboru, postoji disperzija (varijansa) u proceni koja rasta s manjim
brojem elemenata skupa primera. Ako se izbor instanci (bez vrednosti ciljnog
atributa) posmatra kao sluˇcjna promenljiva sa nekom zadatom raspodelom
nezavisno od izbora ranijih primera ili od hipoteze, onda se postavljaju
pitanja: koja je procena taˇcnosti hipoteze h za budu´ce instance nad tom
raspodelom, i kolika je greˇska takve procene ?
Greˇska uzorkovanja hipoteze h za ciljnu funkciju f i skup primera S je
eS(h) ≡ 1
n x∈S δ(f(x), h(x)) gde je δ(f(x), h(x)) = 1 samo ako je f(x) =
h(x), inaˇce je δ(f(x), h(x)) = 0. Prava greˇska da ´ce hipoteza pogreˇsno
klasifikovati novu instancu nad datom distribucijom je: eD ≡ PX:D[f(X) =
h(X)]. Tada, ako je:
• skup primera S prema raspodeli D ima n elemenata
• n eS(h)[1 − eS(h)] ≥ 5 (npr. n ≥ 30 ako eS(h) nije preblizu 0 ili 1 -
posledica centralne teoreme)
• hipoteza h napravi r greˇsaka tj. eS(h) = r/n
bez drugih informacija vaˇzi da je eS(h) = eD(h) i sa verovatno´com N (N ·
100%) eD(h) leˇzi u intervalu poverenja eS(h)±zN
eS(h)[1−eS(h)]
n
(zN je vrednost
argumenta gustine normalne (Gausove) raspodele koja odred¯uje dvostrani
interval poverenja koji sadrˇzi N · 100% vrednosti tj. sa verovatno´com N
sadrˇzi vrednosti iz te raspodele). Greˇska eD(h) poˇstuje binomnu raspodelu
(ako se posmatra verovatno´ca da se r puta napravi pogreˇsna klasifikacija svaki
put s verovatno´com p tako da je eS(h) = r/n), pa je eS(h) ocena (estimator)
22 Seminarski rad
za eD(h) = p. Ocena je dobra ako nema bias tj. E[eS(h)] − eD(h) = 0 ˇsto i
jeste taˇcno. Onda je σeS(h) = σr
n
= p(1−p)
n
tj. σeS(h) ≈ eS(h)(1−eS(h))
n
.
2.5.1 Upored¯ivanje hipoteza
Ako je d = eS1 (h1) − eS2 (h2) treba oceniti d = eD(h1) − eD(h2). Poˇsto
je σ2
bd
≈
eS1
(h1)(1−eS1
(h1))
n1
+
eS2
(h2)(1−eS2
(h2))
n2
onda je d ocena za d sa N · 100%
intervalom poverenja d ± zN σbd.
Sliˇcno, upotrebom t-raspodele (Student) mogu se upored¯ivate performanse
dva razliˇcita algoritma uˇcenja ([TM-ML]).
2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja
Jedna od reprezentacija funkcije kao formalizma koji predstavlja objekat
uˇcenja - kao ˇsto su to Bulove funkcija, drvo odluˇcivanja, neuronska mreˇza i
drugo - moˇze biti i kod programa. Moˇze se pokazati da su neki formalizmi
ekvivalentni u smislu izraˇzajnosti (znanje prikazano na jedan naˇcin moˇze
se prikazati i na drugi naˇcin), na primer iskazni raˇcun, drveta odluˇcivanja
i Bulove funkcije. Med¯utim, PR1 je izraˇzajniji od prethodnih - suˇstinska
razlika je da moˇze sadrˇzati promenljive, a takve su specijalno Hornove klauzule
(prvog reda) ˇcije konjunkcije predstavljaju osnovni zapis mnogih logiˇckih
jezika med¯u kojima je i PROLOG programski jezik. Uˇcenje pravila oblika
ako-onda je u mnogo ˇcemu praktiˇcno korisno, ali pre svega je intuitivno bliˇze
ljudskom zapisu znanja.
Osnovna klasa algoritama za uˇcenje ovakvih pravila su algoritmi sekvencijalnog
pokrivanja koji otkrivaju pravilo po pravilo u iteracijama, i svakim otkrivenim
pravilom se uklanjaju primeri koji su njime pokriveni. Za to je potrebna
procedura nauˇci-jedno-pravilo koja otkriva jedno pravilo za dati skup pozitvnih
i negativnih primera, gde otkriveno pravilo idealno pokriva samo pozitivne
primere (pokriva ih ako se shvati kao relacija koja je tada ispunjena), ali
se neki put moˇze dozvoliti da prihvati i ˇsto manji broj negativnih primera.
Iteracije se vrˇse dokle god ima pozitivnih primera ili sve dok se ne pred¯e zadati
prag performansi pravila - dobijeni skup pravila se moˇze onda i sortirati
prema performansama (c je ciljni atribut, A skup atributa, E skup primera):
• L ← {}
Maˇsinsko uˇcenje, inteligentni agenti 23
• Pravilo ← nauˇci-jedno-pravilo(c,A,E)
• dokle Performanse(Pravilo,E) > prag:
– L ← L + Pravilo
– E ← E − { primeri koji su ispravno klasifikovani pravilom }
– Pravilo ← nauˇci-jedno-pravilo(c,A,E)
• sortiraj dobijena pravila u L prema performansama
Poˇsto je ovakvo pretraˇzivanje prostora hipoteza ,,gramzivo” (greedy - nema
backtracking), nije garantovano da ´ce biti pronad¯ena optimalna hipoteza.
Jedan praktiˇcan naˇcin da se realizuje procedura nauˇci-jedno-pravilo je pretraˇzivanje
sliˇcno ID3 od opˇsteg ka posebnom, ali usmereno uvek granom koja najviˇse
obe´cava - najve´ce performanse, npr. da je entropija pokrivenih primera
najmanja ili da je najve´ca frekvencija uspeˇsno klasifikovanih u odnosu na
pokrivene primere (umesto da gradi poddrvo za sve vrednosti izabranog
atributa). Da bi se smanjio rizik gramzivog pretraˇzivanja pamti se k najboljih
kandidata pri svakom koraku umesto jednog, i to se zove zrakasto pretraˇzivanje
(beam search) - ovakav algoitam koristi CN2 (Clark, Niblett, 1989):
nauˇci-jedno-pravilo(c,A,E,k)
• Najbolja-hipoteza ← ∅ /* najopˇstija hipoteza */
• skup-kandidata ← { Najbolja-hipoteza }
• dokle god skup-kandidata nije prazan:
1. Generiˇsi slede´cu specifiˇcniju hipotezu:
(a) svi-uslovi ← { a=v }
/* ∀ a ∈ A, ∀ v koje se pojavljuje u E za atribut a */
(b) novi-kandidati ←
za svaku h ∈ skup-kandidata:
za svaki u ∈ svi-uslovi:
kreiraj specijalizaciju h dodavanjem u
(c) izbaci sve hipoteze iz skupa novi-kandidati koje su ponovljene,
nekonzistentne, ili nisu maksimalno specifiˇcne
2. Najbolja-hipoteza se menja:
24 Seminarski rad
– za svaku h ∈ novi-kandidati:
ako Performanse(h,E,c) > Performanse(Najbolja-hipoteza,E,c)
onda Najbolja-hipoteza ← h
3. skup-kandidata se menja:
– skup-kandidata ← k najboljih iz skupa novi-kandidati prema
performansama
• vrati pravilo oblika:
”Ako Najbolja-hipoteza onda predvid¯anje”
gde je predvid¯anje najfrekventnija vrednost ciljnog atributa c med¯u
primerima E koji odgovaraju hipotezi Najbolja-hipoteza
Varijantu ovakvog algoritma koristi AQ (Michalski, 1986).
2.6.1 Induktivno logiˇcko programiranje
Maˇsinsko uˇcenje koje koristi logiˇcke programe u PR1 kao objekte uˇcenja
je ILP (Lavraˇc, Dˇzeroski, 1994). Tako se npr. moˇze realizovati ekskluzivno
ili (kao ekvivalentan zapis odgovaraju´ce Bulove funkcije):
XOR(x,y) :- True(x),¬ True(y)
XOR(x,y) :- ¬ True(x), True(y)
Za ovakav program se kaˇze da pokriva instance (ulazne vrednosti, argumente)
x i y za koje je XOR(x,y)=⊤ tj. taˇcno (inaˇce ima vrednost ⊥). Program π1 je
potreban (prikazano u primeru ispod) ako pokriva raˇcunanjem samo pozitivne
instance (ali ih nemora sve pokrivati). Program π2 koji pokriva sve pozitivne
primere je dovoljan, ˇsto znaˇci da moˇze da pokrije i neke negativne instance
(kao pozitivne). U sluˇcaju da su dopuˇstene greˇske u primerima mogu´ce je da
se desi da su pokrivene i neke negativne instance, a da su izostavljene neke
pozitivne. U suprotnom, poˇzeljan je program koji je i potreban i dovoljan.
Maˇsinsko uˇcenje, inteligentni agenti 25
(definicije i ilustracija preuzete iz [intro])
Sliˇcno kao kod prostora verzija kod uˇcenja koncepta, program koji je
dovoljan ali nije potreban se moˇze specijalizacijom uˇciniti i potrebnim - ili
obratno, ako je potreban ali nije dovoljan, moˇze se generalizacijom onda
uˇciniti i dovoljnim. Najopˇstiji program je oblika [ρ :- ], dok je najposebniji
oblika [ρ :- ⊥]. Naˇcelno su mogu´ca dva metoda - jedan koji polazi od
najopˇstijeg programa, i drugi koji polazi od najposebnijeg. Ovde ´ce se
obrazloˇziti metoda koja polazi od [ρ :- ] i koja ga specijalizuje sve dok
ne postane potreban, ali se moˇze desiti da nije onda dovoljan (ˇsto se onda
iterativno nadoknad¯uje takvom generalizacijom da se ˇcuva potrebnost).
2.6.2 Kanonski ILP algoritam
Osnovni operatori ILP algoritma su pomenuta specijalizacija i generalizacija
(pored pokrivanja primera).
Postoje tri naˇcina na koji se moˇze logiˇcki program generalizovati:
1. Zamenom nekih terma u nekoj klauzuli programa promenljivama (suprotno
od postupka supstitucije)
2. Uklanjanjem literala iz tela neke klauzule programa
26 Seminarski rad
3. Dodavanjem klauzule programu
Obratno i dualno postoje tri naˇcina da se logiˇcki program specijalizuje:
1. Zamenom nekih promenljivih u nekoj klauzuli programa termima (supstitucija)
2. Dodavanjem literala telu neke klauzule programa
3. Uklanjanjem klauzule iz programa
U ovom kanonskom ILP algoritmu uˇcenja ´ce se koristiti metod dodavanja
klauzula za generalizaciju programa i dodavanje literala telu neke klauzule
za specijalizaciju programa. Mogu´ce je uvesti relaciju poretka posebnosti:
klauzula c1 je posebnija od klauzule c2 ako je c2 |= c1, i specijalno, ako je
skup literala u c2 podskup skupa literala u c1. Tako se dobija graf rafiniranja
sliˇcno prostoru verzija.
Poˇsto postoji veliki broj naˇcina da se izabere literal koji treba dodati, ILP
algoritmi obiˇcno koriste neka dodatna ograniˇcenja, odnosno biraju se samo:
• literali iz pozadinske baze (ˇcinjenice koje dodatno objaˇsnjavaju primere,
nezavisne od primera)
• literali ˇciji su argumenti podskup onih u glavi klauzule
• literali koji uvode novu promenljivu koja se ne nalazi med¯u onima u
glavi klauzule
• literal koji izjednaˇcava promenljivu u glavi klauzule sa joˇs jednom ili
termom iz pozadinske baze (supstitucija)
• literal koji je osim argumenata isti kao onaj u glavi klauzule, isti predikat
(ovim se dozvoljavaju rekurzivni programi)
Ako je dat skup pozitvnih primera E+
i negativnih primera E−
(E = E+
∪
E−
) kojim se opisuje neka ciljna relacija ρ, ILP algoritam indukuje program
π kojim se raˇcuna ta relacija:
Ecur ← E
π ← []
ponavljaj
Maˇsinsko uˇcenje, inteligentni agenti 27
c ← [ρ : −]
ponavljaj /* c se ˇcini potrebnim */
izaberi literal l koji treba dodati c
/* nedeterministiˇcka taˇcka u algoritmu */
c ← [c,l]
sve dok c ne postane potreban
/* sve dok c ne prestane da pokriva negativne instance */
π ← [π,c]
Ecur ← Ecur - {pozitivne instance u Ecur koje pokriva π}
sve dok π ne postane dovoljan
Jedna od implementacija ovakvog ILP sistema je Kvinlanov sistem FOIL
(Quinlan, 1990) koji se moˇze posmatrati i kao proˇsirenje CN2 na PR1, gde se
predlaˇze odabir literala na osnovu informacione snage sliˇcno kao kod metoda
drveta odluke (dodavanje kandidata literala L pravilu R):
FOIL Gain(L, R) ≡ t log2
p1
p1 + n1
− log2
p0
p0 + n0
gde je p0 broj pozitivnih vezivanja pravila R (u smislu vezivanja promenljivih),
n0 broj negativnih, p1 broj pozitivnih vezivanja za novo pravilo R’ (dobijeno
dodavanjem L pravilu R), n1 broj negativnih, i konaˇcno, t je broj pozitvnih
vezivanja R koja su pokrivena i sa R’. Takod¯e, da bi se omogu´cili i rekurzivni
programi, neophodni su neki dodatni uslovi za dodatni literal - jedan naˇcin
je da promenljive koje dodati literal sadrˇzi ne budu u glavi klauzule.
ILP se takod¯e moˇze shvatiti i kao vid indukcije drvetom odluˇcivanja. Ako
su Ri relacije pozadinske baze, cilj je onda da ciljnu relaciju R izrazi preko Ri,
a ILP se onda moˇze posmatrati kao indukcija jednog glavnog drveta odluke
ˇciji su ˇcorovi opet drveta odluke, a ˇcvorovi ovih poddrveta su relacije Ri koje
se slaˇzu s nekim primerima (koji idu ,,desno” narednom ˇcvoru) ili ne (idu
,,levo”) sve dok se ne preostane skup samo pozitivnih primera (ovo odgovara
unutraˇsnjij petlji kanonskog ILP). Glavno drvo se gradi sve dok se ne dobije
poddrvo u kome samo negativne instance bivaju odbaˇcene. Rezultat primera
prikazanog ilustracijom ispod je:
R :- R1, R2, R3
R :- R4, R5
28 Seminarski rad
(preuzeto iz [intro])
2.6.3 Indukcija kao inverzna rezolucija
Uˇcenje indukcijom se svodi na jednostavnoj praktiˇcnoj pretpostavci da
je indukcija suprotna dedukciji, pod izvesnim pretpostavkama. Taˇcnije,
u odnosu na pravilo rezolucije koja odgovara dedukcionom zakljuˇcivanju,
pravilo inverzne rezolucije koje odgovara induktivnom zakljuˇcivanju je onda
zaista inverzan postupak. Vereov metod polazi od generalizacije kao postupku
koji je suprotan unifikaciji (koja se koristi u rezoluiji ili npr. za upored¯ivanje
ˇsablona u pretrazi), i moˇze se primenjivati na bazu znanja opisanu klauzulama
da bi se doˇslo do koncepta kao najmanjeg zajedniˇckog generalizatora primera
(na primer: poznati svet blokova). Inverznu rezoluciju predlaˇzu kao praktiˇcno
reˇsenje kasnije Muggleton i Buntine, 1988. - ako je rezolventa C data sa
C = (C1 − {L1})θ ∪ (C2 − {L2})θ td. je L1θ = ¬L2θ (dobijeno supstitucijom
θ za literale L1 i L2 u klauzulama C1 i C2, redom), onda je odgovaraju´ce
pravilo inverzne rezolucije (θ = θ1θ2 gde se θ1 odnosi na promenljive u C1, a
θ2 na promenljive u C2):
C2 = (C − (C1 − {L1})θ1)θ−1
2 ∪ {¬L1θ1θ−1
2 }
Jednostavan primer rezolucije (levo) i inverzne rezolucije (desno) na nivou
iskaznog raˇcuna:
Maˇsinsko uˇcenje, inteligentni agenti 29
i primer indukcije u punom smislu inverzne rezolucije prvog reda:
(ovaj i prethodni primer su preuzeti iz [TM-ML])
gde se vidi induktivni zakljuˇcak (u gornjem desnom uglu) koji predstavlja
klauzulu GrandChild(x, y) ← Father(x, z), Father(z, y) na osnovu tri dobra
primera. Praktiˇcno se pokazalo da inverzna rezolucija lako dovodi do kombinatorne
eksplozije i zato se razvijaju mnoge alternativne metode. Jednu uspeˇsnu
varijantu koristi sistem PROGOL (Muggleton, 1995) gde se inverzna rezolucija
koristi samo da bi se doˇslo do jedinstvene najspecifiˇcnije hipoteze koja zajedno
sa pozadinskom teorijom objaˇsnjava primere (deduktivno: za svaki primer
(xi, f(xi)) koji nije pokriven sekvencijalnim pokrivanjem se traˇzi hi takvo
da je B ∧ hi ∧ xi ⊢ f(xi)), a onda se ta hipoteza (sliˇcno ILP, tj. FOIL
sistemu) koristi kao donja granica u pretrazi od opˇsteg ka posebnom (koristi
se MDL princip gde je duˇzina opisa broj literala klauzule, a pretraga sliˇcna
A∗
algoritmu).
30 Seminarski rad
2.7 Raˇcunska i statistiˇcka teorija uˇcenja
Pored pitanja teˇzine razliˇcitih tipova problema uˇcenja, njihove karakterizacije
i pitanja uspeˇsne praktiˇcne izvodljivosti uˇcenja u realnom vremenu, raˇcunska
i statistiˇcka teorija uˇcenja (algoritamska teorija uˇcenja) daju odgovore i
na pitanja o vezi veliˇcine ili kvaliteta skupa primera, osobina i parametara
algoritma uˇcenja i njegove uspeˇsnosti na kraju. Postoje nekoliko osnovnih
pristupa:
• VAK, verovatna aproksimativna korektnost (PAC framework: Probably
Aproximatively Correct, Valiant) - gde se identifikuju klase hipoteza
koje se mogu ili ne mogu nauˇciti iz polinomijalnog broja primera (sloˇzenost
uzorka - sample complexity), ˇcime se definiˇse prirodna mera kompleksnosti
prostora hipoteza kojom se moˇze ograniˇciti broj primera potrebnih za
induktivno uˇcenje
• granica greˇske (mistaske bound framework) - ispituje se broj napravljenih
greˇsaka u toku uˇcenja potrebnih da bi se doˇslo do prihvatljive hipoteze
• Goldov formalni model graniˇcnog uˇcenja
2.7.1 Statistiˇcka teorija uˇcenja
Ako je {(x1, y1), ..., (xl, yl)} skup nezavisnih i jednako raspored¯enih (njr)
skup obuˇcavanja izabranih prema fiksiranom ali nepoznatom funkcijom raspodele
F(x, y) = F(x)F(y|x) (x ∈ X su odabrani prema F(x)), i vrednosti nepoznate
objektivne funkcije y (supervizora S, ciljnog operatora) prema F(y|x). Hipoteza
f se konstruiˇse na osnovu ovog skupa sa merom gubitka (diskrepancijom,
greˇskom aproksimacije) L(y, f(x, α)) izmed¯u y i hipoteze h = f(x, α). Oˇcekivana
vrednost greˇske je funkcional:
R(α) = L(y, f(x, α))dF(x, y) = R(f)
Moˇze se uopˇstiti za proizvoljan broj nepoznatih (z umesto (x, y): R(α) =
Q(z, α)dF(z), gde je Q(z, α) je specifiˇcna funkcija gubitka). Cilj je na´ci
funkciju f(x, α0) koja minimizuje R(α) (preko klase funkcija {f(x, α)|α ∈
Λ}). Osnovni podproblemi su prepoznavanje ˇseme (pattern recognition -
u osnovi, problem klasifikacije za y ∈ {0, 1}, L(y, f(x, α)) = δ(y, f(x, α))
- moˇze se uopˇstiti i na ve´ci konaˇcan skup klasa), ocena regresije (funkcija
Maˇsinsko uˇcenje, inteligentni agenti 31
regresije f(x, α0) = ydF(y|x), L(y, f(x, α)) = (y − f(x, α))2
) i ocena
gustine raspodele (L(p(x, α)) = − log p(x, α)). U tu svrhu se koriste principi
indukcije - ERM (princip minimizacije empirijskog rizika), i SRM (princip
minimizacije strukturalnog rizika).
2.7.2 ERM princip
Umestp R(α) koristi se:
Remp(α) =
1
l
l
i=1
Q(zi, α)
Postavljaju se pitanja:
• koji su (potrebni i dovoljni) uslovi konzistentnosti (bazirani na ERM)
?
• koliko je brza konvergencija uˇcenja ?
• kako kontrolisati konvergenciju (sposobnost generalizacije, ˇsta utiˇce)
uˇcenja ?
• kako konstruisati algoritme za prethodno ?
Definicija 2.4 Metod ERM je netrivijalno konzistentan za S = {Q(z, α)|α ∈
Λ} (skup indikatorskih funkcija) i F(z) ako za svaki neprazan skup Λ(c) =
{α| Q(z, α)dF(z) ≥ c}, c ∈ (−∞, ∞) vaˇzi konvergencija:
inf
α∈Λ(c)
Remp(α) → inf
α∈Λ(c)
R(α), l → ∞
Vaˇzi kljuˇcna teorema maˇsinskog uˇcenja (Vapnik, Chervonenkis, 1980):
Teorema 1 Ako postoje konstante A i B takve da za sve funkcije u S vaˇzi
A ≤ R(α) ≤ B, α ∈ Λ, tada je potreban i dovoljan uslov netrivijalne
konzistentnosti ERM da vaˇzi uniformna jednostrana konvergencija Remp(α) →
R(α), α ∈ Λ na S u smislu:
lim
l→∞
P{sup
α∈Λ
(R(α) − Remp(α)) > ε} = 0, (∀ε > 0)
32 Seminarski rad
Radi odred¯ivanja gornje granice rizika za ERM, uvodi se slede´ci pojam (posledica
druge teoreme uniformne konvergencije u vezi sa ε-entropijom, detalji se
mogu na´ci u [VVN], kao i Poperova teorija neporecivosti, nonfalsifiability):
Definicija 2.5 Dimenzija Vapnik- ˇCervonenkisa (VC) skupa indikatorskih funkcija
S jednaka je najve´cem broju h vektora z1, ..., zh koji se mogu razdvojiti u
dve klase na svih 2h
mogu´cih naˇcina (dihotomija) elementima tog skupa
(maksimalan broj vektora koji moˇze biti pokidan skupom S).
Definicija 2.6 Za dati skup realnih funkcija S (θ je stepena funkcija: θ(x) =
0 ako je x < 0, inaˇce θ(x) = 1), skup
{θ(Q(z, α) − β)| q ∈ S, α ∈ Λ, β ∈ ∆ = (inf
z,α
Q(z, α, sup
z,α
Q(z, α))}
je kompletan skup indikatora za dati skup realnih funkcija.
Definicija 2.7 VC dimenzija skupa realnih funkcija S je najve´ci broj h vektora
uzorka nad kojima funkcije iz kompletnog skupa indikatora skupa S mogu da
realizuju 2h
dihotomija.
Vaˇzi teorema:
Teorema 2 Za sve funkcije skupa ograniˇcenih nenegativnih funkcija {0 ≤
Q(z, α) ≤ B| α ∈ Λ}, sa verovatno´com od bar 1 − η vaˇzi nejednakost (h =
V C(S)):
R(α) ≤ Remp(α) +
Bǫ(l)
2
1 + 1 +
4Remp(α)
Bǫ(l)
ǫ(l) = 4
h(ln 2l
h
+ 1) − ln η
4
l
Takod¯e, ako je αl parametar ERM minimizacije i α0 parametar minimizacije
stvarnog rizika, vaˇzi nejednakost sa verovatno´com bar od 1 − 2η:
∆(αl) = R(αl) − R(α0) < B
− ln eta
2l
+ ǫ(l) 1 + 1 +
4Remp(α)
Bǫ(l)
Mogu´ce je odrediti granice rizika i za neograniˇcene funkcije (uz dodatni
uslov):
sup
α∈Λ
( Qp
(z, α)dF(z))
1
p
Q(z, α)dF(z)
≤ τ
Maˇsinsko uˇcenje, inteligentni agenti 33
2.7.3 SRM princip
Kako je ranije pomenuto, SRM prinicip indukcije se odnosi na kontrolu
sposobnosti generalizacije programa koji uˇci malim skupom obuˇcavanja (npr.
l/h < 20). Ako je S∗
= k Sk td. vaˇzi S1 ⊂ S2 ⊂ ... ⊂ Sk ⊂ ... i hk = V C(Sk)
takve da je h1 ≤ h2 ≤ ... ≤ hk ≤ ..., i svaki Sk je ili totalno ograniˇcen
0 ≤ Q(z, α) ≤ Bk, α ∈ Λk, ili njegove neograniˇcene funkcije zadovoljavaju
(za neko (p, τk)):
sup
α∈Λk
( Qp
(z, α)dF(z))
1
p
Q(z, α)dF(z)
≤ τk, p > 2
kaˇze se da je S∗
dopustiva (admissable) struktura. Treba takod¯e pretpostaviti
da je S∗
svuda gust u S u smislu metrike:
ρ(Q(z, α1), Q(z, α2)) = |Q(z, α1) − Q(z, α2)|dF(z)
Cilj je prona´ci broj n = n(l) za svako l tako da element Sn minimizuje
empirijski rizik. Vaˇzi teorema:
Teorema 3 SRM nudi metod aproksimacije Q(z, α
n(l)
l ) za koje niz rizika
R(α
n(l)
l ) konvergira ka najmanjem riziku:
R(α0) = inf
α∈Λ
Q(z, α)dF(z)
sa asimptotskom brzinom konvergencije:
V (l) = rn(l) + Tn(l)
hn(l) ln l
l
ako je n = n(l) odred¯en sa:
lim
l→∞
T2
n(l)hn(l) ln l
l
= 0
gde je:
1. Tk = Bk za totalno ograniˇcene Sk
2. Tk = τk za uslovno neograniˇcene Sk
34 Seminarski rad
rn(l) je mera aproksimacije:
rn = inf
α∈Λn
Q(z, α)dF(z) − inf
α∈Λ
Q(z, α)dF(z)
Problem odred¯ivanja rn(l) je vezan za odred¯ivanje n(l) u prethodnoj teoremi
i zavisi od konkretnog sluˇcaja - viˇse detalja i primera za neke klase NM
moˇze se na´ci u [?]. Interesantan primer SVM, gde se moˇze pokazati da
skup svih razdvajaju´cih hiperravni sa bar dimenzijom ∆ ima VC dimenziju
h ≤ min (R2
∆2 , n) + 1 (n je dimenzija vektora obuˇcavanja, R je radijus sfere
kojoj pripadaju). Posledica je (uz Sk definisan sa B2
/∆2
≤ k) je da SVM
poˇstuju SRM princip.
2.7.4 VAK (PAC) pristup
Ako se stvarna greˇska hipoteze h (true error) u odnosu na ciljni koncept
c i raspodelu instanci primera D definiˇse kao verovatno´ca (x : D znaˇci da je
x sluˇcajna promenljiva sa raspodelom D):
eD(h) = Px:D(c(x) = h(x))
onda se moˇze definisati pojam VAK-uˇcljivosti (PAC-learnability):
Definicija 2.8 Za klasu C ciljnih koncepata definisanih nad skupom X instanci
duˇzine n, i program L koji koristi prostor hipoteza H, C je VAK-uˇcljiva
programom L sa H ako za svako c ∈ C, raspodelu D nad X, ε td. je
0 < ε < 1/2 i δ td. je 0 < δ < 1/2, program L sa verovatno´com ne manjom
od (1−δ) nad¯e h ∈ H td. je eD(h) ≤ ε u vremenu (u smislu cene raˇcunanja)
koje je polinom od 1/ε, 1/δ, n i size(c).
Ovde n i size(c) karakteriˇsu kompleksnost prostora X i klase C - size(c) je
duˇzina kodiranja koncepta c za neku reprezentaciju klase C kojoj pripada
(npr. broj istinitosnih osobina u konjunkciji kojom se definiˇse koncept), a
duˇzina instance n je npr. broj atributa u konjunkciji ili arnost funkcije (gde
je vektor argumenata instanca). Takod¯e, ovim se povezuje veliˇcina skupa
primera i polinomijalna izraˇcunljivost problema uˇcenja.
Sloˇzenost uzorka (sample complexity) je mera rasta broja primera u
odnosu na (prethodno opisanu) sloˇzenost problema. Kao ˇsto je ranije pomenuto,
svaki konzistentan uˇcenik daje hipotezu koja pripada prostoru verzija V SH,D
Maˇsinsko uˇcenje, inteligentni agenti 35
po definiciji (bez obzira na X, H ili D). Da bi se ograniˇcio broj primera
potrebnog za bilo kojeg konzistentnog uˇcenika dovoljno je ograniˇciti broj
primera tako da prostor verzija ne sadrˇzi ne[rihvatljive hipoteze. Kaˇze se da
je V SH,D ε-iscrpljen u odnosu na c i D ako (∀h ∈ V SH,D)eD(h) ≤ ε. Vaˇzi
onda teorema (Haussler, 1988) kojom se uspostavlja veza prostora verzija i
ovog pojma sa verovatno´com koja ne zavisi od raspodele primera ili definicije
ciljnog koncepta:
Teorema 4 Ako je H konaˇcan i D je niz od m ≥ 1 nezavisnih nasumice
odabranih primera za ciljni koncept c, onda je za svako 0 ≤ ε ≤ 1 prostor
V SH,D ε-iscrpljen verovatno´com p ≤ |H|−εm
.
Odatle sledi m ≥ 1
ε
(ln |H|+ln 1/δ) gde je δ ˇzeljeni minimalni prag verovatno´ce
greˇske uˇcenja bilo kojeg konzistentnog uˇcenika.
2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa
Uˇcenik koji ne pretpostavlja (za razliku od prethodnog) da ciljni koncept
pripada prostoru hipoteza ve´c jednostavno pronalazi hipotezu hbest s najmanjom
greˇskom uˇcenja (za date primere) naziva se agnostiˇckim uˇcenikom (ne pretpostavlja
da je C ⊆ H). Tada se traˇzi potreban broj tj. granica broja primera za koju
vaˇzi da stvarna greˇska ne prelazi ε + eD(hbest). Pokazuje se da onda vaˇzi
(opˇste granice Hefdinga ili aditivne granice ˇCernofa, Hoeffding, Chernoff):
m ≥
1
2ε2
(ln |H| + ln 1/δ)
Primeri:
1. konjunkcije literala (|H| = 3n
): m ≥ 1
ε
(n ln 3 + ln 1/δ) (sliˇcno i za
k-termove KNF ili DNF)
2. uˇcenik bez biasa (|C| = 2|X|
): m ≥ 1
ε
(2n
ln 2+ln 1/δ) (nije polinomijalna
granica)
Pored ovih ocena koriste se i ocene V C(H) ≤ log2 |H| dimenzijom VC
Vapnik-ˇCervonenkisa (Vapnik-Chervonenkis) gde se kompleksnost H (kapacitet
sistema funkcija po Vapniku) ne meri brojem razliˇcitih hipoteza ve´c brojem
razliˇcitih instanci koje se diskriminiˇsu u H. Ovo je, recimo, vaˇzno ako je
prostor hipoteza beskonaˇcan jer se onda prethodne nejednakosti nemogu
upotrebiti. Za S ⊆ X, svako h ∈ H daje dihotomiju nad S ako postoje dve
36 Seminarski rad
particije, npr. {x ∈ S| h(x) = 0} i {x ∈ S| h(x) = 1} (mogu´ce je da bude
2|S|
dihotomija S nad H). Ako se svaka dihotomija iz S (razbijanje na dve
particije) moˇze prikazati nekom hipotezom iz H (kao u navedenom primeru),
onda se kaˇze da H kida S. V C(H) je onda veliˇcina (kardinalnost) najve´ceg
(konaˇcnog) podskupa u X kojeg kida H (ako nema konaˇcnog podskupa onda
je V C(H) = ∞). Praktiˇcni detalji o ovome se mogu na´ci u [intro] i [?].
Ranija nejednakost o granici broja primera se moˇze zameniti onda narednom:
m ≥ 1
ε
(4 log2 (2/δ) + 8V C(H) log2 (13/ε)). Moˇze se na´ci ˇcak i gornja granica
broja primera (Ehrenfeucht, 1989 - teorema: ako za proizvoljan L i C vaˇzi
V C(C) ≥ 2 i 0 < ε < 1/8, 0 < δ < 1/100, onda postoji raspodela i ciljni
koncept kod koga je eD(h) > ε ako se uzme manje od max 1
ε
log 1/δ, V C(C)−1
32ε
primera). Jedna od praktiˇcnih posledica ovih ˇcinjenica je mogu´cnost ozbiljnije
teoretske ocene performansi i broja primera razliˇcitih klasa neuronskih mreˇza
(ˇsto pre toga nije bilo jednostavno) i drugih metoda uˇcenja.
2.7.6 Optimalna granica greˇske
Ako je ML(c) maksimalan broj greˇsaka za ciljni koncept c koji program
L moˇze da napravi uˇce´ci c taˇcno (konzistentno) nad svim mogu´cim nizovima
primera. Onda je ML(C) = maxc∈C ML(c) (npr. MF ind−S(C) = n + 1 za
klasu n istinitosnih literala). Optimalna granica greˇske je onda:
Opt(C) ≡ min
L
ML(C)
Pokazuje se (Littlestone, 1987) da je V C(C) ≤ Opt(C) ≤ log2 |C|.
2.7.7 Graniˇcno uˇcenje
Apstraktna formulacija graniˇcnog uˇcenja zadaje se modelom problema
identifikacije. Ovaj odeljak je uglavnom zasnovan na sadrˇzaju u [ZR] (gde se
mogu na´ci dodatni detalji). On se sastoji od slede´cih elemenata:
1. Klase objekata: algoritam koji uˇci treba da identifikuje jedan od ovih
objekata na osnovu pruˇzenih informacija.
2. Metoda za prezentaciju informacija: u svakom trenutku t algoritam
koji uˇci dobija informaciju it koja se bira iz skupa I. Skup svih mog´cih
nizova informacija za neki objekat ω ∈ Ω obeleˇzava se sa I∞
(ω).
Maˇsinsko uˇcenje, inteligentni agenti 37
3. Relacije imenovanja: algoritam treba da identifikuje objekat navod¯enjem
nekog njegovog imena. Relacija imenovanja se sastoji od skupa imena
N i funkcije f : N → Ω.
Problem identifikacije je utvrd¯ivanje pravila koje za svaki objekat ω ∈ Ω i
svaki niz iz I∞
(ω) daje ime n takvo da je f(n) = ω. Graniˇcna identifikacija
podrazumeva pogad¯anje objekta u svakom trenutku i zahteva se da postoji
konaˇcan vremenski trenutak posle kojeg su sva pogad¯anja ista za isto ω, i
taˇcna. Ne zahteva se da ovaj vremenski trenutak bude poznat. Pogad¯anje
u trenutku t je odred¯eno izraˇcunljivom funkcijom pogad¯anja Gt(i1, i2, ..., it).
Ako funkcija Gt nije izraˇcunljiva, govorimo o neefektivnoj graniˇcnoj identifikaciji.
Konaˇcna identifikacija podrazumeva da ´ce algoritam posle konaˇcnog broja
koraka prestati da traˇzi informacije i da ´ce dati konaˇcan odgovor o imenu
objekta. Identifikacija u odred¯enom vremenu podrazumeva identifikaciju u
unapred odred¯enom broju koraka. Ako su skupovi I∞
(ω) disjunktni, onda
kaˇzemo da je ispunjen uslov razlikovanja. Ako sa Ωt oznaˇcimo skup svih
objekata iz Ω koji su saglasni sa poˇcetkom datog niza informacija do trenutka
t, kaˇzemo da je ispunjen uslov opadanja neizvesnosti ako za svaki objekat
ω ∈ Ω i svaki niz iz I∞
(ω) graniˇcni skup od Ωt kad t → 1 sadrˇzi samo ω.
Osnovni metod za graniˇcnu identifikaciju je identifikacija nabrajanjem.
Ona se sastoji od formiranja nabrajanja klase objekata na bilo koji naˇcin
(i sa ponavljanjem) i pogad¯anja da je u koraku t nepoznati objekat upravo
prvi objekat u nabrajanju koji se nalazi u Ωt. Funkcija pogad¯anja ´ce biti
izraˇcunljiva ako se za svaki konaˇcan niz informacija do trenutka t i za svaki
pozitivan ceo broj n moˇze efektivno utvrditi da li je n-ti objekat nabrajanja u
Ωt i ako postoji efektivan naˇcin nalaˇzenja imena n-tog objekta u nabrajanju.
Ako je Gt funkcija pogad¯anja, ω ∈ Ω i ι ∈ I∞
(ω) definiˇsemo vreme pogad¯anja
τ(Gt, ω, ι) kao prvi trenutak u kome i posle koga su sva pogad¯anja funkcije Gt
ista i taˇcna. Ako takav trenutak ne postoji, onda vreme pogad¯anja definiˇsemo
kao ∞. Ako su Gt i G′
t dve funkcije pogad¯anja, kaˇzemo da je funkcija Gt
uniformno brˇza od funkcije G′
t ako za svako ω ∈ Ω, ι ∈ I∞
(ω) vaˇzi:
τ(Gt, ω, ι) ≤ τ(G′
t, ω, ι)
i ako za neko ω0 ∈ Ω, ι0 ∈ I∞
(ω) vaˇzi:
τ(Gt, ω0, ι0) ≤ τ(G′
t, ω0, ι0)
Osnovni nalazi za problem identifikacije su dati u nastavku.
38 Seminarski rad
Teorema 5 Ako su skupovi I i Ω prebrojivi i ako svaki objekat ima bar jedno
ime, za neefektivnu graniˇcnu identifikaciju uslov razlikovanja je neophodan,
a uslov opadaju´ce neizvesnosti je dovoljan. Ako je skup I∞
(ω) prebrojiv za
svako ω, onda je uslov razlikovanja dovoljan za neefektivnu graniˇcnu identifikaciju.
Teorema 6 Ako je Gt funkcija pogad¯anja koja realizuje identifikaciju nabrajanjem,
onda nijedna funkcija pogad¯anja nije uniformno bolja od Gt.
Jedan od primena i rezultata u oblasti algoritamske teorije uˇccenja razmatra
teorijska ograniˇcenja sistema za klasifikaciju koji se zasnivaju na predstavljanju
instanci u vektorskim prostorima i linearnoj separaciji (npr. klasifikacija
zasnovana na SVM). Konaˇcan skup koncepata se moˇze predstaviti pomo´cu
matrice M ∈ {0, 1}m×n
gde Mij = −1 znaˇci da je instanca i negativan primer
koncepta j i analogno za pozitivne primere.
Definicija 2.9 Linearni raspored koji predstavlja matricu M ∈ Rm×n
je dat
kolekcijom vektora u1, ..., um, v1, ..., vn ∈ Rd
euklidske duˇzine ||ui||2 = ||vj||2 =
1 takvih da je sign(ui, vj) = sign(Mij) za sve i, j. Parametar d se naziva
dimenzija rasporeda, mini,j(ui, vj) je minimalna margina, a 1
mn i,j (ui, vj)
srednja margina realizovana rasporedom.
Poznato je da mala dimenzija, odnosno velika margina, obezbed¯uju malu
greˇsku prilikom generalizacije. Donja granica dimenzije i gornja granica
margine za linearne rasporede se mogu odrediti dekompozicijom matrice A ∈
Rm×n
preko singularnih vrenosti: Neka je r rang matrice A. Uvek postoje
matrice U ∈ Rm×r
i V ∈ Rr×n
sa ortonormiranim kolonama i pozitivnim
brojevima σ1(A) ≥ ... ≥ σr(A) > 0, koje nazivamo singularnim vrednostima
matice A, takve da je A = Udiag(σ1(A), ..., σr(A))V T
. Podrazumeva se
σi(A) = 0 za i > r. Spektralna norma matrice A se definiˇsse kao ||A|| =
σ1(A). Donja granica dimenzije data je slede´com teoremom:
Teorema 7 Neka je M ∈ Rm×n
matrica takva da je |Mij| ≥ 1 za sve i, j.
Ako je r rang matrice M, neka je u1, ..., um, v1, ..., vn ∈ Rd
linearni raspored
za d ≤ r koji predstavlja matricu M. Tada je:
d
d
i=1
σ2
i (M) ≥ mn
Odred¯ene su i gornje granice minimalne i srednje margine:
Maˇsinsko uˇcenje, inteligentni agenti 39
Teorema 8 Ako za matricu M′
vaˇzi sign(M′
ij) = sign(Mij), onda vaˇzi:
min
i,j
|(ui, vj)| ≤
√
mn||M′
||
i,j M′
ij
Teorema 9 1
mn i,j |(ui, vj)| ≤ ||M||
√
mn
U prethodnoj teoremi koriˇs´cenje M′
umesto M je pogodnost koja omogu´cava
da se umesto polazne matrice M kojoj odgovara linearni raspored, koristi
druga matrica koja daje bolju ocenu. Uslov je da odgovaraju´ci elementi
polazne i nove matrice imaju isti znak (u smislu funkcije sign). U oblasti
algoritamske teorije uˇcenja analiziraju se tehnike uzorkovanja koje bi omogu´cile
izgradnju algoritama maˇsinskog uˇcenja koji bi iz uvida u instance koje se
dobijaju u toku uˇcenja mogli da odrede dovoljan obim uzorka za uˇcenje.
Problem koji se posmatra je slede´ci: neka je D skup instanci iz kojih se uˇci
i B bulovska funkcija nad D. Potrebno je utvrditi verovatno´cu pB takvu
da je B(x) = 1. Ukoliko je broj instanci u D preveliki za prebrojavanje,
pribegava se uzorkovanju i pribliˇznom odred¯ivanju broja pB na osnovu tog
uzorka. Pitanje je koliki uzorak je potreban. Prvi cilj je utvrd¯ivanje granice
apsolutne greˇske ocene. Preciznije, za dato δ > 0 i 0 < ε < 1 cilj je odrediti
ocenu p′
B takvu da je:
P[|p′
B − pB| ≤ ε] > 1 − δ (1)
Drugi cilj je utvrd¯ivanje granice relativne greˇske. Za dato δ > 0 i 0 < ε < 1
cilj je odrediti p′
B takvo da je:
P[|p′
B − pB| ≤ εpB] > 1 − δ (2)
Tre´ci cilj je odred¯ivanje pribliˇzne ocene za neku funkciju broja pB (npr. uB =
pB − 1
2
). Preciznije, ako je dat broj δ > 0 i 0 < ε < 1, clij je odrediti ocenu
u′
B takvu da vaˇzi:
P[|u′
B − uB| ≤ ε|uB|] > 1 − δ (3)
Teorema 10 Ako se instance koje ˇcine uzorak obima n biraju uniformno iz
D i ako je m broj instanci iz uzorka za koje je B(x) = 1 i p′
B = m/n, onda
ocena p′
B zadovoljava uslov (1) ako vaˇzi:
n >
1
2ε2
ln(
2
δ
)
40 Seminarski rad
Takod¯e, ocena p′
B zadovoljava uslov (2) ako vaˇzi:
n >
3
ε2pB
ln(
2
δ
) (4)
Poˇsto poslednja teorema u oceni obima uzorka koji je neophodan da bi vaˇzio
uslov (3) koristi nepoznatu vrednost pB, ona nije korisna za postizanje drugog
postavljenog cilja. Mogu´ce je koristiti slede´ci algoritam prilagodljivnog uzorkovanja
(**): uzimati uniformno instance iz D sve dok broj instanci za koje je
B(x) = 1 ne dostigne vrednost A. Ako je n ukupan broj instanci koje
su uzete iz D onda se za ocenu p′
B uzima A/n.
Teorema 11 Za svako δ > 0 i 0 < ε < 1 vaˇzi uslov (2) ako prilikom
prilagodljivog uzorkovanja (**) vaˇzi:
A >
3(1 + ε)
ε2
ln(
2
δ
)
Tada, sa verovatno´com ve´com od 1 − δ/2 obim uzorka n zadovoljava uslov:
n ≤
3(1 + ε)
(1 − ε)ε2pB
ln (
2
δ
) (5)
Pored¯enjem uslova (4) i (5) i uzimaju´ci u obzir da je ε obiˇcno malo, zakljuˇcuje
se da je algoritam prilagodljivog uzorkovanja skoro optimalan. Za postizanje
tre´ceg cilja predlaˇze se slede´ci algoritam nemonotonog prilagodljivog uzorkovanja:
• m ← 0; n ← 0;
• u′
B ← 0; α ← ∞;
• Dok je |u′
B| < α(1 + 1/ε) primenjivati slede´ce korake:
– uzeti x sluˇcajnim izborom sa uniformnom raspodelom iz D;
– m ← m + B(x); n ← n + 1;
– u′
B ← m/n − 1/2;
– α ← 1
2n
ln (n(n + 1)/δ));
• predloˇziti u′
B kao ocenu za uB;
Maˇsinsko uˇcenje, inteligentni agenti 41
Teorema 12 Za svako δ > 0 i 0 < ε < 1, nemonotono prilagodljivo uzorkovanje
zadovoljava uslov (3). Takod¯e, ako je n obim uzorka, sa verovatno´com ve´com
od 1 − δ, onda vaˇzi:
n ≤
2(1 − 2ε)2
(ε|uB|)2
ln(
1
εδ|uB|
)
Identifikacija jezika poˇciva na Goldovom modelu graniˇcne identifikacije koji
je ve´c pomenut. Ako je skup Σ neprazna i konaˇcna azbuka i Σ∗
skup svih
niski nad skupom Σ ukljuˇcuju´ci i praznu, jezik nad azbukom Σ je bilo koji
podskup od L ⊆ Σ∗
. Model uˇcenja jezika se sastoji od tri komponente:
1. Definicije uˇcenja: jezik L je nauˇcen ako je graniˇcno identifikovan med¯u
dopustivim jezicima.
2. Metod prezentovanja informacija: mogu´ce je uˇcenje iz teksta ili pomo´cu
informatora. Tekst je niz x : N → L niski jezika L takvih da se
svaka niska jezika L pojavljuje u njemu bar jednom. Razlikujemo
proizvoljan, rekurzivan i primitivno rekurzivan tekst. Informator je
niz y : N → Σ∗
× {⊤, ⊥} takav da je (α, ⊤) njegov element ukoliko
α ∈ L, a (α, ⊥) ukoliko α ∈ Σ∗
− L, za svako α ∈ σ∗
. Mogu´ce su i
drugaˇcije, ekvivalentne, formulacije informatora.
3. Vrste imena jezika: svaki jezik moˇze imati jedno ili viˇse imena. Algoritam
identifikuje jezik navode´ci neko od njegovih imena. Imena jezika su
Tjuringove maˇsine. Tester za jezik L je Tjuringova maˇsina koja realizuje
proceduru odluˇcivanja za L, odnosno funkciju koja reˇci iz Σ∗
pridruˇzuje
1 ukoliko je ta reˇc iz L, a 0 u suprotnom. Generator za L je Tjuringova
maˇsina koja realizuje surjektivno preslikavanje iz skupa prirodnih brojeva
u L.
Dokazane su teoreme:
Teorema 13 Za bilo koji naˇcin prezentacije informacija, ako se klasa jezika
moˇze graniˇcno identifikovati koriste´ci tester imenovanje, onda se ona moˇze
graniˇcno identifikovati i koriste´ci imenovanje generatorom.
Teorema 14 Koriste´ci prezentovanje informacija pomo´cu informatora i tester
imenovanje klasa primitivno rekurzivnih jezika se moˇze graniˇcno identifikovati.
Teorema 15 Koriste´ci prezentovanje informacija pomo´cu informatora i imenovanje
generatorom klasa rekurzivnih jezika se ne moˇze graniˇcno identifikovati.
42 Seminarski rad
Teorema 16 Koriste´ci prezentovanje informacija pomo´cu proizvoljnog teksta
i tester imenovanje klasa jezika konaˇcne kardinalnosti se moˇze graniˇcno identifikovati.
Teorema 17 Koriste´ci prezentovanje informacija pomo´cu primitivno rekurzivnog
teksta i imenovanje generatorom cela klasa rekurzivno nabrojivih jezika se
moˇze graniˇcno identifikovati.
Teorema 18 Koriste´ci prezentovanje informacija pomo´cu rekurzivnog teksta
i imenovanje generatorom klasa jezika koja sadrˇzi sve konaˇcne jezike i bar
jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati.
Teorema 19 Koriste´ci prezentovanje informacija pomo´cu primitivno rekurzivnog
teksta i tester imenovanje klasa jezika koja sadrˇzi sve konaˇcne jezike i bar
jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati.
Algoritam RPNI za identifikaciju (i uˇcenje) regularnih jezika iz pozitivnih
(S+) i negativnih primera (S−) postoji, ali zahteva kompletnost uzorka (bez
formalne definicije, neophodni su i pozitivni i negativni primeri u dovoljnom
obimu da bi identifikacija bila garantovana - algoritam i detalji su u [ZR]).
Obim uzorka koji je potreban je u najgorem sluˇcaju manji od n2
Σ, a sloˇzenost
algoritma je O((|S+|+|S−|)|S+|2
). Nauˇceni automat je minimalni deterministiˇcki
automat koji prihvata taˇcno jezik L. Identifikacija kontekstno slobodnih
jezika (KSJ) je mnogo ,,tvrd¯i” problem, i postoje´ca reˇsenja u okviru Goldove
teorije su bar NP kompletni i neefikasni. Ovim problemom se i dalje mnogo
efikasnije bave bajesovski metodi (n-grami i skriveni lacni Markova) i stohastiˇcke
kontektsno-slobodne gramatike (Smirnof).
Maˇsinsko uˇcenje, inteligentni agenti 43
3 Statistiˇcko i Bajesovo uˇcenje
3.1 Bajesovo uˇcenje
Pored Bajesovog zakljuˇcivanja i mreˇza uverenja (belief networks, Bajesove
mreˇze specijalno ako koriste Bajesovo pravilo zakljuˇcivanja) kao metode automatskog
zakljuˇcivanja, to je i korisna metoda maˇsinskog uˇcenja jer nudi mogu´cnost
kvantitativnog ocenjivanja alternativnih hipoteza. Bajesovo uˇcenje je tako
vezano za algoritme uˇcenja koji koriste verovatno´cu i statistiku kao model.
Osnova je izbor hipoteze (MAP - Maximum a posteriori) najverovatnije
uslovne verovatno´ce u odnosu na dati skup primera (posmatranja) D i prostor
hipoteza H (uz primenu Bajesovog pravila i izuzimanja P(D) kao konstante
za razliˇcite h):
hMAP ≡ argmaxh∈HP(h|D) = argmaxh∈H
P(D|h)P(h)
P(D)
= argmaxh∈HP(D|h)P(h)
Moˇze se i P(h) izostaviti sliˇcno P(D) ako se pretpostavi da je a priori
verovatno´ca hipoteze ista za sve hipoteze (uniformna). Na primer, P(h) =
1/|H| za sve h ∈ H, i za vrednosti primera d1, ..., dn instanci x1, ..., xn:
P(D|h) =
1, di = h(xi) za sve di ∈ D;
0, inaˇce.
dobija se metod MAP uˇcenja grubom silom koji pokazuje da je:
P(h|D) =
1
|V SH,D|
, di = h(xi) za sve di ∈ D;
0, inaˇce.
tj. svaka konzistentna hipoteza (bez greˇsaka za date primere) je MAP hipoteza.
Svaki algoritam uˇcenja koji proizvodi konzistentne hipoteze je konzistentan.
Moˇze se pokazati da ako je distribucija u H td. je P(hi) ≥ P(hj) ako je
hi specifiˇcnija od hj (specijalno, uniformna raspodela je uvek takva) onda
algoritam Find-S daje MAP hipoteze. Tako se moˇze Bajesovom mreˇzom
karakterisati i algoritam koji ne koristi verovatno´ce - kao ˇsto je induktivnim
biasom karakterisan i zamenjen deduktivnim sistemom, tako moˇze biti zamenjem
Bajesovom mreˇzom uz pretpostavku o raspodeli za H i datim P(D|h), odnosno
njenom gustinom p(D|h).
44 Seminarski rad
3.1.1 Veza najverovatnije hipoteze i LMS
Ako su primeri dati sa nekom oˇcekivanom greˇskom m = 0 sa zadatom
disperzijom σ2
td. je di = f(xi) + ei, i ako su primeri med¯usobno uslovno
nezavisni onda je (h = hML, ML - minimum likelihood):
h = argmaxh∈H
n
i=1
P(di|h) = argmaxh∈H
n
i=1
1
√
2πσ2
e− 1
2σ2 (di−h(xi))2
ˇsto se na kraju svodi (upotrebom logaritma i drugih transformacija - detalji
u [TM-ML] kao i za mnoge druge detalje i dokaze) na:
h = argminh∈H
n
i=1
(di − h(xi))2
ˇcime se pokazuje da se najbolja hipoteza dobija minimizovanjem zbira kvadrata
razlike - LMS metodom. Konkretnije, ako je di ∈ {0, 1} (diskretan skup) i
izbor primera xi uslovno ne zavisi od hipoteze h, moˇze se pokazati da se i xi
mogu tretirati kao sluˇcajne promenljive, i tada je P(D|h) = n
i=1 P(xi, di|h) =
n
i=1 P(di|h, xi)P(xi). Sliˇcnim transformacijama (uz P(di|h, xi) = h(xi)di
(1−
h(xi))1−di
) se dobija onda:
h = argmaxh∈HG(h, D), G(h, D) =
n
i=1
[di ln h(xi) + (1 − di) ln (1 − h(xi))]
Postoji sliˇcnost ovog izraza sa opˇstim oblikom entropije −pi log pi i zato
se njegova negativna vrednost naziva i prelaznom entropijom (cross entropy).
Ovakav pristup je posebno interesantan kada je objekat uˇcenja realna funkcija.
Prirodan model za ovakav sistem (s Bajesovom mreˇzom) i uˇcenje su neuronske
mreˇze sa povratnim propagiranjem, gde je pravilo obuˇcavanja NM (spustom
niz gradijent) ∆wjk = η n
i=1 h(xi)(1 − h(xi))(di − h(xi))xijk u sluˇcaju maksimizovanja
G(h, D) zamenjeno jednostavnijim pravilom:
∆wjk = η
n
i=1
(di − h(xi))xijk
3.1.2 MDL princip
Ranije pomenut MDL princip je blisko povezan sa verovatno´com i problemom
Okamove oˇstrice. Ideja o MDL je potekla joˇs 1960-tih kada su Solomonov,
Maˇsinsko uˇcenje, inteligentni agenti 45
(Solomonoff, 1960: koja je priroda induktivnog zakljuˇcivanja ?) Kolmogorov
i ˇCaitin (Kolmogorov, Chaitin, 1965-66: koja je priroda sluˇcajnosti ?) postavili
pitanja i temelje statistike i informacione teorije u vezi kompleksnosti algoritma
(gde se uoˇcava veza izmed¯u sluˇcajno generisane niske i sloˇzenosti programa,
kao i kompresiji opisa niske programom koji u sebi - ,,intrinsiˇcki” - tako sadrˇzi
osobine podataka) - Rissanen 1978. tako predlaˇze MDL princip induktivnog
zakljuˇcivanja. Uz osnovne pretpostavke teorije informacija, moˇze se protumaˇciti
kod
hMAP = argmaxh∈HP(D|h)P(h) = argminh∈H [− log2 P(D|h) − log2 P(h)]
da su kra´ce hipoteze poˇzeljnije (Shannon, Weaver 1949): ako je LCH
(h) =
− log ph broj bitova (duˇzina opisa) potreban za poruku h kodom C, onda je
MDL princip hMDL = argminh∈H[LC1 (h)+LC2 (D|h)] (prvi sabirak karakteriˇse
duˇzinu opisa hipoteze, a drugi duˇzinu opisa primera s hipotezom kao pretpostavkom
- npr. ˇsta su izuzeci). Pokazuje se da ako je C1 = CH optimalno kodiranje za
h i C2 = CD|h optimalno kodiranje za D|h, onda je hMAP = hMDL. Med¯utim
MDL ne opravdava posebno najkra´cu hipotezu jer se za proizvoljna kodiranja
C1 i C2 ne moˇze opravdati MDL hipoteza kao najbolja (potrebno je znati
sve verovatno´ce hipoteza da bi se to potvrdilo, a to nije obavezno najbolja
reprezentacija znanja).
3.1.3 Bajesovi klasifikatori, Gibsov algoritam
Naspram dosadaˇsnjeg pitanja o najverovatnijoj hipotezi, joˇs je bitnije
pitanje najverovatnije klasifikacije nove instance na osnovu zadatih primera.
Za skup vrednosti klasifikacija V optimalni Bajesov klasifikator nove instance
x ∈ X bira najverovatniju ispravnu klasifikaciju (u problemu uˇcenja koncepta
to je kao da se bira klasifikacija nad prostorom verzija uz teˇzinske koeficijente
tj. uslovne verovatno´ce):
argmaxvj∈V P(vj|D), P(vj|D) =
hi∈H
P(vj|hi)P(hi|D)
Ovaj algoritam ima u proseku najbolje performanse u odnosu na bilo koji
drugi, ali moˇze biti veoma skup. Gibsov algoritam koristi kompromis (ve´ca
greˇska uz manju cenu raˇcunanja - Opper, Haussler, 1991):
1. Izaberi proizvoljnu hipotezu h iz H nasumice, ali prema raspodeli
uslovne verovatno´ce (u odnosu na date primere)
46 Seminarski rad
2. Upotrebi h da oceniˇs klasifikaciju nove instance
Pokazuje se da je greˇska klasifikacije ovog algoritma pod odred¯enim uslovima
najviˇse dvaput ve´ca od Bajesovog optimalnog klasifikatora (Haussler, 1994).
Naivni Bajesov klasifikator je jedan veoma praktiˇcan metod uˇcenja -
u nekim domenima se pokazuje uporedivim po performansama sa NM ili
drve´cem odluke. Primenjiv je u zadacima gde se instance izraˇzavaju kao
konjunkcije vrednosti atributa (a1, ..., an) a kodomen V ciljne funkcije je
diskretan (konaˇcan). Bajesov pristup bi onda bio na´ci najverovatniju vrednost
vMAP = argmaxvj ∈V P(vj|a1, ..., an) = argmaxvj ∈V P(a1, ..., an|vj)P(vj) (uz
primenu Bajesovog pravila). Vrednost P(vj) se moˇze proceniti frekvencijom
(brojanjem) vrednosti u skupu primera, dok za uslovne verovatno´ce to nije
praktiˇcno (broj kombinacije je obiˇcno dovoljno velik). Da bi se to prevaziˇslo,
naivni klasifikator polazi od pretpostavke da su usllovne verovatno´ce atributa
u konjunkciji uslovno nezavisne tj. izbor vrednosti naivnog Bajesovog klasifikatora
je:
vNB = argmaxvj∈V P(vj)
i
P(ai|vj)
gde se frekvencijama vrednosti atributa u primerima za date vrednosti ocenjuje
P(ai|vj). Uobiˇcajeno je da se vrednost P(ai|vj) ocenjuje sa nc
n
gde je n broj
primera kod kojih je vj, a nc broj takvih kod kojih je ai. Poˇsto broj takvih
primera moˇze biti suviˇse mali, koristi se m-ocena nc+mp
n+m
gde je m je jednak
broj uzoraka a p verovatno´ca izbora date vrednosti atributa (najˇceˇs´ce se
pretpostavlja uniformna raspodela td. je za k mogu´cih vrednosti atributa p =
1
k
, mada moˇze uopˇste biti i neka druga raspodela). Na primer, ako je P(ai =
wk|vj) verovatno´ca da je i-ta reˇc teksta jednaka wk (k-ta iz nekog reˇcnika) i da
je tekst ocenjen nekom vrednoˇs´cu vj, npr. da pripada nekoj diskusionoj listi
od ponud¯enih ˇciji se tekstovi poruka analiziraju, onda se moˇze pretpostaviti
da je P(ai = wk|vj) = P(am = wk|vj) tj. da verovatno´ca ne zavisi od pozicije
- time se znaˇcajno dodatno smanjuje broj kombinacija mogu´cih uslovnih
verovatno´ca, i tada se to moˇze skra´ceno obeleˇziti sa P(wk|vj) = nk+1
n+|V |
, gde je
nk broj koliko puta je nad¯ena reˇc wk med¯u ukupno n mogu´cih pozicija (tj.
reˇci) u primerima gde je ciljna vrednost vj (koristi se m-ocena sa m = |V |,
|V | je broj reˇci u reˇcniku V ). Algoritam uˇcenja onda izgleda ovako:
1. pokupi sve razliˇcite reˇci u skup V (tokene, uopˇste) iz svih tekstova
skupa primera D
Maˇsinsko uˇcenje, inteligentni agenti 47
2. izraˇcunaj P(vj) i P(wk|vj) izraze verovatno´ca:
za svaku vrednost vj ∈ V :
• docsj ← podskup tekstova iz skupa primera D koji sadrˇze vj
• P(vj) ←
|docsj|
|D|
• textj ← tekst dobijen konkatenacijom tekstova iz docsj
• n ← broj razliˇcitih pozicija reˇci (broj reˇci) u textj
• za svaku wj ∈ V :
(a) nk ← broj reˇci wk u textj
(b) P(wk|vj) ← nk+1
n+|V |
i onda se klasifikacija vrˇsi algoritmom:
1. ulazni dokument koji se klasifikuje ima skup pozicija reˇci P (reˇc ai je
na i-toj poziciji)
2. vNB = argmaxvj ∈V P(vj) i∈P P(ai|vj)
3.1.4 Mreˇze uverenja
Ako je P(X|Y, Z) = P(X|Z) kaˇze se da su X i Y uslovno nezavisno pod
uslovom Z. Mreˇzama uverenja (belief networks) se definiˇsu viˇsedimenzionalne
(sloˇzene) raspodele koja se sastoji od n-torke promenljivih (Y1, ..., Yn). Mreˇza
uverenja je onda usmereni acikliˇcni graf gde su ˇcvorovi sluˇcajne promenljive
u kojem je svaki potomak ˇcvora zavisan od njega, a onaj koji to nije je
nezavisan (uz uslov prethodnih ˇcvorova ako ih ima). Tako je rekurzivno
definisana sloˇzena verovatno´ca:
P(y1, ..., yn) =
n
i=1
P(yi|Roditelji(Yi))
gde je Roditelji(Yi) skup neposrednih roditelja ˇcvora Yi i kombinacija njihovih
vrednosti kao u tabeli u primeru ispod:
48 Seminarski rad
(primer preuzet iz [TM-ML])
gde je prvim slovom u tabli skra´ceno oznaˇcen odgovaraju´ci ˇcvor (tabela je
vezana za ˇcvor Campfire, a ˇcvorovi imaju dve mogu´ce vrednosti - logiˇcke
vrednosti). Mreˇza uverenja je potpuno zadata takvim uslovnim verovatno´cama
za svaki ˇcvor (ili npr. faktorima dovoljnosti i potrebnosti za svaki luk da bi
se formirali logiˇcki iskazi kao pravila, kao ˇsto je to u ekspertnom sistemu
PROSPECTOR) i poˇcetnim (a priori) verovatno´cama. Cilj je obiˇcno na´ci
raspodelu verovatno´ce n-torke promenljivih na osnovu zadatih raspodela
ostalih promenljivih u mreˇzi (i onda moˇzda oceniti njihovu vrednost na
osnovu nekih zadatih poˇcetnih verovatno´ca (dokaza) ili vrednosti promenljivih).
Ovakvo verovatnosno zakljuˇcivanje je u opˇstem sluˇcaju pokazano kao problem
NP klase (Cooper, 1990), ˇcak i u aproksimativnim metodama.
Uˇcenje mreˇza uverenja (tj. njihovih uslovnih verovatno´ca ili koeficijenata)
na efikasan naˇcin se svodi na (naivni) Bajesov klasifikator ako su sve promenljive
sa verovatno´cama poznate na osnovu primera, i ako je struktura mreˇze
unapred poznata. Med¯utim, ako su vrednosti samo nekih promenljivih (ostale
su ,,skrivene” - skriveni Markovljevi lanci) raspoloˇzive tokom uˇcenja (u
primerima), onda nije tako jednostavno. Problem je donekle uporediv sa
problemom obuˇcavanja neuronskih mreˇza sa skrivenim slojevima (npr. povratnim
propagiranjem), kao ˇsto se mreˇze zakljuˇcivanja mogu predstaviti kao vrsta
NM u krajnjem sluˇcaju. Jedan naˇcin je traˇzenjem najverovatnije hipoteze
gradijent metodom, odnosno maksimizovanjem P(D|h). Ako je wijk = P(Yi =
yij|Ui = uik) uslovna verovatno´ca da ´ce promenljiva Yi imati vrednost yij ako
n-torka njenih direktnih roditelja Ui ima vrednost uik, pokazuje se da onda
vaˇzi:
∂ ln P(D|h)
∂wijk
≡
∂ ln Ph(D)
∂wijk
=
d∈D
P(Yi = yij, Ui = uik|d)
wijk
≡
d∈D
P(yij, uik|d)
wijk
Maˇsinsko uˇcenje, inteligentni agenti 49
Ovim se dobija pravilo uˇcenja:
wijk ← wijk + η
d∈D
Ph(yij, uik|d)
wijk
gde se mora dodatno voditi raˇcuna da je ispunjen preduslov da su wijk
ispravne verovatno´ce (wijk ∈ [0, 1] i da je j wijk = 1 za sve i, k), ˇsto se radi
renormalizacijom koeficijenata nakon svakog ciklusa promene koeficijenata.
Uˇcenje strukture mreˇze je joˇs teˇzi problem. Jedan naˇcin je uvod¯enje
metrike kojom se ocenjuju mreˇze alternativne strukture (u odnosu na poˇcetnu
i kasnije radnu strukturu - algoritam K2, Cooper, Herskovits, 1992), a drugi
poznati naˇcin je konstruistanjem uslova (constraints) i otkrivanjem relacija
zavisnosti na osnovu primera.
3.1.5 EM algoritam
EM algoritam je posebno koristan za primere mreˇza sa pomenutim skri-
venim ˇcvorovima. Problema ocene k-sredina (k-means) je jedan od osnovnih
problema tog tipa - ako su ulazni podaci zadati kao niz brojeva gde je
svaki element niza nasumice uniformno po jednoj od k normalnih raspodela
poznatih jednakih disperzija σ2
i nepoznatih sredina tj. proizvoljan element
niza X ima vrednost po nekoj od k normalnih raspodela {N(µj, σ2
)}k
j=1, a
svaki takav element ima i ,,skrivenu” pridruˇzenu vrednost j (indeks uniformno
nasumiˇcno izabrane normalne raspodele sa odgovaraju´com sredinom µj, 1 ≤
j ≤ k). Cilj problema je otkriti k-torku h = (µ1, ..., µk) sredina kao ispravnu
hipotezu za primer od m zadatih vrednosti. Da je skrivena vrednost poznata
(da nije skrivena, zapravo) algoritam bi bio jednostavan - za svaki podniz
yi ovakvog niza xi ˇcijim je vrednostima pridruˇzena samo jedna sredina (i
odgovaraju´ca raspodela) traˇzi se hipoteza µML td. je µML = argminµ
m
i=1 (yi − µ)2
za ˇsta se pokazuje da je reˇsenje (koje minimizuje ovu sumu) µML = 1
m
m
i=1 yi
(recimo, kao da je dat niz (k + 1)-torki (xi, zi1 , ..., zik
) gde zij
= 1 ukazuje
da je za vrednost xi koriˇs´cena normalna raspodela sa sredinom µj - ostale
vrednosti zin = 0). EM algoritam za ovaj problem incijalizuje h = (zi1 , ..., zik
)
(recimo prvih k vrednosti ulaznog niza ili njihova srednja vrednost) i onda
ponavlja naredne korake do stabilnog h (po nekom kriterijumu):
50 Seminarski rad
1. izraˇcunaj E[zij
], j = 1, k uz pretpostavku trenutne h:
E[zij
] =
p(x = xi|µ = µj)
k
n=1 p(x = xi|µ = µn)
=
e− 1
2σ2 (xi − µj)2
k
n=1 e− 1
2σ2
(xi − µn)2
2. izraˇcunaj najverovatniju novu hipotezu h′
= (µ′
1, ..., µ′
k) uz pretpostavku
da je trenutna vrednost zij
, j = 1, k je prethodno izraˇcunata E[zij
] i
zameni h sa h′
:
µj ←
m
i=1 E[zij
]xi
m
i=1 E[zij
]
Suˇstina algoritma su ova dva koraka, gde se najpre koristi trenutna hipoteza
da bi se ocenile skrivene vrednosti, a onda se tako dobijenim skrivenim
vrednostima raˇcuna iterativno bolja hipoteza. EM algoritam obavezno konvergira
ka lokalno maksimalno verovatnoj (P(D|h)) hipotezi na taj naˇcin. Uobiˇcejena
uopˇstena formulacija je da se za skup posmatranih vrednosti (observed) X =
{x1, ..., xm} i skrivenih (hidden, unobserved) Z = {z1, ..., zm} (Y = X Z je
ukupan, pun skup podataka) posmatra skup parametara θ koji je od interesa
za problem. Z se moˇze posmatrati kao sluˇcajna promenljiva (a time i Y ) ˇcija
raspodela zavisi od nepoznatih parametara θ i poznatih podataka X. Traˇzi se
h′
tako da maksimizuje E[ln P(Y |h′
)], tj. Q(h′
|h) = E[ln P(Y |h′
)|h, X] (kao
funkcija od h′
pod pretpostavkom θ = h). Tada se uopˇsteni EM algoritam
svodi na slede´ca dva koraka:
procena (estimation) (E): raˇcunanje Q(h′
|h)
maksimizovanje (maximization) (M):
h ← argmaxh′ Q(h′
|h)
Ako je Q neprekidna onda EM konvergira ka stacionarnoj taˇcki funkcije
P(Y |h′
) (sliˇcno gradijent metodama). U sluˇcaju problema k-sredina vaˇzi:
θ = (µ1, ..., µk), p(yi|h′
) = p(xi, zi1 , ..., zik
|h′
) = 1√
2πσ2
e− 1
2σ2
Pk
j=1 zij
(xi−µ′
j )2
,
pa je ln P(Y |h′
) = ln m
i=1 p(yi|h′
) = m
i=1 p(yi|h′
), i na osnovu toga je
Q(h′
|h) = E[ln P(Y |h′
)] = m
i=1 ln 1√
2πσ2
− 1
2σ2
k
j=1 E[zij
](xi − µ′
j)2
, pa
je argmaxh′ Q(h′
|h) = argminh′
m
i=1
k
j=1 E[zij
](xi − µ′
j)2
.
Maˇsinsko uˇcenje, inteligentni agenti 51
3.2 Statistiˇcko uˇcenje i funkcija gubitka
Sve pomenute metode i poznate metode matematiˇcke verovatno´ce i statistike
nude korisne alate u problemima maˇsinskog uˇcenja. To se moˇze i ovako
posmatrati: ako je X sluˇcajna promenljiva nad n-torkama gde je p(X) (a
priori) verovatno´ca da je to n-torka koju traˇzimo da klasifikujemo, odnosno
gustina raspodele sluˇcajne promenljive X, onda se moˇze sa p(X|1) i p(X|2)
oznaˇciti gustina raspodele za kategorije 1 i 2 (p(i) je a priori verovatno´ca
kategorije), redom (dalje se sve moˇze uopˇstiti jednostavno za proizvoljan
broj kategorija) - raspodele za te dve kategorije se mogu razlikovati. Dve
osnovne greˇske se mogu napraviti: da je data n-torka (uzorak, ˇsema) u
kategorji 1 iako pripada kategoriji 2, i obratno. Ozbiljnost napravljene greˇske
se ocenjuje funkcijom gubitka (loss function) λ(i|j) za odabranu kategoriju
i ako je kategorija j taˇcna (λ(i|i) = 0). Oˇcekivana vrednost gubitka za
dato x je LX(i) = λ(i|1)p(1|X) + λ(i|2)p(2|X). Kategoriju 1 biramo ako je
LX(1) ≤ LX(2), a upotrebom Bajesovog pravila dobija se:
λ(1|2)p(X|2)p(2) ≤ λ(2|1)p(X|1)p(1)
Specijalno, ako je λ(1|2) = λ(2|1) i p(1) = p(2) onda je taj uslov: p(X|2) ≤
p(X|1) (tj. izbor najverovatnije kategorije u X, maximum likelihood), gde se
koristi i opˇstije k(i|j) = λ(i|j)p(j). Naravno, za proizvoljan skup kategorija
C se moˇze zadatak definisati uopˇsteno, gde se bira kategorija j ∈ C za koju
vaˇzi:
j = argmini∈CLX(i)
Konkretan kriterijum se dobija izborom pretpostavljene raspodele - dve
raspodele su interesantne: Gausova (normalna) i binomna. Matriˇcno zapisana
gustina viˇsedimenzionalne normalne raspodele je:
p(X) =
1
(2π)n/2|Σ|1/2
e
−(X−M)T Σ−1(X−M)
2
gde je M = E[X] srednji vektor (vektor srednjih vrednosti), Σ = [σ2
ij]ij
matrica kovarijanse (simetriˇcna, pozitivno definitna), |Σ| = det Σ, σ2
ij =
E[(xi − mi)(xj − mj)] (σ2
ii je disperzija za xi). Tada se pomenuti kriterijum
svodi na:
(X − M1)T
Σ1
−1
(X − M1) ≤ (X − M2)T
Σ2
−1
(X − M2) + B
52 Seminarski rad
gde je B = 2
(2π)n/2 ( 1
|Σ2|1/2 − 1
|Σ1|1/2 ) konstanta. Specijalno, ako je Σ1 = Σ2 = Σ
i ako su dijagonalne, tada je uslov: (X − M1)T
(X − M1) ≤ (X − M2)T
(X −
M2) tj. X(M1 − M2) ≥ C gde je C = (M1M1 − M2M2)/2 konstanta.
Ako su vrednosti sluˇcajne promenljive u skupu {0, 1}, i ako su komponente
uslovno nezavisne, p(X|i) = p(x1|i) . . . p(xn|i), moˇze se zapisati (binomna
raspodela):
p(xi = 1|1) = pi
p(xi = 0|1) = 1 − pi
p(xi = 1|2) = qi
p(xi = 0|2) = 1 − qi
Maˇsinsko uˇcenje, inteligentni agenti 53
i onda je pomenuti uslov:
n
i=1
xi log
pi(1 − qi)
qi(1 − pi)
+
n
i=1
log
1 − pi
1 − qi
+ log
p(1)
p(2)
≥ 0
3.3 Kombinatorna optimizacija, inteligencija roja
Mnogi problemi veˇstaˇcke inteligencije se reˇsavaju dinamiˇckim programiranjem
i metodama bliskim problemima optimizacije. Klasa asinhrono distribuiranih
algoritama koji su inspirisani bioloˇskim zajednicama, poput mrava u prirodi
(sliˇcno genetskim algoritmima), zove se inteligencija roja (swarm intelligence).
Primer je TSP problem (putuju´ceg trgovca) odred¯ivanja optimalnog Hamiltonovog
puta datog obeleˇzenog (cenama) grafa. Rubinˇstajn predlaˇze metodu koja
daje podklasu ovakvih algoritama (inspirasanu optimizacijom kolonije mrava,
Rubinstein, 1999) upotrebom prelazne entropije - ,,PE mravi” (CE-ants,
Cross Entropy). Rubinˇstajnova metoda nije distribuirana (raˇcunanja se
ne mogu paralelizovati) i spada specijalno zato u klasu centralnih metoda
(varijantu koja jeste distribuirana predloˇzili su Helvik i Wittner, 2001). Schoonderwoerd
(kao primenu na osnovu Dorigovog ACO metoda i sistema AntNet, Ant
Colony Optimization) predlaˇze sistem sa ve´cim brojem veoma uproˇs´cenih
agenata (koji vremenom stare) za reˇsavanje mreˇznih i telekomunikacionih
problema. Med¯utim, ovaj metod se ne snalazi tako dobro sa NP problemima
kao ˇsto je TSP, ˇsto metoda PE-mrava ispravlja uvod¯enjem koeficijenta ˇziˇze
pretrage.
Broj Hamiltonovih putanja u grafu reda n je (n − 1)! - ideja je iskoristiti
statistiˇcke osobine roja koji ostavlja feromonske tragove koji ukazaju blizinu
optimalne putanje, i tako na´ci reˇsenje ˇsto bliˇze optimalnom. Ovi tragovi su
dati matricom prelaska Pt u trenutku t, koja odgovara matrici verovatno´ca
Markovljevog lanca. Ako je funkcija cene putanje πi = {r1i
, r2i
, ..., rni
} sa
matricom cena Lkl (za Hamiltonovu putanju vaˇzi za svako i da je ni = n + 1
i r1i
= rni
) data sa L(πi) = ni−1
j=1 Lrj rj+1
, Rubinˇstajnovi PE-mravi ovako
rade (sliˇcno EM-algoritmu, traˇzi se matrica prelaska u dva koraka - raˇcuna
se funkcija ocene performansi, a onda iteracija matrice prelaska):
1. Pt=0 se inicijalizuje uniformno nasumiˇcnim (malim) vrednostima
2. generiˇsi N putanja na osnovu Pt i izraˇcunaj minimalnu Bolcmanovu
temperaturu γt kao meru performanse kojom se utiˇce na izbor znaˇcajnijih
54 Seminarski rad
putanja:
γt ≡ argminγ′
t
h(Pt, γ′
t), h(Pt, γ′
t) =
1
N
N
k=1
H(πk, γt) > ρ
gde je H(Pt, γ′
t) = e
−
L(πk))
γt , k = 1, N mera performanse putanje πk, a
10−6
≤ ρ ≤ 10−2
ograniˇcenje tj. koeficijent ˇziˇze pretrage (search focus)
kao parametar algoritma.
3. za narednu iteraciju Pt+1 = argmaxPt
1
N
N
k=1 H(πk, γt) i,j, pokazuje
se da je:
Pt+1,ij =
{r,s}∈πk,k=1,N H(πk, γt)
{r}∈πl,l=1,N H(πl, γt)
koja minimizuje prelaznu entropiju i poˇstuje ograniˇcenja γt
4. ponavljaj prethodna dva koraka sve dok ne bude H(π, γt) ≈ H(π, γt+1)
gde je π pribliˇzno optimalno reˇsenje (najbliˇze pronad¯eno)
Distribuirana i asinhrona verzija koristi slede´ce izmene (autoregresijom):
Pt+1,ij =
{r,s}∈πk,k=1,t βt−k
H(πk, γt)
{r}∈πl,l=1,t βt−lH(πl, γt)
, γt = argminγ′
t
h′
t(γ′
t) > ρ
h′
t(γ′
t) = h′
t−1(γ′
t)β + (1 − β)H(πt, γt) ≈
1 − β
1 − βt
t
k=1
βt−k
H(πk, γt)
gde 0 < β < 1 kontroliˇse istoriju zapam´cenih putanja umesto N (recimo β =
0.998, ρ se smanjuje svaki put za 5%). Koraci 2. i 3. algoritma se tako mogu
napraviti posle samo jedne nove putanje πt. Dalje poboljˇsanje algoritma
se ogleda u primeni elitnog izbora (elite selection) gde se cena ograniˇcava
relativno u odnosu na trenutno najbolju nad¯enu putanju Lnajbolji, t = min∀u≤t L(πu)
tako da je:
L(πt) ≤ (1 + ρ2)Lnajbolji, t−1
gde je ρ2 parametar koji se moˇze i menjati tokom vremena (iteracija). Kada
je ρ2 = 0 reˇsenje se pronalazi brzo ali nije toliko blisko optimalnom. Ideja je
vremenom smanjivati ρ2 (ˇcime elitna selekcija postaje restriktivnija) svaki
put kada se nad¯e novo bolje reˇsenje (Lnajbolji, t+n < Lnajbolji, t) ili kada
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning
Machine Learning

Mais conteúdo relacionado

Semelhante a Machine Learning

MR - Istraživanje podataka uz pomoć softverskog alata Rapidminer
MR - Istraživanje podataka uz pomoć softverskog alata RapidminerMR - Istraživanje podataka uz pomoć softverskog alata Rapidminer
MR - Istraživanje podataka uz pomoć softverskog alata RapidminerAtila Palkovač
 
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skripta
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skriptaSeminarski diplomskivjerovatnoca i-matematicka-statistika-skripta
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skriptamaturski
 
Prirucnik za izradu logicke matrtice 2011
Prirucnik za izradu logicke matrtice 2011Prirucnik za izradu logicke matrtice 2011
Prirucnik za izradu logicke matrtice 2011Aleksandra Inić
 
OptimalSQM MAINT sistem za odrzavanje
OptimalSQM MAINT sistem za odrzavanjeOptimalSQM MAINT sistem za odrzavanje
OptimalSQM MAINT sistem za odrzavanjeDenis Bogucanin
 
Matemaicka analiza zbirka cikos gizela
Matemaicka analiza zbirka  cikos gizelaMatemaicka analiza zbirka  cikos gizela
Matemaicka analiza zbirka cikos gizelaopanovic
 
74344813 metodologija-naučnog-rada
74344813 metodologija-naučnog-rada74344813 metodologija-naučnog-rada
74344813 metodologija-naučnog-radaBoris Pokoloko
 
Dizajn i razvoj proizvoda
Dizajn i razvoj proizvodaDizajn i razvoj proizvoda
Dizajn i razvoj proizvodaElvedin Trakić
 
Za decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaZa decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaspecijalci
 
Us multimedija - praktikum
Us   multimedija - praktikumUs   multimedija - praktikum
Us multimedija - praktikumMarija Starcevic
 
Integracija Moodle sms master rad FON
Integracija Moodle sms master rad FONIntegracija Moodle sms master rad FON
Integracija Moodle sms master rad FONbiljana_dj
 
Za decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaZa decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaZorana Galic
 
Primena marketinga u elektronskoj trgovini master
Primena marketinga u elektronskoj trgovini   masterPrimena marketinga u elektronskoj trgovini   master
Primena marketinga u elektronskoj trgovini masterAleksandraBeba
 
SIT - Master rad - Slaven Ijacic - 410154-2012 FINAL
SIT - Master rad - Slaven Ijacic - 410154-2012 FINALSIT - Master rad - Slaven Ijacic - 410154-2012 FINAL
SIT - Master rad - Slaven Ijacic - 410154-2012 FINALSlaven Ijačić
 
Us 3 d grafika i animacija
Us   3 d grafika i animacijaUs   3 d grafika i animacija
Us 3 d grafika i animacijaMarija Starcevic
 
Us modul 2 - korišćenje računara
Us   modul 2 - korišćenje računaraUs   modul 2 - korišćenje računara
Us modul 2 - korišćenje računaraMarija Starcevic
 
Nastavni materijal-priprema-za-cas
Nastavni materijal-priprema-za-casNastavni materijal-priprema-za-cas
Nastavni materijal-priprema-za-castehnickaso
 

Semelhante a Machine Learning (20)

Us operativni sistemi
Us   operativni sistemiUs   operativni sistemi
Us operativni sistemi
 
MR - Istraživanje podataka uz pomoć softverskog alata Rapidminer
MR - Istraživanje podataka uz pomoć softverskog alata RapidminerMR - Istraživanje podataka uz pomoć softverskog alata Rapidminer
MR - Istraživanje podataka uz pomoć softverskog alata Rapidminer
 
Us kriptologija i
Us   kriptologija iUs   kriptologija i
Us kriptologija i
 
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skripta
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skriptaSeminarski diplomskivjerovatnoca i-matematicka-statistika-skripta
Seminarski diplomskivjerovatnoca i-matematicka-statistika-skripta
 
D183d0bfd183d182d181d182d0b2d0be d0b7d0b0 d0b8d0b7d180d0b0d0b4d183_d0bad0bed0...
D183d0bfd183d182d181d182d0b2d0be d0b7d0b0 d0b8d0b7d180d0b0d0b4d183_d0bad0bed0...D183d0bfd183d182d181d182d0b2d0be d0b7d0b0 d0b8d0b7d180d0b0d0b4d183_d0bad0bed0...
D183d0bfd183d182d181d182d0b2d0be d0b7d0b0 d0b8d0b7d180d0b0d0b4d183_d0bad0bed0...
 
Prirucnik za izradu logicke matrtice 2011
Prirucnik za izradu logicke matrtice 2011Prirucnik za izradu logicke matrtice 2011
Prirucnik za izradu logicke matrtice 2011
 
OptimalSQM MAINT sistem za odrzavanje
OptimalSQM MAINT sistem za odrzavanjeOptimalSQM MAINT sistem za odrzavanje
OptimalSQM MAINT sistem za odrzavanje
 
Matemaicka analiza zbirka cikos gizela
Matemaicka analiza zbirka  cikos gizelaMatemaicka analiza zbirka  cikos gizela
Matemaicka analiza zbirka cikos gizela
 
74344813 metodologija-naučnog-rada
74344813 metodologija-naučnog-rada74344813 metodologija-naučnog-rada
74344813 metodologija-naučnog-rada
 
Dizajn i razvoj proizvoda
Dizajn i razvoj proizvodaDizajn i razvoj proizvoda
Dizajn i razvoj proizvoda
 
Za decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaZa decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebama
 
Us multimedija - praktikum
Us   multimedija - praktikumUs   multimedija - praktikum
Us multimedija - praktikum
 
Integracija Moodle sms master rad FON
Integracija Moodle sms master rad FONIntegracija Moodle sms master rad FON
Integracija Moodle sms master rad FON
 
Za decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebamaZa decu sa_posebnim_potrebama
Za decu sa_posebnim_potrebama
 
Primena marketinga u elektronskoj trgovini master
Primena marketinga u elektronskoj trgovini   masterPrimena marketinga u elektronskoj trgovini   master
Primena marketinga u elektronskoj trgovini master
 
SIT - Master rad - Slaven Ijacic - 410154-2012 FINAL
SIT - Master rad - Slaven Ijacic - 410154-2012 FINALSIT - Master rad - Slaven Ijacic - 410154-2012 FINAL
SIT - Master rad - Slaven Ijacic - 410154-2012 FINAL
 
Primena optimizacije pretraživača u marketingu
Primena optimizacije pretraživača u marketinguPrimena optimizacije pretraživača u marketingu
Primena optimizacije pretraživača u marketingu
 
Us 3 d grafika i animacija
Us   3 d grafika i animacijaUs   3 d grafika i animacija
Us 3 d grafika i animacija
 
Us modul 2 - korišćenje računara
Us   modul 2 - korišćenje računaraUs   modul 2 - korišćenje računara
Us modul 2 - korišćenje računara
 
Nastavni materijal-priprema-za-cas
Nastavni materijal-priprema-za-casNastavni materijal-priprema-za-cas
Nastavni materijal-priprema-za-cas
 

Mais de Zoran Popovic

Magistarska teza - prezentacija
Magistarska teza - prezentacijaMagistarska teza - prezentacija
Magistarska teza - prezentacijaZoran Popovic
 
SAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... ItaniumSAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... ItaniumZoran Popovic
 
SSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle loginSSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle loginZoran Popovic
 

Mais de Zoran Popovic (8)

Magistarska teza
Magistarska tezaMagistarska teza
Magistarska teza
 
Magistarska teza - prezentacija
Magistarska teza - prezentacijaMagistarska teza - prezentacija
Magistarska teza - prezentacija
 
Tag
TagTag
Tag
 
SAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... ItaniumSAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... Itanium
 
SSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle loginSSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle login
 
Migration to 9i
Migration to 9iMigration to 9i
Migration to 9i
 
ETRAN 2008
ETRAN 2008ETRAN 2008
ETRAN 2008
 
SISY 2008
SISY 2008SISY 2008
SISY 2008
 

Último (6)

OIR-V9.pptx
OIR-V9.pptxOIR-V9.pptx
OIR-V9.pptx
 
OIR11-L2.pptx
OIR11-L2.pptxOIR11-L2.pptx
OIR11-L2.pptx
 
OIR11-L1.pptx
OIR11-L1.pptxOIR11-L1.pptx
OIR11-L1.pptx
 
OIR11-L4.pptx
OIR11-L4.pptxOIR11-L4.pptx
OIR11-L4.pptx
 
OIR-V8.pptx
OIR-V8.pptxOIR-V8.pptx
OIR-V8.pptx
 
OIR11-L3.pptx
OIR11-L3.pptxOIR11-L3.pptx
OIR11-L3.pptx
 

Machine Learning

  • 1. Seminarski rad: Maˇsinsko uˇcenje, inteligentni agenti Popovi´c Zoran Centar za multidisciplinarne studije Univerzitet u Beogradu 23. maj 2007 Saˇzetak Ovaj tekst je zamiˇsljen kao pregled sadrˇzaja knjiga i radova iz oblasti maˇsinskog uˇcenja i inteligentnih agenata. Rad je pisan pomo´cu TEX-a tj. LATEX-a kao njegovog dijalekta i jfig alata - [PG] i [TB]. Profesor: Vladan Devedˇzi´c
  • 2. Maˇsinsko uˇcenje, inteligentni agenti 1 Sadrˇzaj 1 Poglavlje 1 - uvod 4 1.1 Pojam maˇsinskog uˇcenja . . . . . . . . . . . . . . . . . . . . . 5 1.2 Tipovi uˇcenja i osnovne odlike . . . . . . . . . . . . . . . . . . 6 1.3 Neuronske mreˇze i genetski algoritmi . . . . . . . . . . . . . . 8 2 Uˇcenje koncepta i ured¯enje od opˇsteg ka posebnom 10 2.1 Uˇcenje koncepta . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Algoritam eliminacije kandidata . . . . . . . . . . . . . . . . . 12 2.3 Induktivni bias . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Uˇcenje drvetom odluke . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Reprezentacija . . . . . . . . . . . . . . . . . . . . . . . 16 2.4.2 Okamova oˇstrica . . . . . . . . . . . . . . . . . . . . . 18 2.4.3 Proˇsirenja ID3 . . . . . . . . . . . . . . . . . . . . . . . 18 2.5 Vrednovanje hipoteze . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.1 Upored¯ivanje hipoteza . . . . . . . . . . . . . . . . . . 22 2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja . . . . . . 22 2.6.1 Induktivno logiˇcko programiranje . . . . . . . . . . . . 24 2.6.2 Kanonski ILP algoritam . . . . . . . . . . . . . . . . . 25 2.6.3 Indukcija kao inverzna rezolucija . . . . . . . . . . . . 28 2.7 Raˇcunska i statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . 30 2.7.1 Statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . . . 30 2.7.2 ERM princip . . . . . . . . . . . . . . . . . . . . . . . 31 2.7.3 SRM princip . . . . . . . . . . . . . . . . . . . . . . . . 33 2.7.4 VAK (PAC) pristup . . . . . . . . . . . . . . . . . . . . 34 2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa 35 2.7.6 Optimalna granica greˇske . . . . . . . . . . . . . . . . 36 2.7.7 Graniˇcno uˇcenje . . . . . . . . . . . . . . . . . . . . . . 36 3 Statistiˇcko i Bajesovo uˇcenje 43 3.1 Bajesovo uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.1.1 Veza najverovatnije hipoteze i LMS . . . . . . . . . . . 44 3.1.2 MDL princip . . . . . . . . . . . . . . . . . . . . . . . 44 3.1.3 Bajesovi klasifikatori, Gibsov algoritam . . . . . . . . . 45 3.1.4 Mreˇze uverenja . . . . . . . . . . . . . . . . . . . . . . 47 3.1.5 EM algoritam . . . . . . . . . . . . . . . . . . . . . . . 49 3.2 Statistiˇcko uˇcenje i funkcija gubitka . . . . . . . . . . . . . . . 51
  • 3. 2 Seminarski rad 3.3 Kombinatorna optimizacija, inteligencija roja . . . . . . . . . 53 3.4 Apriori metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4 Uˇcenje instancama i metode klasifikacije 58 4.1 Metod najbliˇzih suseda . . . . . . . . . . . . . . . . . . . . . . 58 4.1.1 Lokalno-teˇzinska regresija . . . . . . . . . . . . . . . . 60 4.2 Funkcije radijalne baze . . . . . . . . . . . . . . . . . . . . . . 60 4.2.1 Zakljuˇcivanje izborom sluˇcaja . . . . . . . . . . . . . . 61 4.3 Nenadgledano uˇcenje i metode klasterovanja . . . . . . . . . . 62 4.4 Vremenske instance i problem predvid¯anja . . . . . . . . . . . 66 4.5 SVM, maˇsine potpornih vektora . . . . . . . . . . . . . . . . . 68 5 Analitiˇcko uˇcenje i uˇcenje objaˇsnjenjima 71 5.1 Uˇcenje objaˇsnjenjima (EBL) . . . . . . . . . . . . . . . . . . . 71 5.2 Analitiˇcko uˇcenje i deduktivno zakljuˇcivanje . . . . . . . . . . 75 5.3 Induktivno i analitiˇcko uˇcenje . . . . . . . . . . . . . . . . . . 76 6 Uˇcenje ojaˇcavanjem 78 6.1 Pojam uˇcenja ojaˇcavanjem . . . . . . . . . . . . . . . . . . . . 78 6.2 Q-funkcija i uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . 80 6.2.1 Nedeterministiˇcki sluˇcaj . . . . . . . . . . . . . . . . . 81 7 Otkrivanje znanja i traganje kroz znanje (Data Mining) 82 7.1 Pojam otkrivanja znanja . . . . . . . . . . . . . . . . . . . . . 82 7.2 Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 8 Arhitektura i tipovi inteligentnih agenata 87 8.1 Tropistiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 87 8.2 Histeretiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.3 Agenti nivoa znanja . . . . . . . . . . . . . . . . . . . . . . . . 90 8.4 Agenti znanja u koracima . . . . . . . . . . . . . . . . . . . . 93 8.5 Agenti s namerom . . . . . . . . . . . . . . . . . . . . . . . . . 96 8.6 Promiˇsljeni (racionalni) agenti . . . . . . . . . . . . . . . . . . 100 9 Multi-agentski sistemi i primeri 102 9.1 Multi-agentski sistemi . . . . . . . . . . . . . . . . . . . . . . 102 9.2 JADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 9.2.1 FIPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 9.2.2 FIPA-SL . . . . . . . . . . . . . . . . . . . . . . . . . . 113
  • 4. Maˇsinsko uˇcenje, inteligentni agenti 3 9.3 Primer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 9.3.1 Modifikovan model najbliˇzih suseda . . . . . . . . . . . 116 9.3.2 Razvojno okruˇzenje . . . . . . . . . . . . . . . . . . . . 118 9.3.3 Alternativna okruˇzenja . . . . . . . . . . . . . . . . . . 119 9.4 Prototip primera . . . . . . . . . . . . . . . . . . . . . . . . . 120 9.4.1 Pokretanje . . . . . . . . . . . . . . . . . . . . . . . . . 121 9.4.2 Opis korisniˇckog interfejsa i primer unosa . . . . . . . . 124 9.4.3 Opis postavljanja upita . . . . . . . . . . . . . . . . . . 125 9.4.4 Ostale mogu´ce dorade . . . . . . . . . . . . . . . . . . 126 9.4.5 Aplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 9.4.6 To-Do lista . . . . . . . . . . . . . . . . . . . . . . . . 127
  • 5. 4 Seminarski rad 1 Poglavlje 1 - uvod Maˇsinsko uˇcenje kao oblast veˇstaˇcke inteligencije predstavlja skup para- digmi, algoritama, teorijskih rezultata i primena iz razliˇcitih oblasti veˇstaˇcke inteligencije i evolucionih modela (u smislu pretraˇzivanja) ali i drugih oblasti: statistike i verovatno´ce (Bajesov klasifikator, raspodele i testovi) i drugih oblasti matematike, teorije izraˇcunljivosti (mora postojati svest o sloˇzenosti problema i ograniˇcenjima koja proistiˇcu iz toga), teorije (adaptivnog) upravljanja, informacione teorije, psihlogije i neurobiologije (neuronske mreˇze), filozofije, kognitivnih i drugih nauka. Cilj je napraviti programe koji bi bili u stanju da uˇce - zaˇsto bi raˇcunari i maˇsine uopˇste morali da budu u stanju da uˇce ? Pored mogu´cnosti istraˇzivanja i isprobavanja razliˇcitih modela uˇcenja kod ljudi i ˇzivotinja u psihologiji, postoje daleko praktiˇcniji razlozi za tako neˇsto: • neki se problemi nemogu jednostavno definisati osim primerima u toku praktiˇcnog rada (npr. prepoznavanje glasa ili problemi vizije kod kojih je neophodno personalizovati bazu znanja o konkretnom glasu ili licu koji se prepoznaje radi autentifikacije ili zbog optimalnijeg rada) ili ako okruˇzenje u kojem se koristi sistem nije poznato u toku njegovog projektovanja • u velikoj koliˇcini podataka se kriju neoˇcigledni entiteti i relacije med¯u njima - problem otrivanja znanja (Data Mining): postoje metode ma- ˇsinskog uˇcenja koje se uspeˇsno primenjuju u mnogim oblastima • ˇcesto su koliˇcine podataka i odnosa u njima toliko velike da je ljudima praktiˇcno nemogu´ce da znanje u njima u celini obuhvate, koriste ili zapiˇsu - onda je praktiˇcnije, ako je mogu´ce, postupno maˇsinski obuhvatiti takvo znanje • maˇsine i programi koji se prilogad¯avaju okruˇzenju koje se menja vremenom (dinamiˇcki sistemi) su ˇcest i potreban zahtev u mnogim oblastima, a za mnoge zadatke je cilj na´ci reˇsenje koje se fleksibilno prilagod¯ava umesto da se koriste metode veˇstaˇcke inteligencije kojima je potreban reinˇzenjering nakon svake suˇstinske promene Ve´cina danaˇsnjih praktiˇcno uspeˇsnih sistema maˇsinskog uˇcenja spada u one koji su ,,tabula rasa” ˇsto se tiˇce nekakvog predznanja (znanja kojim uˇcenik raspolaˇze pre nego ˇsto krene da uˇci), pored reprezentacije hipoteze i primera - tek neke metode pokazuju potencijal u tom smislu (uˇcenje objaˇsnjenjima
  • 6. Maˇsinsko uˇcenje, inteligentni agenti 5 i Bajesove mreˇze) i zato je neophodno dalje unapred¯ivanje sliˇcnih metoda. Budu´cnost maˇsinskog uˇcenja je i u sistemima koji se ne tiˇcu samo jednog zadatka ili tipa zadataka ve´c predstavljaju uopˇstene i fleksibilne sisteme koji uˇce dugo (life-long learning: samostalni agenti koji starenjem poboljˇsavaju performanse, uˇce nove reprezentacije, itd.), kao i u razvojnim okruˇzenjima (i moˇzda proˇsirenjima programskih jezika) koja sadrˇze neophodne mehanizme potrebne za maˇsinsko uˇcenje. Na kraju, tek je naˇceto istraˇzivanje mogu´cnosti uˇcenja prirodnim jezikom kao izvorom iskustva - najve´ci deo danaˇsnjeg polustruktuiranog sadrˇzaja interneta je upravo u obliku nekakvog teksta. 1.1 Pojam maˇsinskog uˇcenja Jedna preciznija definicija pojma maˇsinskog uˇcenja (kako se navodi u [TM-ML]) bi bila: Definicija 1.1 Program (maˇsina) M uˇci iz iskustva E u odnosu na klasu zadataka T i meru performansi P (mera je definisana nad osobinom ili skupom osobina koje takod¯e moraju biti definisane), ako se mera performansi P programa poboljˇsava u vezi zadataka T nakon iskustva E. U primeru prepoznavanja pisanog teksta T je prepoznavanje i klasifikovanje reˇci ili slova u datoj slici, P je procenat ispravno prepoznatih, E je skup obuˇcavanja koji ˇcini bazu zadatih slika slova i reˇci i njihovih klasifikacija. Klasiˇcan je primer i Sejmurov program koji uˇci da igra dame. Mera performansi je onda sposobnost da pobedi protivnika nakon iskustva steˇcenog u igranju protiv samog sebe ili protivnika koji ume da igra. Objekat uˇcenja mogu biti razliˇcite konceptualizacije sveta, odnosno izraˇcunljive strukture: • funkcije - mnogi se problemi mogu svesti na zadatak traˇzenja preslikavanja f nad nekim skupovima gde je hipoteza preslikavanje h (iste arnosti) a skup obuˇcavanja S je odred¯en broj parova zadatih vrednosti domena i f, a cilj je da se h iz neke klase fukcija H ˇsto bolje ,,poklapa” sa f (h = f, idealno). Na primer funkcija evaluacije u teoriji igara koja je obiˇcno predstavljena vektorom parametara (uz npr. LMS pravilo uˇcenja) • logiˇcki programi, frejmovi - osnovni vid konceptualizacije sveta u kojem se traˇzi reˇsenje nekog problema je jezik PR1 ili nekog od njegovih ,,dijalekata” (npr. PROLOG) kao i druge formalizacije
  • 7. 6 Seminarski rad • produkciona pravila • konaˇcni automati, formalne gramatike • neuronske mreˇze i drugi sistemi koji reˇsavaju probleme 1.2 Tipovi uˇcenja i osnovne odlike Osnova podela tipova uˇcenja vezuje se za uˇcenje funkcija, ali se uoˇcava sliˇcno i sa drugim objektima uˇcenja: Nadgledano (supervised) - kada su zadate vrednosti funkcije u skupu obuˇcavanja (trivijalan primer moˇze biti interpolacija ili fitovanje krive) Nenadgledano (unsupervised) - kada nisu zadate vrednosti funkcije u skupu obuˇcavanja (obiˇcno se svodi na neki problem klasifikovanja tj. kao da je u prethodnom sluˇcaju vrednost zapravo klasa pripadnosti) Hipoteza kao nauˇceno znaˇcenje konceptualizacije sveta (okruˇzenja) i njena taˇcnost kao polazna mera performansi su zajedniˇcke ve´cini sistema maˇsinskog uˇcenja. Struktura jednog prototipa takvog klasiˇcnog sistema (npr. mnogi problemi igara, klase neuronskih mreˇza, razliˇciti sistemi prepoznavanja ˇsablona ili klasifikacije, itd.) je prikazana pomo´cu ˇcetiri povezane celine: o (igra sa tablom b) (game history) Kriticar Hipoteza Parovi performansama Sistem sa Generalizator eksperimenata Generator Rezultati Novi problem (b, V (b))
  • 8. Maˇsinsko uˇcenje, inteligentni agenti 7 Tako je opisan, na primer, program koji igra dame sa funkcijom evaluacije V koja ima koeficijente wi i vrednostima stanja table xi kao n-torke b domena te funkcije kao objekta uˇcenja. Sistem sa performansama i radnom hipotezom V daje nekakvo reˇsenje (solution trace, npr. lista poteza tj. stanja b i ocena njihovih vrednosti) koje preuzima kritiˇcar - postoji skup obuˇcavanja kojeg ˇcine parovi (b, Vo(b)), ali ovima kritiˇcar pridruˇzuje ,,iskustvo” nastalo nakon svake partije tako ˇsto za med¯upoteze u partiji (pogotovu za koje nema vrednosti u skupu obuˇcavanja) uzima ocenu vrednosti Vo(b) ← V (succ(b)) (pravilo ocene vrednosti obuke, gde je succ(b) stanje table nakon poteza programa, tj. ono kod kojeg se oˇcekuje slede´ci potez protivnika). Ovo je pogotovu korisno ako je jedino iskustvo dostupno nastalo u partijama odigranim protiv samog sebe (ovo je dodatno korisno kod sistema koji nemogu da prevazid¯u problem ,,loˇseg iskustva” kada uˇce od protivnika koji ne zna dobro da igra - Semjuelov primer). Sigurno je poznato samo da je neko dobio ili izgubio partiju, a na ovaj naˇcin se ocenjuju i med¯uvrednosti funkcije evaluacije, ali se i koristi i nauˇceno znanje. Pokazuje se da je ovo veoma efikasan metod uˇcenja i u posebnim sluˇcajevima (uˇcenje sa ojaˇcavanjem) moˇze se pokazati da obavezno teˇzi ka najboljem reˇsenju (npr. perceptron, u sluˇcajevima kada takvo reˇsenje postoji). Generalizator je komponenta koja ima ulogu primene steˇcenog znanja na osnovu pravila uˇcenja i njegov rezultat je nova hipoteza - npr. LMS (Least Mean Squares) podrazumeva da najbolja hipoteza minimizuje zbir kvadrata greˇsaka (razlike pojedinih vrednosti iz skupa obuˇcavanja i hipoteze) E = (b,Vo(b))∈S [Vo(b) − V (b)]2 i to se realizuje, na primer, slede´cim iterativnim pravilom uˇcenja: wi ← wi + η[Vo(b) − V (b)]xi gde je η ∈ (0, 1) parametar brzine uˇcenja. Nova hipoteza bi trebala da svakim ovakvim ciklusom (epohom) daje bolje performanse. Na osnovu nje, trenutnog skupa obuˇcavanja i strategije uˇcenja generator eksperimenata kreira novo poˇcetno stanje (prazna tabla u konkretnom sluˇcaju). U opˇstem sluˇcaju su mogu´ce mnoge varijacije ovakve strukture uˇcenja gde se pored drugaˇcijeg izbora iskustva i generisanja sluˇcajeva moˇze izabrati drugaˇcija strategija uˇcenja koja podrazumeva i drugaˇciju funkciju evaluacije (koja je ponekad i objekat uˇcenja, objektivna funkcija) i njenu reprezentaciju, kao i drugaˇciji algoritam uˇcenja (npr. gradijent metoda, dinamiˇcko programiranje i drugo) tj. generalizatora. Tu se postavljaju mnoga pitanja - kako realizovati opisane komponente optimalno, kakav skup obuˇcavanja je potreban (koliki broj parova, kako raznovrsnost utiˇce na sposobnost generalizacije nauˇcenog
  • 9. 8 Seminarski rad znanja), kako (i zaˇsto) ograniˇciti klasu raspoloˇzivih hipoteza i drugo. Takod¯e, veoma je vaˇzan izbor ˇclanova skupa obuˇcavanja i naˇcin evaluacije performansi uˇcenja - koliko je potrebno parova obuˇcavanja da bi se postiglo optimalno vreme i performanse uˇcenja ? Ako je skup parova obuˇcavanja ujedno i jedini izvor znanja za sistem koji uˇci, i jedini izvor za ocene performansi uˇcenja - kako biti siguran da ´ce sistem kasnije uspeˇsno raditi i sa nepoznatim parovima van skupa obuˇcavanja (koliko je u stanju da generalizuje) ? ˇCest praktiˇcan metod da se ovo postigne je podela skupa obuˇcavanja na n particija (n folds, gde je n obiˇcno izmed¯u 3 i 10), gde se u n iteracija jedna particija koristi za ocenu performansi a ostale za uˇcenje. O nekim drugim metodima ´ce viˇse detalja biti u narednim poglavljima. Cilj daljeg teksta pre svega je pregled razliˇcitih metoda uˇcenja bez posebnog razmatranja detalja osim kao ilustracije naˇcina primene i pregleda sadrˇzaja. 1.3 Neuronske mreˇze i genetski algoritmi Neuronske mreˇze i genetski algoritmi (evoluciono programiranje) kao pa- radigme Soft Computing oblasti prirodno podrˇzavaju mnoge aspekte maˇsin- skog uˇcenja. Izmed¯u ostalog, predstavljaju dobar primer sistema u kome je primenjeno maˇsinsko uˇcenje. Ako se pod¯e od klase NM sa povratnim propagiranjem (kao i nekih drugih), kod uopˇstenog prototipa sistema maˇsinskog uˇcenja mogu se prepoznati onda svi njegovi elementi - zadaci koje sistem mora da vrˇsi, performanse sistema koje se mere (recimo, numeriˇcka taˇcnost NM ili efikasnost klasifikacije, LMS greˇska), kao i iskustvo i skupovi obuˇcavanja. Strategije obuˇcavanja i struktura mogu biti i veoma drugaˇcije od opisanog primera i prototipa ˇsto je obiˇcno posledica specifiˇcnog domena i problema koji se reˇsava ovakvim sistemima. NM pokazuju osobine induktivnih sistema maˇsinskog uˇcenja - imaju sposobnost generalizacije na osnovu datih primera. Genetski algoritmi u opˇstem sluˇcaju se mogu posmatrati kao algoritmi maˇsinskog uˇcenja koji uˇce (odnosno traˇze) hipotezu gde je prostor hipoteza uslovljen specifiˇcnim prostorom pretrage konkretnog GA sa svojim zadatkom - postavlja se onda pitanje: kakvu ulogu ima iskustvo kod GA ? Objektivna funkcija (,,fitnes populacije”) se moˇze zadati ili menjati primerima, i tada imamo iskustvo i uˇcenje - na primer, GA koji generiˇse program (ili neki drugi izraˇcunljivi formalizam) sa iskustvom zadatim osobinama. Tada se nekim metrikama kao ˇsto su taˇcnost rezultata na osnovu zadatih ulaza (instanci), duˇzinom koda ili efikasnoˇs´cu definiˇse objektivna funkcija.
  • 10. Maˇsinsko uˇcenje, inteligentni agenti 9 Navedeni su samo neki od mnogih primera primene NM i GA u oblastima maˇsinskog uˇcenja bez posebnih detalja u vezi istih. Prvih ˇsest poglavlja ovog rada se odnose na maˇsinsko uˇcenje i oslanjaju se najve´cim delom na knjigu [TM-ML], dok se poslednja dva odnose na inteligentne agente gde se koriste prikazi arhitkture i tipova iz [GN], i primeri iz [TIS] (kao i za sedmo poglavlje o otkrivanju znanja).
  • 11. 10 Seminarski rad 2 Uˇcenje koncepta i ured¯enje od opˇsteg ka posebnom Jedno od centralnih pitanja maˇsinskog uˇcenja je otkrivanje opˇsteg znanja ili funkcija na osnovu datih specifiˇcnih primera (u skupu obuˇcavanja). Ako se koncept u smislu deklarativnog znanja moˇze opisati pozitivnim primerima (ˇsta on jeste) ili negativnim primerima (ˇsta on nije), onda se uˇcenje koncepta moˇze formulisati kao pretraˇzivanje prostora (potencijalnih) hipoteza (verzija, kasnije) sa ciljem pronalaˇzenja hipoteze koja najbolje odgovara datim primerima. Ovo se u mnogim sluˇcajevima moˇze pojednostavniti koriˇs´cenjem strukture tog prostora - ured¯enjem med¯u hipotezama od opˇsteg ka posebnom. Ovo je ujedno i vid primene induktivnog zakljuˇcivanja i uˇcenja - ˇcesto se oˇcekuje od sistema koji uˇci da bude u stanju da uopˇstava, da zakljuˇci neˇsto ako je potrebno ve´c na osnovu jednog primera ili da sa naknadno dodatim novim primerima promeni svoje znanje. 2.1 Uˇcenje koncepta Metoda uˇcenja koncepta (ili pretraˇzivanja prostora hipoteza) je metoda koja je u osnovnom obliku korisna i kao pojaˇsnjenje problema induktivnog uˇcenja i kao veoma praktiˇcna metoda u nekim poboljˇsanim varijantama. Moˇze se posmatrati i kao traˇzenje Bulove funkcije na osnovu datih primera (svi mogu´ci atributi sa njihovim vrednostima su argumenti funkcije koja ima dve vrednosti, ˇsto je zapravo relacija), pa se umesto algebarske strukture i njenog modela pod konceptom ovde podrazumeva Bulova funkcija: Definicija 2.1 Koncept c je Bulova funkcija nad skupom instanci X, tj. c : X → {0, 1}. Intanca x pripada konceptu c akko je c(x) = 1. Instance su zadati vektori konkretnih vrednosti atributa i vrednosti te funkcije (koncepta), a hipoteza h ∈ H je Bulova funkcija koja aproksimira ciljni koncept. Skup (prostor) H hipoteza je zapisan kao vektor uslova (constraint) za te atribute, gde svaki atribut moˇze imati: konkretnu vrednost u hipotezi, proizvoljnu vrednost (ˇsto se prikazuje jednostavnosti radi sa ,,?”kao nekakav asterisk) ili nijednu (prikazuje se, opet radi jednostavnosti, sa ∅). Instanca x ∈ D iz skupa primera D ⊆ X moˇze tako da zadovolji hipotezu (pozitivna, c(x) = 1) ili da je ne zadovolji (negativna, c(x) = 0). Najopˇstija hipoteza je
  • 12. Maˇsinsko uˇcenje, inteligentni agenti 11 onda oblika (?, ?, ..., ?), a najposebnija je oblika (∅, ∅, ..., ∅) (zapravo, dovoljno je da bilo koji atribut ima ∅ kao ograniˇcenje da bi sve instance bile odbaˇcene - veliki broj hipoteza osim ovakvih je semantiˇcki ekvivalentan). Polazna pretpostavka induktivnog uˇcenja je da je bilo koja hipoteza koju zadovoljavaju zadati primeri (dovoljno veliki broj takvih) u stanju da dobro aproksimira ciljni koncept svim predstavljen primerima (induktivna pretpostavka). Za hipotezu hj se kaˇze da je opˇstija ili jednaka hk akko (∀x ∈ X)hk(x) = 1 ⇒ hj(x) = 1, i to se zapisuje kao hj ≥g hk. Stroga opˇstost se definiˇse sa: hj >g hk akko hj ≥g hk ∧ hk g hj, a tako se mogu definisati i odgovaraju´ce relacije posebnosti. Ovo su relacije parcijalnog ured¯enja (za svaki lanac vaˇzi da postoji donja i gornja granica). Algoritam (Find-S) koji nalazi maksimalno specifiˇcnu (posebnu) hipotezu na osnovu datih primera: 1. h ← (∅, ∅, ..., ∅) 2. za svaku pozitivnu instancu x, za svaki uslov ai u h: ako ai nije zadovoljen sa x onda’ zameni ai sa slede´cim opˇstijim uslovom koji je zadovoljen sa x (vrednost ili ,,?”) 3. rezultat je hipoteza h (preuzet primer iz [TM-ML])
  • 13. 12 Seminarski rad Algoritam u osnovi dobro radi sa prostorom hipoteza koje se sastoje od konjunkcija uslova (dosad opisane, proste hipoteze) i ako nema pogreˇsnih primera. Za druge prostore je potrebno dodati backtracking da bi se pokrili i drugi lanci sa svojim maksimalno specifiˇcnim hipotezama. 2.2 Algoritam eliminacije kandidata Ovaj algoritam (Mitchell, prva primena 1979.) pristupa problemu uˇcenja koncepta tako ˇsto traˇzi skup svih hipoteza konzistentnih sa datim primerima za razliku od prethodnog koji nalazi jedan (i ostaje pitanje da li je to jedini takav i ispravan). Ovo je poznato i kao metod (i problem) formacije koncepta. Hipoteza h je konzistentna (saglasna) sa skupom primera D (zapisano kao h ∼ D) akko h(x) = c(x) za svaki primer (x, c(x)) ∈ D. Prostor verzija (mogu´cnosti) V SH,D je podskup prostora hipoteza H konzistentnih sa primerima u D: V SH,D = {h ∈ H| (∀(x, c(x)) ∈ D)h(x) = c(x)}. Program koji uˇci (uˇcenik L) je konzistentan ako daje konzistentne hipoteze. Uopˇstena granica (ili granica uopˇstenja, general boundary) je skup maksimalno uopˇstenih ˇclanova H konzistentnih sa D, a specifiˇcna granica (ili granica posebnosti, specific boundary) je skup minimalno uopˇstenih hipoteza iz H konzistentnih sa D. Algoritam listaj-pa-eliminiˇsi (list-then-eliminate) uzima prostor verzija kao spisak najpre svih u H a onda eliminiˇse sve koji nisu konzistentni sa svaki primerom u D redom. Takav algoritam ipak nije pogodan za dovoljno veliki prostoh hipoteza (koji nemora biti konaˇcan uopˇste). Definicija 2.2 Opˇsta granica GH,D, u odnosu na skup dopustivih hipoteza H i skup primera za uˇcenje D, je skup najopˇstijih hipoteza iz H saglasnih sa primerima iz D, odnosno: G = {g ∈ H| g ∼ D ∧ (¬∃g′ ∈ H)[(g′ >g g) ∧ g′ ∼ D]} Definicija 2.3 Specifiˇcna granica SH,D, u odnosu na skup dopustivih hipoteza H i skup primera za uˇcenje D, je skup najmanje opˇstih hipoteza iz H saglasnih sa primerima iz D, odnosno: S = {s ∈ H| s ∼ D ∧ (¬∃s′ ∈ H)[(s >g s′ ) ∧ s′ ∼ D]} Koriste´ci kompaktniji prikaz prostora verzija granicama G i S algoritam eliminacije kandidata to reˇsava. Teorema reprezentacije prostora verzija
  • 14. Maˇsinsko uˇcenje, inteligentni agenti 13 pokazuje da za svaki skup instanci X, hipoteza H, ciljni koncept c i skup primera D za koje je G i S definisan vaˇzi: V SH,D = {h ∈ H : (∃s ∈ S)(∃g ∈ G) g ≥g h ≥g s} Algoritam eliminacije kandidata je onda: 1. G ← (?, ?, ..., ?) (ili inicijalizacija uopˇstenom granicom) S ← (∅, ∅, ..., ∅) (ili inicijalizacija specifiˇcnom granicom) 2. za svaki primer d iz skupa obuˇcavanja: • ako je d pozitivan primer: – izuzmi iz G sve hipoteze koje nisu konzistentne sa d – za svaku hipotezu s ∈ S koja nije konzistentna sa d: ∗ izuzmi s iz S ∗ dodaj u S sva minimalna uopˇstenja h od s takva da je: h konzistentno sa d, i neka hipoteza iz G je opˇstija od h ∗ izuzmi iz S sve hipoteze koje su opˇstije od S • ako je d negativan primer: – izuzmi iz S sve hipoteze koje nisu konzistentne sa d – za svaku hipotezu g ∈ G koja nije konzistentna sa d: ∗ izuzmi g iz G ∗ dodaj u G sva minimalne specijalizacije h od g td. je: h konzistentno sa d, i neka hipoteza iz S je posebnija od h ∗ izuzmi iz G sve hipoteze koje su manje opˇste od G 3. rezultat je ograniˇcen sa S i G. Primer (uzeto iz [TM-ML], kao i nekoliko joˇs primera u daljem tekstu):
  • 15. 14 Seminarski rad Algoritam eliminacije kandidata konvergira ka reˇsenju ako postoji ciljna hi- poteza u prostoru hipoteza koja taˇcno opisuje ciljni koncept i ako nema greˇsaka u primerima - idealno dobija se prostor verzija koji sadrˇzi taˇcno jednu hipotezu. Ako postoji greˇska u primerima ili ako prostor hipoteza ne sadrˇzi nijednu hipotezu koja opisuje ciljni koncept dobija se prazan prostor verzija. Brzina konvergiranja je idealno najve´ca kada se biraju naredni primeri kojima se broj hipoteza u prostoru verzija koji je konzistentan prepolovi - tada bi bio dovoljan log2 |V S| primera (eksperimenata). Ako nije do kraja nauˇcen, pozitivan primer se slaˇze sa svima u S, negativan ni sa jednim u G - ali ne menja prostor verzija. Ako je broj pozitivnih ili negativnih ve´ci od drugih u prostoru verzija nedovoljnog nauˇcenog koncepta i ako je prihvatljiva
  • 16. Maˇsinsko uˇcenje, inteligentni agenti 15 pretpostavka da su sve hipoteze podjednako verovatne u H, onda se uzima da je proporcionalno verovatno instanca pozitivna, odnosno negativna. 2.3 Induktivni bias Ako se prostor hipoteza izabere tako mu ne pripada hipoteza koja pokriva ciljni koncept (npr. skup konjunktivnih hipoteza, a ciljni koncept je disjunkcija koja nije pokrivena) onda su pretpostavke o klasi hipoteza prejake i prostor hipoteza nije dovoljno izraˇzajan dabi se dobio rezultat. Ako prostor hipoteza nije dovoljno ili nije uopˇste uslovljen tj. sadrˇzi sve raspoloˇzive hipoteze (sve koncepte koji se mogu nauˇciti - sve podskupove domena X funkcije koja se uˇci), algoritam nije u stanju viˇse da generalizuje jer mu upravo bias prostora hipoteza H - tj. uslovi kojima se definiˇse njegova struktura, ili konceptualni bias - daje za to potrebno ,,znanje”. Bez konceptualnog biasa ili nekog drugog uslova se algoritam svodi na skupljanje pojedinih pozitvnih i negativnih primera (,,rote-learner” - S je uvek onda disjunkcija pozitivnih primera a G negacija disjunkcije negativnih). Ako je Dc = {(x, c(x))} skup primera ciljnog koncepta c, algoritam L koji uˇci nakon obuˇcavanja klasifikuje novu instancu xi bilo pozitivno ili negativno, ˇsto se zapisuje kao L(xi, Dc). Ovo je induktivno zakljuˇcivanje (xi ∧ Dc) ≻ L(xi, Dc) (klasifikacija se zakljuˇcuje induktivno na osnovu Dc i xi). Pokazuje se da je induktivni (ili logiˇcki) bias B algoritma L skup dodatnih pretpostavki dovoljnih da se deduktivnim zakljuˇcivanjem dod¯e do istog rezultata: (B ∧ Dc ∧xi) ⊢ L(xi, Dc). Za algoritam eliminisanja kandidata to je B = {c ∈ H} (Find-S ima joˇs jaˇci bias). Na taj naˇcin se svakom induktivnom sistemu zakljuˇcivanja pridruˇzuje odgovaraju´ci ekvivalentan deduktivni. Metod formacije koncepta je tako potpupno odred¯en kao ˇcetvorka L = (P, N, H, B) - P je skup pozitivnih primera, N je skup negativnih primera, H je konceptualni bias, a B je logiˇcki bias. Poseban izazov predstavljaju algoritmi koji uˇce i otkrivaju sopstveni bias uporedo. 2.4 Uˇcenje drvetom odluke Metod sliˇcan prethodno opisanom uˇcenju koncepta koji koristi sistem i algoritam ID3 (kao i ASSISTANT i C4.5) koji generiˇse pravilo, odnosno drvo klasifikacije za dati koncept sa svojim atributima i njihovim vrednostima. Njegov induktivni bias je prednost malih drve´ca nad ve´cim, a u stanju je
  • 17. 16 Seminarski rad da klasifikuje i disjunktivne koncepte. Ovakav metod moˇze da bude daleko efikasniji od drugih sistema za induktivno uˇcenje, ali i neprimenjiv u nekim sloˇzenim domenima. Postoje varijante (bagging, random forest) koje uporedu razvijaju viˇse takvih drveta. 2.4.1 Reprezentacija Uˇcenje drvetom odluke predstavlja vid aproksimacije funkcije (diskretne vrednosti) atributa i njihovih diskretnih vrednosti. Drvo odluke klasifikuje instancu prihvataju´ci atribute od korena do lista jedne grane, a moˇze se posmatrati i kao spisak ako-onda pravila (svaka grana predstavlja konjunkciju uslova nad atributima, a celo drvo disjunkciju). Primer (Quinlan, 1986, za ID3) drveta za PlayTennis koncept: (primer takod¯e preuzet iz [TM-ML]) koji predstavlja izraz: (Outlook = Sunny) ∧ (Humidity = Normal) ∨ (Outlook = Overcast) ∨ (Outlook = Rain ∧ Wind = Weak) Kao ˇsto se vidi, instance su predstavljene listama parova atribut-vrednost, ciljna funkcija u primeru je Bulova ali se moˇze proˇsiriti na diskretnu ili ˇcak realnu funkciju. Instance primera mogu sadrˇzati greˇske (bilo u vrednosti atributa ili klasifikacije) ili nedefinisane vrednosti atributa. Glavno pitanje je od kojeg atributa krenuti s klasifikacijom - cilj je izabrati najkorisniji atribut
  • 18. Maˇsinsko uˇcenje, inteligentni agenti 17 (sliˇcno biranju instance koja polovi prostor verzija u problemu formacije koncepta), i to se ˇcini ocenjivanjem statistiˇcke osobine informacione dobiti (snage, information gain) koja se definiˇse entropijom skupa S: E(S) ≡ −p⊕ log2 p⊕ − p⊖ log2 p⊖ gde je p⊕ proporcionalan odnos pozitivnih instanci u S, a p⊖ odnos negativnih u S (ima vrednost nula ako svi primeri pripadaju istoj klasi). Ako ciljni atribut u opˇstem sluˇcaju ima c diskretnih vrednosti onda je E(S) ≡ c i=1 −pi log2 pi. Ako je V alues(A) skup vrednosti atributa A i Sv = {s ∈ S : A(s) = v} (skup instanci gde A ima vrednost v) onda je: Gain(S, A) ≡ E(S) − v∈V alues(A) |Sv| |S| E(Sv) Verzija ID3 algoritma za Bulove funkcije (CLS algoritam, Hunt, 1966): ID3(S, c, atributi) 1. kreiraj ˇcvor Koren stabla 2. ako su svi primeri u S pozitivni, vrati Koren sa oznakom=+ 3. ako su svi primeri u S negativni, vrati Koren sa oznakom=− 4. ako je atributi lista atributa koje treba testirati prazna, vrati Koren sa oznakom=najˇceˇs´ca vrednost u primerima 5. inaˇce: (a) A ← iz atributi liste atribut koji najbolje klasifikuje prema Gain(S, A), Koren ← A (b) za svaku vrednost vi atributa A: i. dodaj novu granu ispod Koren za uslov A = vi ii. ako je Svi prazan • onda: ispod dodaj list sa oznakom=najˇceˇs´ca vrednost u primerima
  • 19. 18 Seminarski rad • inaˇce: dodaj ispod poddrvo ID3(Svi , c, atributi − A) 6. vrati Koren Ovakav ID3 algoritam se lako moˇze uopˇstiti za funkciju diskretnih vrednosti (oznaka), i koristi se obiˇcno prozor koji ˇcini podskup skupa primera (zadate veliˇcine) nad kojim se primeni ovakav algoritam, a onda se u prozor unesu svi izuzeci iz skupa primera koji ne odgovaraju klasifikaciji i ako ih ima ponovi se postupak. Time se prevazilazi ograniˇcenje veliˇcine skupa primera. Induktivni bias ID3 algoritma koji proistiˇce iz redosleda i prostora pretrage (bias preferencije ili pretrage) je zapravo taj da preferira kra´ce drve´ce sa ˇcvorovima ve´ce informacione snage bliˇze korenu, dok konceptualnog biasa nema (sve konaˇcne diskretne funkcije dolaze u obzir jer mogu predstaviti nekim drvetom odluke) - naspram metode formacije koncepta gde mora da postoji konceptualni bias i gde je induktivni posledica takve reprezentacije hipoteze (bias restrikcije ili jeziˇcki bias), a ne redosleda pretrage. Zato je ID3 nema problem konceptualnog biasa, i poˇsto koristi statistiˇcke ocene svih primera daleko je manje osetljiv na greˇske nego formacija koncepta, a lako se moˇze omogu´citi i da prihvata hipoteze koje ne odgovaraju primerima sasvim taˇcno. Neki sistemi mogu kombinovati biase restrikcije i pretrage, kao kod primera uˇcenja funkcije evaluacije igre i LMS uˇcenja. 2.4.2 Okamova oˇstrica Da li je ID3 bias opravdan ? Mnogi filozofi su vekovima razmatrali pitanje o izboru hipoteze (i dalje raspravljaju) - Okam (William of Occam, 1320) je to formulisao otprilike ovako: bolja je jednostavnija hipoteza koja odgovara podacima (eksperimentima, primerima). Fiziˇcari vole ovu hipotezu - ˇcisto kombinatornim argumentima moˇze se pokazati da kra´cih hipoteza ima daleko manje nego duˇzih - ali postoje i kritike: postoje i druge malobrojne klase hipoteza (veˇstaˇcke), a rezultat zavisi i od interne reprezentacije hipoteze (obiˇcno se onda koristi evolucioni argument da biva izabrana interpretacija koja ovaj kriterijum ˇcini uspeˇsnijim). 2.4.3 Proˇsirenja ID3 Za hipotezu h se kaˇze da overfituje (overfitting) primere ako ima manju greˇsku nego neka druga hipoteza h′ nad primerima, ali ve´cu nad ukupnom raspodelom instanci (van skupa primera). Problem nastaje kada postoje
  • 20. Maˇsinsko uˇcenje, inteligentni agenti 19 nasumiˇcne greˇske u podacima kada nakon odred¯enog broj primera poˇcinje da opada ukupna taˇcnost klasifikacije iako raste na skupu primera. Jedan naˇcin je da se zaustavi rast drveta pre idealne klasifikacije primera, drugi je da se nakon klasifikacije potkreˇse drvo (post-pruning). Kriterijumi u oba sluˇcaja mogu biti: • obuka i validacija - izdvajanje iz skupa primera jedan podskup na kome se testira taˇcnost izvan skupa primera • χ-test ili neki drugi statistiˇcki test procene performanse nad celom raspodelom instanci (Quinlan, 1986) • princip minimalne duˇzine opisa (Minimum Description Length - MDL, Quinlan i Rivest 1989, Mehta 1995) - kodiranjem drveta i primera na neki naˇcin dobija se mera sloˇzenosti tj. veliˇcina kodiranja - kada je veliˇcina minimizovana prekida se rast drveta odluke Kresanje se vrˇsi zamenom poddrveta listom sa najˇceˇs´com (proseˇcnom) klasifikacijom sve dok se time ne dobija manje performantno drvo odluke. ID3 drˇzi samo jednu hipotezu tokom pretrage za razliku od formacije koncepta, u osnovnom obliku nema backtracking i zato je mogu´ce da nad¯e reˇsenje koje nije globalno najbolje iako je obiˇcno performantniji od prethodnog. Ovo se takod¯e reˇsava potkresivanjem. Postoji tehnika potkresivanja pravila (rule post-prunning, Quinlan 1993) u sistemu C4.5 u slede´cim koracima: 1. generiˇsi drvo uz mogu´ce overfitovanje 2. pretoˇci drvo odluke u niz pravila (za svaku granu, redom) 3. izbaci iz pravila (generalizuj) preduslove ako se time ne naruˇsavaju performanse 4. sortiraj dobijena pravila prema ocenjenoj taˇcnosti i razmatraj ih tim redosledom tokom klasifikacije instanci Sliˇcno ovome, mogu´ce je drvo odluˇcivanja pretoˇciti u optimizovani graf (odluˇcivanja) kojim se pre svega eliminiˇse redundantno poddrve´ce i time smanjuje nepotreban broj primera.
  • 21. 20 Seminarski rad Ograniˇcenje da atributi moraju biti diskretne vrednosti se moˇze prevazi´ci dodelom karakteristiˇcnih intervala kontinualnim vrednostima, gde se za svaku diskretnu vrednost ciljnog atributa nalazi prag ocenom najve´ce informacione snage primera sortiranih po atributu koji se ocenjuje (Fayyad 1991). Postoji problem kod atributa kao ˇsto je datum - iako nosi veliku informacionu snagu, obiˇcno razdvaja primere u male grupe bez nekog velikog uticaja na vrednost ciljnog atributa. Jedno reˇsenje je da se koristi alternativna ocena atributa - npr. odnos snage (gain ratio, Quinlan 1986) koji je osetljiv na uniformno deljenje primera: SplitInformation(S, A) ≡ − c i=1 |Si| |S| log2 |Si |S| GainRation(S, A) ≡ Gain(S, A) SplitInformation(S, A) Svaki atribut moˇze prema nekim kriterijumima imati dodatno cenu Cost(A) gde je cilj da se atributi sa ve´com cenom koriste prilikom pouzdane klasifikacije (da bi se pove´cala zahtevana taˇcnost). Tada se koristi umesto informacione snage Gain2 (S,A) Cost(A) ili 2Gain(S,A)−1 (Cost(A)+1)w gde je w ∈ [0, 1] parametar koji ocenjuje znaˇcaj cene u odnosu na informacionu snagu (Tan, Schlimmer 1990-1993, Nunez 1991). Ako ne postoji vrednost nekog atributa A u ˇcvoru u kome treba oceni informacionu snagu moˇze se koristiti: • najˇceˇs´ca vrednost primera u tom ˇcvoru • najˇceˇs´ca vrednost primera sa vrednoˇs´cu ciljnog atributa datog primera • umesto najˇceˇs´ce vrednosti moˇze se koristiti vrednost s najve´com procenjenom verovatno´com primera u datom ˇcvoru (Quinlan 1993) 2.5 Vrednovanje hipoteze Empirijsko vrednovanje taˇcnosti hipoteze je suˇstinski znaˇcajno za maˇsinsko uˇcenje. Tri pitanja se postavljaju:
  • 22. Maˇsinsko uˇcenje, inteligentni agenti 21 • ako je data taˇcnost nad skupom primera koji predstavlja manji podskup svih mogu´cih instanci, koliko je time dobro procenjena taˇcnost nad dodatnim primerima tj. ostalim instancama ? • ako neka hipoteza daje bolje performanse od neke druge u skupu primera, koliko je verovatno da je bolja uopˇste (izvan skupa primera) ? • kako na najbolji naˇcin iskoristiti skup primera da bi se nauˇcila hipoteza i procenila njena taˇcnost ? Izbor instanci u skupu primera (odnosno njihova raspodela u odnosu na ukupnu populaciju u statistiˇckom smislu) utiˇce na procenu taˇcnosti u odnosu na ostatak instanci - bias u izboru stvara bias u proceni. ˇCak i kada nema biasa u izboru, postoji disperzija (varijansa) u proceni koja rasta s manjim brojem elemenata skupa primera. Ako se izbor instanci (bez vrednosti ciljnog atributa) posmatra kao sluˇcjna promenljiva sa nekom zadatom raspodelom nezavisno od izbora ranijih primera ili od hipoteze, onda se postavljaju pitanja: koja je procena taˇcnosti hipoteze h za budu´ce instance nad tom raspodelom, i kolika je greˇska takve procene ? Greˇska uzorkovanja hipoteze h za ciljnu funkciju f i skup primera S je eS(h) ≡ 1 n x∈S δ(f(x), h(x)) gde je δ(f(x), h(x)) = 1 samo ako je f(x) = h(x), inaˇce je δ(f(x), h(x)) = 0. Prava greˇska da ´ce hipoteza pogreˇsno klasifikovati novu instancu nad datom distribucijom je: eD ≡ PX:D[f(X) = h(X)]. Tada, ako je: • skup primera S prema raspodeli D ima n elemenata • n eS(h)[1 − eS(h)] ≥ 5 (npr. n ≥ 30 ako eS(h) nije preblizu 0 ili 1 - posledica centralne teoreme) • hipoteza h napravi r greˇsaka tj. eS(h) = r/n bez drugih informacija vaˇzi da je eS(h) = eD(h) i sa verovatno´com N (N · 100%) eD(h) leˇzi u intervalu poverenja eS(h)±zN eS(h)[1−eS(h)] n (zN je vrednost argumenta gustine normalne (Gausove) raspodele koja odred¯uje dvostrani interval poverenja koji sadrˇzi N · 100% vrednosti tj. sa verovatno´com N sadrˇzi vrednosti iz te raspodele). Greˇska eD(h) poˇstuje binomnu raspodelu (ako se posmatra verovatno´ca da se r puta napravi pogreˇsna klasifikacija svaki put s verovatno´com p tako da je eS(h) = r/n), pa je eS(h) ocena (estimator)
  • 23. 22 Seminarski rad za eD(h) = p. Ocena je dobra ako nema bias tj. E[eS(h)] − eD(h) = 0 ˇsto i jeste taˇcno. Onda je σeS(h) = σr n = p(1−p) n tj. σeS(h) ≈ eS(h)(1−eS(h)) n . 2.5.1 Upored¯ivanje hipoteza Ako je d = eS1 (h1) − eS2 (h2) treba oceniti d = eD(h1) − eD(h2). Poˇsto je σ2 bd ≈ eS1 (h1)(1−eS1 (h1)) n1 + eS2 (h2)(1−eS2 (h2)) n2 onda je d ocena za d sa N · 100% intervalom poverenja d ± zN σbd. Sliˇcno, upotrebom t-raspodele (Student) mogu se upored¯ivate performanse dva razliˇcita algoritma uˇcenja ([TM-ML]). 2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja Jedna od reprezentacija funkcije kao formalizma koji predstavlja objekat uˇcenja - kao ˇsto su to Bulove funkcija, drvo odluˇcivanja, neuronska mreˇza i drugo - moˇze biti i kod programa. Moˇze se pokazati da su neki formalizmi ekvivalentni u smislu izraˇzajnosti (znanje prikazano na jedan naˇcin moˇze se prikazati i na drugi naˇcin), na primer iskazni raˇcun, drveta odluˇcivanja i Bulove funkcije. Med¯utim, PR1 je izraˇzajniji od prethodnih - suˇstinska razlika je da moˇze sadrˇzati promenljive, a takve su specijalno Hornove klauzule (prvog reda) ˇcije konjunkcije predstavljaju osnovni zapis mnogih logiˇckih jezika med¯u kojima je i PROLOG programski jezik. Uˇcenje pravila oblika ako-onda je u mnogo ˇcemu praktiˇcno korisno, ali pre svega je intuitivno bliˇze ljudskom zapisu znanja. Osnovna klasa algoritama za uˇcenje ovakvih pravila su algoritmi sekvencijalnog pokrivanja koji otkrivaju pravilo po pravilo u iteracijama, i svakim otkrivenim pravilom se uklanjaju primeri koji su njime pokriveni. Za to je potrebna procedura nauˇci-jedno-pravilo koja otkriva jedno pravilo za dati skup pozitvnih i negativnih primera, gde otkriveno pravilo idealno pokriva samo pozitivne primere (pokriva ih ako se shvati kao relacija koja je tada ispunjena), ali se neki put moˇze dozvoliti da prihvati i ˇsto manji broj negativnih primera. Iteracije se vrˇse dokle god ima pozitivnih primera ili sve dok se ne pred¯e zadati prag performansi pravila - dobijeni skup pravila se moˇze onda i sortirati prema performansama (c je ciljni atribut, A skup atributa, E skup primera): • L ← {}
  • 24. Maˇsinsko uˇcenje, inteligentni agenti 23 • Pravilo ← nauˇci-jedno-pravilo(c,A,E) • dokle Performanse(Pravilo,E) > prag: – L ← L + Pravilo – E ← E − { primeri koji su ispravno klasifikovani pravilom } – Pravilo ← nauˇci-jedno-pravilo(c,A,E) • sortiraj dobijena pravila u L prema performansama Poˇsto je ovakvo pretraˇzivanje prostora hipoteza ,,gramzivo” (greedy - nema backtracking), nije garantovano da ´ce biti pronad¯ena optimalna hipoteza. Jedan praktiˇcan naˇcin da se realizuje procedura nauˇci-jedno-pravilo je pretraˇzivanje sliˇcno ID3 od opˇsteg ka posebnom, ali usmereno uvek granom koja najviˇse obe´cava - najve´ce performanse, npr. da je entropija pokrivenih primera najmanja ili da je najve´ca frekvencija uspeˇsno klasifikovanih u odnosu na pokrivene primere (umesto da gradi poddrvo za sve vrednosti izabranog atributa). Da bi se smanjio rizik gramzivog pretraˇzivanja pamti se k najboljih kandidata pri svakom koraku umesto jednog, i to se zove zrakasto pretraˇzivanje (beam search) - ovakav algoitam koristi CN2 (Clark, Niblett, 1989): nauˇci-jedno-pravilo(c,A,E,k) • Najbolja-hipoteza ← ∅ /* najopˇstija hipoteza */ • skup-kandidata ← { Najbolja-hipoteza } • dokle god skup-kandidata nije prazan: 1. Generiˇsi slede´cu specifiˇcniju hipotezu: (a) svi-uslovi ← { a=v } /* ∀ a ∈ A, ∀ v koje se pojavljuje u E za atribut a */ (b) novi-kandidati ← za svaku h ∈ skup-kandidata: za svaki u ∈ svi-uslovi: kreiraj specijalizaciju h dodavanjem u (c) izbaci sve hipoteze iz skupa novi-kandidati koje su ponovljene, nekonzistentne, ili nisu maksimalno specifiˇcne 2. Najbolja-hipoteza se menja:
  • 25. 24 Seminarski rad – za svaku h ∈ novi-kandidati: ako Performanse(h,E,c) > Performanse(Najbolja-hipoteza,E,c) onda Najbolja-hipoteza ← h 3. skup-kandidata se menja: – skup-kandidata ← k najboljih iz skupa novi-kandidati prema performansama • vrati pravilo oblika: ”Ako Najbolja-hipoteza onda predvid¯anje” gde je predvid¯anje najfrekventnija vrednost ciljnog atributa c med¯u primerima E koji odgovaraju hipotezi Najbolja-hipoteza Varijantu ovakvog algoritma koristi AQ (Michalski, 1986). 2.6.1 Induktivno logiˇcko programiranje Maˇsinsko uˇcenje koje koristi logiˇcke programe u PR1 kao objekte uˇcenja je ILP (Lavraˇc, Dˇzeroski, 1994). Tako se npr. moˇze realizovati ekskluzivno ili (kao ekvivalentan zapis odgovaraju´ce Bulove funkcije): XOR(x,y) :- True(x),¬ True(y) XOR(x,y) :- ¬ True(x), True(y) Za ovakav program se kaˇze da pokriva instance (ulazne vrednosti, argumente) x i y za koje je XOR(x,y)=⊤ tj. taˇcno (inaˇce ima vrednost ⊥). Program π1 je potreban (prikazano u primeru ispod) ako pokriva raˇcunanjem samo pozitivne instance (ali ih nemora sve pokrivati). Program π2 koji pokriva sve pozitivne primere je dovoljan, ˇsto znaˇci da moˇze da pokrije i neke negativne instance (kao pozitivne). U sluˇcaju da su dopuˇstene greˇske u primerima mogu´ce je da se desi da su pokrivene i neke negativne instance, a da su izostavljene neke pozitivne. U suprotnom, poˇzeljan je program koji je i potreban i dovoljan.
  • 26. Maˇsinsko uˇcenje, inteligentni agenti 25 (definicije i ilustracija preuzete iz [intro]) Sliˇcno kao kod prostora verzija kod uˇcenja koncepta, program koji je dovoljan ali nije potreban se moˇze specijalizacijom uˇciniti i potrebnim - ili obratno, ako je potreban ali nije dovoljan, moˇze se generalizacijom onda uˇciniti i dovoljnim. Najopˇstiji program je oblika [ρ :- ], dok je najposebniji oblika [ρ :- ⊥]. Naˇcelno su mogu´ca dva metoda - jedan koji polazi od najopˇstijeg programa, i drugi koji polazi od najposebnijeg. Ovde ´ce se obrazloˇziti metoda koja polazi od [ρ :- ] i koja ga specijalizuje sve dok ne postane potreban, ali se moˇze desiti da nije onda dovoljan (ˇsto se onda iterativno nadoknad¯uje takvom generalizacijom da se ˇcuva potrebnost). 2.6.2 Kanonski ILP algoritam Osnovni operatori ILP algoritma su pomenuta specijalizacija i generalizacija (pored pokrivanja primera). Postoje tri naˇcina na koji se moˇze logiˇcki program generalizovati: 1. Zamenom nekih terma u nekoj klauzuli programa promenljivama (suprotno od postupka supstitucije) 2. Uklanjanjem literala iz tela neke klauzule programa
  • 27. 26 Seminarski rad 3. Dodavanjem klauzule programu Obratno i dualno postoje tri naˇcina da se logiˇcki program specijalizuje: 1. Zamenom nekih promenljivih u nekoj klauzuli programa termima (supstitucija) 2. Dodavanjem literala telu neke klauzule programa 3. Uklanjanjem klauzule iz programa U ovom kanonskom ILP algoritmu uˇcenja ´ce se koristiti metod dodavanja klauzula za generalizaciju programa i dodavanje literala telu neke klauzule za specijalizaciju programa. Mogu´ce je uvesti relaciju poretka posebnosti: klauzula c1 je posebnija od klauzule c2 ako je c2 |= c1, i specijalno, ako je skup literala u c2 podskup skupa literala u c1. Tako se dobija graf rafiniranja sliˇcno prostoru verzija. Poˇsto postoji veliki broj naˇcina da se izabere literal koji treba dodati, ILP algoritmi obiˇcno koriste neka dodatna ograniˇcenja, odnosno biraju se samo: • literali iz pozadinske baze (ˇcinjenice koje dodatno objaˇsnjavaju primere, nezavisne od primera) • literali ˇciji su argumenti podskup onih u glavi klauzule • literali koji uvode novu promenljivu koja se ne nalazi med¯u onima u glavi klauzule • literal koji izjednaˇcava promenljivu u glavi klauzule sa joˇs jednom ili termom iz pozadinske baze (supstitucija) • literal koji je osim argumenata isti kao onaj u glavi klauzule, isti predikat (ovim se dozvoljavaju rekurzivni programi) Ako je dat skup pozitvnih primera E+ i negativnih primera E− (E = E+ ∪ E− ) kojim se opisuje neka ciljna relacija ρ, ILP algoritam indukuje program π kojim se raˇcuna ta relacija: Ecur ← E π ← [] ponavljaj
  • 28. Maˇsinsko uˇcenje, inteligentni agenti 27 c ← [ρ : −] ponavljaj /* c se ˇcini potrebnim */ izaberi literal l koji treba dodati c /* nedeterministiˇcka taˇcka u algoritmu */ c ← [c,l] sve dok c ne postane potreban /* sve dok c ne prestane da pokriva negativne instance */ π ← [π,c] Ecur ← Ecur - {pozitivne instance u Ecur koje pokriva π} sve dok π ne postane dovoljan Jedna od implementacija ovakvog ILP sistema je Kvinlanov sistem FOIL (Quinlan, 1990) koji se moˇze posmatrati i kao proˇsirenje CN2 na PR1, gde se predlaˇze odabir literala na osnovu informacione snage sliˇcno kao kod metoda drveta odluke (dodavanje kandidata literala L pravilu R): FOIL Gain(L, R) ≡ t log2 p1 p1 + n1 − log2 p0 p0 + n0 gde je p0 broj pozitivnih vezivanja pravila R (u smislu vezivanja promenljivih), n0 broj negativnih, p1 broj pozitivnih vezivanja za novo pravilo R’ (dobijeno dodavanjem L pravilu R), n1 broj negativnih, i konaˇcno, t je broj pozitvnih vezivanja R koja su pokrivena i sa R’. Takod¯e, da bi se omogu´cili i rekurzivni programi, neophodni su neki dodatni uslovi za dodatni literal - jedan naˇcin je da promenljive koje dodati literal sadrˇzi ne budu u glavi klauzule. ILP se takod¯e moˇze shvatiti i kao vid indukcije drvetom odluˇcivanja. Ako su Ri relacije pozadinske baze, cilj je onda da ciljnu relaciju R izrazi preko Ri, a ILP se onda moˇze posmatrati kao indukcija jednog glavnog drveta odluke ˇciji su ˇcorovi opet drveta odluke, a ˇcvorovi ovih poddrveta su relacije Ri koje se slaˇzu s nekim primerima (koji idu ,,desno” narednom ˇcvoru) ili ne (idu ,,levo”) sve dok se ne preostane skup samo pozitivnih primera (ovo odgovara unutraˇsnjij petlji kanonskog ILP). Glavno drvo se gradi sve dok se ne dobije poddrvo u kome samo negativne instance bivaju odbaˇcene. Rezultat primera prikazanog ilustracijom ispod je: R :- R1, R2, R3 R :- R4, R5
  • 29. 28 Seminarski rad (preuzeto iz [intro]) 2.6.3 Indukcija kao inverzna rezolucija Uˇcenje indukcijom se svodi na jednostavnoj praktiˇcnoj pretpostavci da je indukcija suprotna dedukciji, pod izvesnim pretpostavkama. Taˇcnije, u odnosu na pravilo rezolucije koja odgovara dedukcionom zakljuˇcivanju, pravilo inverzne rezolucije koje odgovara induktivnom zakljuˇcivanju je onda zaista inverzan postupak. Vereov metod polazi od generalizacije kao postupku koji je suprotan unifikaciji (koja se koristi u rezoluiji ili npr. za upored¯ivanje ˇsablona u pretrazi), i moˇze se primenjivati na bazu znanja opisanu klauzulama da bi se doˇslo do koncepta kao najmanjeg zajedniˇckog generalizatora primera (na primer: poznati svet blokova). Inverznu rezoluciju predlaˇzu kao praktiˇcno reˇsenje kasnije Muggleton i Buntine, 1988. - ako je rezolventa C data sa C = (C1 − {L1})θ ∪ (C2 − {L2})θ td. je L1θ = ¬L2θ (dobijeno supstitucijom θ za literale L1 i L2 u klauzulama C1 i C2, redom), onda je odgovaraju´ce pravilo inverzne rezolucije (θ = θ1θ2 gde se θ1 odnosi na promenljive u C1, a θ2 na promenljive u C2): C2 = (C − (C1 − {L1})θ1)θ−1 2 ∪ {¬L1θ1θ−1 2 } Jednostavan primer rezolucije (levo) i inverzne rezolucije (desno) na nivou iskaznog raˇcuna:
  • 30. Maˇsinsko uˇcenje, inteligentni agenti 29 i primer indukcije u punom smislu inverzne rezolucije prvog reda: (ovaj i prethodni primer su preuzeti iz [TM-ML]) gde se vidi induktivni zakljuˇcak (u gornjem desnom uglu) koji predstavlja klauzulu GrandChild(x, y) ← Father(x, z), Father(z, y) na osnovu tri dobra primera. Praktiˇcno se pokazalo da inverzna rezolucija lako dovodi do kombinatorne eksplozije i zato se razvijaju mnoge alternativne metode. Jednu uspeˇsnu varijantu koristi sistem PROGOL (Muggleton, 1995) gde se inverzna rezolucija koristi samo da bi se doˇslo do jedinstvene najspecifiˇcnije hipoteze koja zajedno sa pozadinskom teorijom objaˇsnjava primere (deduktivno: za svaki primer (xi, f(xi)) koji nije pokriven sekvencijalnim pokrivanjem se traˇzi hi takvo da je B ∧ hi ∧ xi ⊢ f(xi)), a onda se ta hipoteza (sliˇcno ILP, tj. FOIL sistemu) koristi kao donja granica u pretrazi od opˇsteg ka posebnom (koristi se MDL princip gde je duˇzina opisa broj literala klauzule, a pretraga sliˇcna A∗ algoritmu).
  • 31. 30 Seminarski rad 2.7 Raˇcunska i statistiˇcka teorija uˇcenja Pored pitanja teˇzine razliˇcitih tipova problema uˇcenja, njihove karakterizacije i pitanja uspeˇsne praktiˇcne izvodljivosti uˇcenja u realnom vremenu, raˇcunska i statistiˇcka teorija uˇcenja (algoritamska teorija uˇcenja) daju odgovore i na pitanja o vezi veliˇcine ili kvaliteta skupa primera, osobina i parametara algoritma uˇcenja i njegove uspeˇsnosti na kraju. Postoje nekoliko osnovnih pristupa: • VAK, verovatna aproksimativna korektnost (PAC framework: Probably Aproximatively Correct, Valiant) - gde se identifikuju klase hipoteza koje se mogu ili ne mogu nauˇciti iz polinomijalnog broja primera (sloˇzenost uzorka - sample complexity), ˇcime se definiˇse prirodna mera kompleksnosti prostora hipoteza kojom se moˇze ograniˇciti broj primera potrebnih za induktivno uˇcenje • granica greˇske (mistaske bound framework) - ispituje se broj napravljenih greˇsaka u toku uˇcenja potrebnih da bi se doˇslo do prihvatljive hipoteze • Goldov formalni model graniˇcnog uˇcenja 2.7.1 Statistiˇcka teorija uˇcenja Ako je {(x1, y1), ..., (xl, yl)} skup nezavisnih i jednako raspored¯enih (njr) skup obuˇcavanja izabranih prema fiksiranom ali nepoznatom funkcijom raspodele F(x, y) = F(x)F(y|x) (x ∈ X su odabrani prema F(x)), i vrednosti nepoznate objektivne funkcije y (supervizora S, ciljnog operatora) prema F(y|x). Hipoteza f se konstruiˇse na osnovu ovog skupa sa merom gubitka (diskrepancijom, greˇskom aproksimacije) L(y, f(x, α)) izmed¯u y i hipoteze h = f(x, α). Oˇcekivana vrednost greˇske je funkcional: R(α) = L(y, f(x, α))dF(x, y) = R(f) Moˇze se uopˇstiti za proizvoljan broj nepoznatih (z umesto (x, y): R(α) = Q(z, α)dF(z), gde je Q(z, α) je specifiˇcna funkcija gubitka). Cilj je na´ci funkciju f(x, α0) koja minimizuje R(α) (preko klase funkcija {f(x, α)|α ∈ Λ}). Osnovni podproblemi su prepoznavanje ˇseme (pattern recognition - u osnovi, problem klasifikacije za y ∈ {0, 1}, L(y, f(x, α)) = δ(y, f(x, α)) - moˇze se uopˇstiti i na ve´ci konaˇcan skup klasa), ocena regresije (funkcija
  • 32. Maˇsinsko uˇcenje, inteligentni agenti 31 regresije f(x, α0) = ydF(y|x), L(y, f(x, α)) = (y − f(x, α))2 ) i ocena gustine raspodele (L(p(x, α)) = − log p(x, α)). U tu svrhu se koriste principi indukcije - ERM (princip minimizacije empirijskog rizika), i SRM (princip minimizacije strukturalnog rizika). 2.7.2 ERM princip Umestp R(α) koristi se: Remp(α) = 1 l l i=1 Q(zi, α) Postavljaju se pitanja: • koji su (potrebni i dovoljni) uslovi konzistentnosti (bazirani na ERM) ? • koliko je brza konvergencija uˇcenja ? • kako kontrolisati konvergenciju (sposobnost generalizacije, ˇsta utiˇce) uˇcenja ? • kako konstruisati algoritme za prethodno ? Definicija 2.4 Metod ERM je netrivijalno konzistentan za S = {Q(z, α)|α ∈ Λ} (skup indikatorskih funkcija) i F(z) ako za svaki neprazan skup Λ(c) = {α| Q(z, α)dF(z) ≥ c}, c ∈ (−∞, ∞) vaˇzi konvergencija: inf α∈Λ(c) Remp(α) → inf α∈Λ(c) R(α), l → ∞ Vaˇzi kljuˇcna teorema maˇsinskog uˇcenja (Vapnik, Chervonenkis, 1980): Teorema 1 Ako postoje konstante A i B takve da za sve funkcije u S vaˇzi A ≤ R(α) ≤ B, α ∈ Λ, tada je potreban i dovoljan uslov netrivijalne konzistentnosti ERM da vaˇzi uniformna jednostrana konvergencija Remp(α) → R(α), α ∈ Λ na S u smislu: lim l→∞ P{sup α∈Λ (R(α) − Remp(α)) > ε} = 0, (∀ε > 0)
  • 33. 32 Seminarski rad Radi odred¯ivanja gornje granice rizika za ERM, uvodi se slede´ci pojam (posledica druge teoreme uniformne konvergencije u vezi sa ε-entropijom, detalji se mogu na´ci u [VVN], kao i Poperova teorija neporecivosti, nonfalsifiability): Definicija 2.5 Dimenzija Vapnik- ˇCervonenkisa (VC) skupa indikatorskih funkcija S jednaka je najve´cem broju h vektora z1, ..., zh koji se mogu razdvojiti u dve klase na svih 2h mogu´cih naˇcina (dihotomija) elementima tog skupa (maksimalan broj vektora koji moˇze biti pokidan skupom S). Definicija 2.6 Za dati skup realnih funkcija S (θ je stepena funkcija: θ(x) = 0 ako je x < 0, inaˇce θ(x) = 1), skup {θ(Q(z, α) − β)| q ∈ S, α ∈ Λ, β ∈ ∆ = (inf z,α Q(z, α, sup z,α Q(z, α))} je kompletan skup indikatora za dati skup realnih funkcija. Definicija 2.7 VC dimenzija skupa realnih funkcija S je najve´ci broj h vektora uzorka nad kojima funkcije iz kompletnog skupa indikatora skupa S mogu da realizuju 2h dihotomija. Vaˇzi teorema: Teorema 2 Za sve funkcije skupa ograniˇcenih nenegativnih funkcija {0 ≤ Q(z, α) ≤ B| α ∈ Λ}, sa verovatno´com od bar 1 − η vaˇzi nejednakost (h = V C(S)): R(α) ≤ Remp(α) + Bǫ(l) 2 1 + 1 + 4Remp(α) Bǫ(l) ǫ(l) = 4 h(ln 2l h + 1) − ln η 4 l Takod¯e, ako je αl parametar ERM minimizacije i α0 parametar minimizacije stvarnog rizika, vaˇzi nejednakost sa verovatno´com bar od 1 − 2η: ∆(αl) = R(αl) − R(α0) < B − ln eta 2l + ǫ(l) 1 + 1 + 4Remp(α) Bǫ(l) Mogu´ce je odrediti granice rizika i za neograniˇcene funkcije (uz dodatni uslov): sup α∈Λ ( Qp (z, α)dF(z)) 1 p Q(z, α)dF(z) ≤ τ
  • 34. Maˇsinsko uˇcenje, inteligentni agenti 33 2.7.3 SRM princip Kako je ranije pomenuto, SRM prinicip indukcije se odnosi na kontrolu sposobnosti generalizacije programa koji uˇci malim skupom obuˇcavanja (npr. l/h < 20). Ako je S∗ = k Sk td. vaˇzi S1 ⊂ S2 ⊂ ... ⊂ Sk ⊂ ... i hk = V C(Sk) takve da je h1 ≤ h2 ≤ ... ≤ hk ≤ ..., i svaki Sk je ili totalno ograniˇcen 0 ≤ Q(z, α) ≤ Bk, α ∈ Λk, ili njegove neograniˇcene funkcije zadovoljavaju (za neko (p, τk)): sup α∈Λk ( Qp (z, α)dF(z)) 1 p Q(z, α)dF(z) ≤ τk, p > 2 kaˇze se da je S∗ dopustiva (admissable) struktura. Treba takod¯e pretpostaviti da je S∗ svuda gust u S u smislu metrike: ρ(Q(z, α1), Q(z, α2)) = |Q(z, α1) − Q(z, α2)|dF(z) Cilj je prona´ci broj n = n(l) za svako l tako da element Sn minimizuje empirijski rizik. Vaˇzi teorema: Teorema 3 SRM nudi metod aproksimacije Q(z, α n(l) l ) za koje niz rizika R(α n(l) l ) konvergira ka najmanjem riziku: R(α0) = inf α∈Λ Q(z, α)dF(z) sa asimptotskom brzinom konvergencije: V (l) = rn(l) + Tn(l) hn(l) ln l l ako je n = n(l) odred¯en sa: lim l→∞ T2 n(l)hn(l) ln l l = 0 gde je: 1. Tk = Bk za totalno ograniˇcene Sk 2. Tk = τk za uslovno neograniˇcene Sk
  • 35. 34 Seminarski rad rn(l) je mera aproksimacije: rn = inf α∈Λn Q(z, α)dF(z) − inf α∈Λ Q(z, α)dF(z) Problem odred¯ivanja rn(l) je vezan za odred¯ivanje n(l) u prethodnoj teoremi i zavisi od konkretnog sluˇcaja - viˇse detalja i primera za neke klase NM moˇze se na´ci u [?]. Interesantan primer SVM, gde se moˇze pokazati da skup svih razdvajaju´cih hiperravni sa bar dimenzijom ∆ ima VC dimenziju h ≤ min (R2 ∆2 , n) + 1 (n je dimenzija vektora obuˇcavanja, R je radijus sfere kojoj pripadaju). Posledica je (uz Sk definisan sa B2 /∆2 ≤ k) je da SVM poˇstuju SRM princip. 2.7.4 VAK (PAC) pristup Ako se stvarna greˇska hipoteze h (true error) u odnosu na ciljni koncept c i raspodelu instanci primera D definiˇse kao verovatno´ca (x : D znaˇci da je x sluˇcajna promenljiva sa raspodelom D): eD(h) = Px:D(c(x) = h(x)) onda se moˇze definisati pojam VAK-uˇcljivosti (PAC-learnability): Definicija 2.8 Za klasu C ciljnih koncepata definisanih nad skupom X instanci duˇzine n, i program L koji koristi prostor hipoteza H, C je VAK-uˇcljiva programom L sa H ako za svako c ∈ C, raspodelu D nad X, ε td. je 0 < ε < 1/2 i δ td. je 0 < δ < 1/2, program L sa verovatno´com ne manjom od (1−δ) nad¯e h ∈ H td. je eD(h) ≤ ε u vremenu (u smislu cene raˇcunanja) koje je polinom od 1/ε, 1/δ, n i size(c). Ovde n i size(c) karakteriˇsu kompleksnost prostora X i klase C - size(c) je duˇzina kodiranja koncepta c za neku reprezentaciju klase C kojoj pripada (npr. broj istinitosnih osobina u konjunkciji kojom se definiˇse koncept), a duˇzina instance n je npr. broj atributa u konjunkciji ili arnost funkcije (gde je vektor argumenata instanca). Takod¯e, ovim se povezuje veliˇcina skupa primera i polinomijalna izraˇcunljivost problema uˇcenja. Sloˇzenost uzorka (sample complexity) je mera rasta broja primera u odnosu na (prethodno opisanu) sloˇzenost problema. Kao ˇsto je ranije pomenuto, svaki konzistentan uˇcenik daje hipotezu koja pripada prostoru verzija V SH,D
  • 36. Maˇsinsko uˇcenje, inteligentni agenti 35 po definiciji (bez obzira na X, H ili D). Da bi se ograniˇcio broj primera potrebnog za bilo kojeg konzistentnog uˇcenika dovoljno je ograniˇciti broj primera tako da prostor verzija ne sadrˇzi ne[rihvatljive hipoteze. Kaˇze se da je V SH,D ε-iscrpljen u odnosu na c i D ako (∀h ∈ V SH,D)eD(h) ≤ ε. Vaˇzi onda teorema (Haussler, 1988) kojom se uspostavlja veza prostora verzija i ovog pojma sa verovatno´com koja ne zavisi od raspodele primera ili definicije ciljnog koncepta: Teorema 4 Ako je H konaˇcan i D je niz od m ≥ 1 nezavisnih nasumice odabranih primera za ciljni koncept c, onda je za svako 0 ≤ ε ≤ 1 prostor V SH,D ε-iscrpljen verovatno´com p ≤ |H|−εm . Odatle sledi m ≥ 1 ε (ln |H|+ln 1/δ) gde je δ ˇzeljeni minimalni prag verovatno´ce greˇske uˇcenja bilo kojeg konzistentnog uˇcenika. 2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa Uˇcenik koji ne pretpostavlja (za razliku od prethodnog) da ciljni koncept pripada prostoru hipoteza ve´c jednostavno pronalazi hipotezu hbest s najmanjom greˇskom uˇcenja (za date primere) naziva se agnostiˇckim uˇcenikom (ne pretpostavlja da je C ⊆ H). Tada se traˇzi potreban broj tj. granica broja primera za koju vaˇzi da stvarna greˇska ne prelazi ε + eD(hbest). Pokazuje se da onda vaˇzi (opˇste granice Hefdinga ili aditivne granice ˇCernofa, Hoeffding, Chernoff): m ≥ 1 2ε2 (ln |H| + ln 1/δ) Primeri: 1. konjunkcije literala (|H| = 3n ): m ≥ 1 ε (n ln 3 + ln 1/δ) (sliˇcno i za k-termove KNF ili DNF) 2. uˇcenik bez biasa (|C| = 2|X| ): m ≥ 1 ε (2n ln 2+ln 1/δ) (nije polinomijalna granica) Pored ovih ocena koriste se i ocene V C(H) ≤ log2 |H| dimenzijom VC Vapnik-ˇCervonenkisa (Vapnik-Chervonenkis) gde se kompleksnost H (kapacitet sistema funkcija po Vapniku) ne meri brojem razliˇcitih hipoteza ve´c brojem razliˇcitih instanci koje se diskriminiˇsu u H. Ovo je, recimo, vaˇzno ako je prostor hipoteza beskonaˇcan jer se onda prethodne nejednakosti nemogu upotrebiti. Za S ⊆ X, svako h ∈ H daje dihotomiju nad S ako postoje dve
  • 37. 36 Seminarski rad particije, npr. {x ∈ S| h(x) = 0} i {x ∈ S| h(x) = 1} (mogu´ce je da bude 2|S| dihotomija S nad H). Ako se svaka dihotomija iz S (razbijanje na dve particije) moˇze prikazati nekom hipotezom iz H (kao u navedenom primeru), onda se kaˇze da H kida S. V C(H) je onda veliˇcina (kardinalnost) najve´ceg (konaˇcnog) podskupa u X kojeg kida H (ako nema konaˇcnog podskupa onda je V C(H) = ∞). Praktiˇcni detalji o ovome se mogu na´ci u [intro] i [?]. Ranija nejednakost o granici broja primera se moˇze zameniti onda narednom: m ≥ 1 ε (4 log2 (2/δ) + 8V C(H) log2 (13/ε)). Moˇze se na´ci ˇcak i gornja granica broja primera (Ehrenfeucht, 1989 - teorema: ako za proizvoljan L i C vaˇzi V C(C) ≥ 2 i 0 < ε < 1/8, 0 < δ < 1/100, onda postoji raspodela i ciljni koncept kod koga je eD(h) > ε ako se uzme manje od max 1 ε log 1/δ, V C(C)−1 32ε primera). Jedna od praktiˇcnih posledica ovih ˇcinjenica je mogu´cnost ozbiljnije teoretske ocene performansi i broja primera razliˇcitih klasa neuronskih mreˇza (ˇsto pre toga nije bilo jednostavno) i drugih metoda uˇcenja. 2.7.6 Optimalna granica greˇske Ako je ML(c) maksimalan broj greˇsaka za ciljni koncept c koji program L moˇze da napravi uˇce´ci c taˇcno (konzistentno) nad svim mogu´cim nizovima primera. Onda je ML(C) = maxc∈C ML(c) (npr. MF ind−S(C) = n + 1 za klasu n istinitosnih literala). Optimalna granica greˇske je onda: Opt(C) ≡ min L ML(C) Pokazuje se (Littlestone, 1987) da je V C(C) ≤ Opt(C) ≤ log2 |C|. 2.7.7 Graniˇcno uˇcenje Apstraktna formulacija graniˇcnog uˇcenja zadaje se modelom problema identifikacije. Ovaj odeljak je uglavnom zasnovan na sadrˇzaju u [ZR] (gde se mogu na´ci dodatni detalji). On se sastoji od slede´cih elemenata: 1. Klase objekata: algoritam koji uˇci treba da identifikuje jedan od ovih objekata na osnovu pruˇzenih informacija. 2. Metoda za prezentaciju informacija: u svakom trenutku t algoritam koji uˇci dobija informaciju it koja se bira iz skupa I. Skup svih mog´cih nizova informacija za neki objekat ω ∈ Ω obeleˇzava se sa I∞ (ω).
  • 38. Maˇsinsko uˇcenje, inteligentni agenti 37 3. Relacije imenovanja: algoritam treba da identifikuje objekat navod¯enjem nekog njegovog imena. Relacija imenovanja se sastoji od skupa imena N i funkcije f : N → Ω. Problem identifikacije je utvrd¯ivanje pravila koje za svaki objekat ω ∈ Ω i svaki niz iz I∞ (ω) daje ime n takvo da je f(n) = ω. Graniˇcna identifikacija podrazumeva pogad¯anje objekta u svakom trenutku i zahteva se da postoji konaˇcan vremenski trenutak posle kojeg su sva pogad¯anja ista za isto ω, i taˇcna. Ne zahteva se da ovaj vremenski trenutak bude poznat. Pogad¯anje u trenutku t je odred¯eno izraˇcunljivom funkcijom pogad¯anja Gt(i1, i2, ..., it). Ako funkcija Gt nije izraˇcunljiva, govorimo o neefektivnoj graniˇcnoj identifikaciji. Konaˇcna identifikacija podrazumeva da ´ce algoritam posle konaˇcnog broja koraka prestati da traˇzi informacije i da ´ce dati konaˇcan odgovor o imenu objekta. Identifikacija u odred¯enom vremenu podrazumeva identifikaciju u unapred odred¯enom broju koraka. Ako su skupovi I∞ (ω) disjunktni, onda kaˇzemo da je ispunjen uslov razlikovanja. Ako sa Ωt oznaˇcimo skup svih objekata iz Ω koji su saglasni sa poˇcetkom datog niza informacija do trenutka t, kaˇzemo da je ispunjen uslov opadanja neizvesnosti ako za svaki objekat ω ∈ Ω i svaki niz iz I∞ (ω) graniˇcni skup od Ωt kad t → 1 sadrˇzi samo ω. Osnovni metod za graniˇcnu identifikaciju je identifikacija nabrajanjem. Ona se sastoji od formiranja nabrajanja klase objekata na bilo koji naˇcin (i sa ponavljanjem) i pogad¯anja da je u koraku t nepoznati objekat upravo prvi objekat u nabrajanju koji se nalazi u Ωt. Funkcija pogad¯anja ´ce biti izraˇcunljiva ako se za svaki konaˇcan niz informacija do trenutka t i za svaki pozitivan ceo broj n moˇze efektivno utvrditi da li je n-ti objekat nabrajanja u Ωt i ako postoji efektivan naˇcin nalaˇzenja imena n-tog objekta u nabrajanju. Ako je Gt funkcija pogad¯anja, ω ∈ Ω i ι ∈ I∞ (ω) definiˇsemo vreme pogad¯anja τ(Gt, ω, ι) kao prvi trenutak u kome i posle koga su sva pogad¯anja funkcije Gt ista i taˇcna. Ako takav trenutak ne postoji, onda vreme pogad¯anja definiˇsemo kao ∞. Ako su Gt i G′ t dve funkcije pogad¯anja, kaˇzemo da je funkcija Gt uniformno brˇza od funkcije G′ t ako za svako ω ∈ Ω, ι ∈ I∞ (ω) vaˇzi: τ(Gt, ω, ι) ≤ τ(G′ t, ω, ι) i ako za neko ω0 ∈ Ω, ι0 ∈ I∞ (ω) vaˇzi: τ(Gt, ω0, ι0) ≤ τ(G′ t, ω0, ι0) Osnovni nalazi za problem identifikacije su dati u nastavku.
  • 39. 38 Seminarski rad Teorema 5 Ako su skupovi I i Ω prebrojivi i ako svaki objekat ima bar jedno ime, za neefektivnu graniˇcnu identifikaciju uslov razlikovanja je neophodan, a uslov opadaju´ce neizvesnosti je dovoljan. Ako je skup I∞ (ω) prebrojiv za svako ω, onda je uslov razlikovanja dovoljan za neefektivnu graniˇcnu identifikaciju. Teorema 6 Ako je Gt funkcija pogad¯anja koja realizuje identifikaciju nabrajanjem, onda nijedna funkcija pogad¯anja nije uniformno bolja od Gt. Jedan od primena i rezultata u oblasti algoritamske teorije uˇccenja razmatra teorijska ograniˇcenja sistema za klasifikaciju koji se zasnivaju na predstavljanju instanci u vektorskim prostorima i linearnoj separaciji (npr. klasifikacija zasnovana na SVM). Konaˇcan skup koncepata se moˇze predstaviti pomo´cu matrice M ∈ {0, 1}m×n gde Mij = −1 znaˇci da je instanca i negativan primer koncepta j i analogno za pozitivne primere. Definicija 2.9 Linearni raspored koji predstavlja matricu M ∈ Rm×n je dat kolekcijom vektora u1, ..., um, v1, ..., vn ∈ Rd euklidske duˇzine ||ui||2 = ||vj||2 = 1 takvih da je sign(ui, vj) = sign(Mij) za sve i, j. Parametar d se naziva dimenzija rasporeda, mini,j(ui, vj) je minimalna margina, a 1 mn i,j (ui, vj) srednja margina realizovana rasporedom. Poznato je da mala dimenzija, odnosno velika margina, obezbed¯uju malu greˇsku prilikom generalizacije. Donja granica dimenzije i gornja granica margine za linearne rasporede se mogu odrediti dekompozicijom matrice A ∈ Rm×n preko singularnih vrenosti: Neka je r rang matrice A. Uvek postoje matrice U ∈ Rm×r i V ∈ Rr×n sa ortonormiranim kolonama i pozitivnim brojevima σ1(A) ≥ ... ≥ σr(A) > 0, koje nazivamo singularnim vrednostima matice A, takve da je A = Udiag(σ1(A), ..., σr(A))V T . Podrazumeva se σi(A) = 0 za i > r. Spektralna norma matrice A se definiˇsse kao ||A|| = σ1(A). Donja granica dimenzije data je slede´com teoremom: Teorema 7 Neka je M ∈ Rm×n matrica takva da je |Mij| ≥ 1 za sve i, j. Ako je r rang matrice M, neka je u1, ..., um, v1, ..., vn ∈ Rd linearni raspored za d ≤ r koji predstavlja matricu M. Tada je: d d i=1 σ2 i (M) ≥ mn Odred¯ene su i gornje granice minimalne i srednje margine:
  • 40. Maˇsinsko uˇcenje, inteligentni agenti 39 Teorema 8 Ako za matricu M′ vaˇzi sign(M′ ij) = sign(Mij), onda vaˇzi: min i,j |(ui, vj)| ≤ √ mn||M′ || i,j M′ ij Teorema 9 1 mn i,j |(ui, vj)| ≤ ||M|| √ mn U prethodnoj teoremi koriˇs´cenje M′ umesto M je pogodnost koja omogu´cava da se umesto polazne matrice M kojoj odgovara linearni raspored, koristi druga matrica koja daje bolju ocenu. Uslov je da odgovaraju´ci elementi polazne i nove matrice imaju isti znak (u smislu funkcije sign). U oblasti algoritamske teorije uˇcenja analiziraju se tehnike uzorkovanja koje bi omogu´cile izgradnju algoritama maˇsinskog uˇcenja koji bi iz uvida u instance koje se dobijaju u toku uˇcenja mogli da odrede dovoljan obim uzorka za uˇcenje. Problem koji se posmatra je slede´ci: neka je D skup instanci iz kojih se uˇci i B bulovska funkcija nad D. Potrebno je utvrditi verovatno´cu pB takvu da je B(x) = 1. Ukoliko je broj instanci u D preveliki za prebrojavanje, pribegava se uzorkovanju i pribliˇznom odred¯ivanju broja pB na osnovu tog uzorka. Pitanje je koliki uzorak je potreban. Prvi cilj je utvrd¯ivanje granice apsolutne greˇske ocene. Preciznije, za dato δ > 0 i 0 < ε < 1 cilj je odrediti ocenu p′ B takvu da je: P[|p′ B − pB| ≤ ε] > 1 − δ (1) Drugi cilj je utvrd¯ivanje granice relativne greˇske. Za dato δ > 0 i 0 < ε < 1 cilj je odrediti p′ B takvo da je: P[|p′ B − pB| ≤ εpB] > 1 − δ (2) Tre´ci cilj je odred¯ivanje pribliˇzne ocene za neku funkciju broja pB (npr. uB = pB − 1 2 ). Preciznije, ako je dat broj δ > 0 i 0 < ε < 1, clij je odrediti ocenu u′ B takvu da vaˇzi: P[|u′ B − uB| ≤ ε|uB|] > 1 − δ (3) Teorema 10 Ako se instance koje ˇcine uzorak obima n biraju uniformno iz D i ako je m broj instanci iz uzorka za koje je B(x) = 1 i p′ B = m/n, onda ocena p′ B zadovoljava uslov (1) ako vaˇzi: n > 1 2ε2 ln( 2 δ )
  • 41. 40 Seminarski rad Takod¯e, ocena p′ B zadovoljava uslov (2) ako vaˇzi: n > 3 ε2pB ln( 2 δ ) (4) Poˇsto poslednja teorema u oceni obima uzorka koji je neophodan da bi vaˇzio uslov (3) koristi nepoznatu vrednost pB, ona nije korisna za postizanje drugog postavljenog cilja. Mogu´ce je koristiti slede´ci algoritam prilagodljivnog uzorkovanja (**): uzimati uniformno instance iz D sve dok broj instanci za koje je B(x) = 1 ne dostigne vrednost A. Ako je n ukupan broj instanci koje su uzete iz D onda se za ocenu p′ B uzima A/n. Teorema 11 Za svako δ > 0 i 0 < ε < 1 vaˇzi uslov (2) ako prilikom prilagodljivog uzorkovanja (**) vaˇzi: A > 3(1 + ε) ε2 ln( 2 δ ) Tada, sa verovatno´com ve´com od 1 − δ/2 obim uzorka n zadovoljava uslov: n ≤ 3(1 + ε) (1 − ε)ε2pB ln ( 2 δ ) (5) Pored¯enjem uslova (4) i (5) i uzimaju´ci u obzir da je ε obiˇcno malo, zakljuˇcuje se da je algoritam prilagodljivog uzorkovanja skoro optimalan. Za postizanje tre´ceg cilja predlaˇze se slede´ci algoritam nemonotonog prilagodljivog uzorkovanja: • m ← 0; n ← 0; • u′ B ← 0; α ← ∞; • Dok je |u′ B| < α(1 + 1/ε) primenjivati slede´ce korake: – uzeti x sluˇcajnim izborom sa uniformnom raspodelom iz D; – m ← m + B(x); n ← n + 1; – u′ B ← m/n − 1/2; – α ← 1 2n ln (n(n + 1)/δ)); • predloˇziti u′ B kao ocenu za uB;
  • 42. Maˇsinsko uˇcenje, inteligentni agenti 41 Teorema 12 Za svako δ > 0 i 0 < ε < 1, nemonotono prilagodljivo uzorkovanje zadovoljava uslov (3). Takod¯e, ako je n obim uzorka, sa verovatno´com ve´com od 1 − δ, onda vaˇzi: n ≤ 2(1 − 2ε)2 (ε|uB|)2 ln( 1 εδ|uB| ) Identifikacija jezika poˇciva na Goldovom modelu graniˇcne identifikacije koji je ve´c pomenut. Ako je skup Σ neprazna i konaˇcna azbuka i Σ∗ skup svih niski nad skupom Σ ukljuˇcuju´ci i praznu, jezik nad azbukom Σ je bilo koji podskup od L ⊆ Σ∗ . Model uˇcenja jezika se sastoji od tri komponente: 1. Definicije uˇcenja: jezik L je nauˇcen ako je graniˇcno identifikovan med¯u dopustivim jezicima. 2. Metod prezentovanja informacija: mogu´ce je uˇcenje iz teksta ili pomo´cu informatora. Tekst je niz x : N → L niski jezika L takvih da se svaka niska jezika L pojavljuje u njemu bar jednom. Razlikujemo proizvoljan, rekurzivan i primitivno rekurzivan tekst. Informator je niz y : N → Σ∗ × {⊤, ⊥} takav da je (α, ⊤) njegov element ukoliko α ∈ L, a (α, ⊥) ukoliko α ∈ Σ∗ − L, za svako α ∈ σ∗ . Mogu´ce su i drugaˇcije, ekvivalentne, formulacije informatora. 3. Vrste imena jezika: svaki jezik moˇze imati jedno ili viˇse imena. Algoritam identifikuje jezik navode´ci neko od njegovih imena. Imena jezika su Tjuringove maˇsine. Tester za jezik L je Tjuringova maˇsina koja realizuje proceduru odluˇcivanja za L, odnosno funkciju koja reˇci iz Σ∗ pridruˇzuje 1 ukoliko je ta reˇc iz L, a 0 u suprotnom. Generator za L je Tjuringova maˇsina koja realizuje surjektivno preslikavanje iz skupa prirodnih brojeva u L. Dokazane su teoreme: Teorema 13 Za bilo koji naˇcin prezentacije informacija, ako se klasa jezika moˇze graniˇcno identifikovati koriste´ci tester imenovanje, onda se ona moˇze graniˇcno identifikovati i koriste´ci imenovanje generatorom. Teorema 14 Koriste´ci prezentovanje informacija pomo´cu informatora i tester imenovanje klasa primitivno rekurzivnih jezika se moˇze graniˇcno identifikovati. Teorema 15 Koriste´ci prezentovanje informacija pomo´cu informatora i imenovanje generatorom klasa rekurzivnih jezika se ne moˇze graniˇcno identifikovati.
  • 43. 42 Seminarski rad Teorema 16 Koriste´ci prezentovanje informacija pomo´cu proizvoljnog teksta i tester imenovanje klasa jezika konaˇcne kardinalnosti se moˇze graniˇcno identifikovati. Teorema 17 Koriste´ci prezentovanje informacija pomo´cu primitivno rekurzivnog teksta i imenovanje generatorom cela klasa rekurzivno nabrojivih jezika se moˇze graniˇcno identifikovati. Teorema 18 Koriste´ci prezentovanje informacija pomo´cu rekurzivnog teksta i imenovanje generatorom klasa jezika koja sadrˇzi sve konaˇcne jezike i bar jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati. Teorema 19 Koriste´ci prezentovanje informacija pomo´cu primitivno rekurzivnog teksta i tester imenovanje klasa jezika koja sadrˇzi sve konaˇcne jezike i bar jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati. Algoritam RPNI za identifikaciju (i uˇcenje) regularnih jezika iz pozitivnih (S+) i negativnih primera (S−) postoji, ali zahteva kompletnost uzorka (bez formalne definicije, neophodni su i pozitivni i negativni primeri u dovoljnom obimu da bi identifikacija bila garantovana - algoritam i detalji su u [ZR]). Obim uzorka koji je potreban je u najgorem sluˇcaju manji od n2 Σ, a sloˇzenost algoritma je O((|S+|+|S−|)|S+|2 ). Nauˇceni automat je minimalni deterministiˇcki automat koji prihvata taˇcno jezik L. Identifikacija kontekstno slobodnih jezika (KSJ) je mnogo ,,tvrd¯i” problem, i postoje´ca reˇsenja u okviru Goldove teorije su bar NP kompletni i neefikasni. Ovim problemom se i dalje mnogo efikasnije bave bajesovski metodi (n-grami i skriveni lacni Markova) i stohastiˇcke kontektsno-slobodne gramatike (Smirnof).
  • 44. Maˇsinsko uˇcenje, inteligentni agenti 43 3 Statistiˇcko i Bajesovo uˇcenje 3.1 Bajesovo uˇcenje Pored Bajesovog zakljuˇcivanja i mreˇza uverenja (belief networks, Bajesove mreˇze specijalno ako koriste Bajesovo pravilo zakljuˇcivanja) kao metode automatskog zakljuˇcivanja, to je i korisna metoda maˇsinskog uˇcenja jer nudi mogu´cnost kvantitativnog ocenjivanja alternativnih hipoteza. Bajesovo uˇcenje je tako vezano za algoritme uˇcenja koji koriste verovatno´cu i statistiku kao model. Osnova je izbor hipoteze (MAP - Maximum a posteriori) najverovatnije uslovne verovatno´ce u odnosu na dati skup primera (posmatranja) D i prostor hipoteza H (uz primenu Bajesovog pravila i izuzimanja P(D) kao konstante za razliˇcite h): hMAP ≡ argmaxh∈HP(h|D) = argmaxh∈H P(D|h)P(h) P(D) = argmaxh∈HP(D|h)P(h) Moˇze se i P(h) izostaviti sliˇcno P(D) ako se pretpostavi da je a priori verovatno´ca hipoteze ista za sve hipoteze (uniformna). Na primer, P(h) = 1/|H| za sve h ∈ H, i za vrednosti primera d1, ..., dn instanci x1, ..., xn: P(D|h) = 1, di = h(xi) za sve di ∈ D; 0, inaˇce. dobija se metod MAP uˇcenja grubom silom koji pokazuje da je: P(h|D) = 1 |V SH,D| , di = h(xi) za sve di ∈ D; 0, inaˇce. tj. svaka konzistentna hipoteza (bez greˇsaka za date primere) je MAP hipoteza. Svaki algoritam uˇcenja koji proizvodi konzistentne hipoteze je konzistentan. Moˇze se pokazati da ako je distribucija u H td. je P(hi) ≥ P(hj) ako je hi specifiˇcnija od hj (specijalno, uniformna raspodela je uvek takva) onda algoritam Find-S daje MAP hipoteze. Tako se moˇze Bajesovom mreˇzom karakterisati i algoritam koji ne koristi verovatno´ce - kao ˇsto je induktivnim biasom karakterisan i zamenjen deduktivnim sistemom, tako moˇze biti zamenjem Bajesovom mreˇzom uz pretpostavku o raspodeli za H i datim P(D|h), odnosno njenom gustinom p(D|h).
  • 45. 44 Seminarski rad 3.1.1 Veza najverovatnije hipoteze i LMS Ako su primeri dati sa nekom oˇcekivanom greˇskom m = 0 sa zadatom disperzijom σ2 td. je di = f(xi) + ei, i ako su primeri med¯usobno uslovno nezavisni onda je (h = hML, ML - minimum likelihood): h = argmaxh∈H n i=1 P(di|h) = argmaxh∈H n i=1 1 √ 2πσ2 e− 1 2σ2 (di−h(xi))2 ˇsto se na kraju svodi (upotrebom logaritma i drugih transformacija - detalji u [TM-ML] kao i za mnoge druge detalje i dokaze) na: h = argminh∈H n i=1 (di − h(xi))2 ˇcime se pokazuje da se najbolja hipoteza dobija minimizovanjem zbira kvadrata razlike - LMS metodom. Konkretnije, ako je di ∈ {0, 1} (diskretan skup) i izbor primera xi uslovno ne zavisi od hipoteze h, moˇze se pokazati da se i xi mogu tretirati kao sluˇcajne promenljive, i tada je P(D|h) = n i=1 P(xi, di|h) = n i=1 P(di|h, xi)P(xi). Sliˇcnim transformacijama (uz P(di|h, xi) = h(xi)di (1− h(xi))1−di ) se dobija onda: h = argmaxh∈HG(h, D), G(h, D) = n i=1 [di ln h(xi) + (1 − di) ln (1 − h(xi))] Postoji sliˇcnost ovog izraza sa opˇstim oblikom entropije −pi log pi i zato se njegova negativna vrednost naziva i prelaznom entropijom (cross entropy). Ovakav pristup je posebno interesantan kada je objekat uˇcenja realna funkcija. Prirodan model za ovakav sistem (s Bajesovom mreˇzom) i uˇcenje su neuronske mreˇze sa povratnim propagiranjem, gde je pravilo obuˇcavanja NM (spustom niz gradijent) ∆wjk = η n i=1 h(xi)(1 − h(xi))(di − h(xi))xijk u sluˇcaju maksimizovanja G(h, D) zamenjeno jednostavnijim pravilom: ∆wjk = η n i=1 (di − h(xi))xijk 3.1.2 MDL princip Ranije pomenut MDL princip je blisko povezan sa verovatno´com i problemom Okamove oˇstrice. Ideja o MDL je potekla joˇs 1960-tih kada su Solomonov,
  • 46. Maˇsinsko uˇcenje, inteligentni agenti 45 (Solomonoff, 1960: koja je priroda induktivnog zakljuˇcivanja ?) Kolmogorov i ˇCaitin (Kolmogorov, Chaitin, 1965-66: koja je priroda sluˇcajnosti ?) postavili pitanja i temelje statistike i informacione teorije u vezi kompleksnosti algoritma (gde se uoˇcava veza izmed¯u sluˇcajno generisane niske i sloˇzenosti programa, kao i kompresiji opisa niske programom koji u sebi - ,,intrinsiˇcki” - tako sadrˇzi osobine podataka) - Rissanen 1978. tako predlaˇze MDL princip induktivnog zakljuˇcivanja. Uz osnovne pretpostavke teorije informacija, moˇze se protumaˇciti kod hMAP = argmaxh∈HP(D|h)P(h) = argminh∈H [− log2 P(D|h) − log2 P(h)] da su kra´ce hipoteze poˇzeljnije (Shannon, Weaver 1949): ako je LCH (h) = − log ph broj bitova (duˇzina opisa) potreban za poruku h kodom C, onda je MDL princip hMDL = argminh∈H[LC1 (h)+LC2 (D|h)] (prvi sabirak karakteriˇse duˇzinu opisa hipoteze, a drugi duˇzinu opisa primera s hipotezom kao pretpostavkom - npr. ˇsta su izuzeci). Pokazuje se da ako je C1 = CH optimalno kodiranje za h i C2 = CD|h optimalno kodiranje za D|h, onda je hMAP = hMDL. Med¯utim MDL ne opravdava posebno najkra´cu hipotezu jer se za proizvoljna kodiranja C1 i C2 ne moˇze opravdati MDL hipoteza kao najbolja (potrebno je znati sve verovatno´ce hipoteza da bi se to potvrdilo, a to nije obavezno najbolja reprezentacija znanja). 3.1.3 Bajesovi klasifikatori, Gibsov algoritam Naspram dosadaˇsnjeg pitanja o najverovatnijoj hipotezi, joˇs je bitnije pitanje najverovatnije klasifikacije nove instance na osnovu zadatih primera. Za skup vrednosti klasifikacija V optimalni Bajesov klasifikator nove instance x ∈ X bira najverovatniju ispravnu klasifikaciju (u problemu uˇcenja koncepta to je kao da se bira klasifikacija nad prostorom verzija uz teˇzinske koeficijente tj. uslovne verovatno´ce): argmaxvj∈V P(vj|D), P(vj|D) = hi∈H P(vj|hi)P(hi|D) Ovaj algoritam ima u proseku najbolje performanse u odnosu na bilo koji drugi, ali moˇze biti veoma skup. Gibsov algoritam koristi kompromis (ve´ca greˇska uz manju cenu raˇcunanja - Opper, Haussler, 1991): 1. Izaberi proizvoljnu hipotezu h iz H nasumice, ali prema raspodeli uslovne verovatno´ce (u odnosu na date primere)
  • 47. 46 Seminarski rad 2. Upotrebi h da oceniˇs klasifikaciju nove instance Pokazuje se da je greˇska klasifikacije ovog algoritma pod odred¯enim uslovima najviˇse dvaput ve´ca od Bajesovog optimalnog klasifikatora (Haussler, 1994). Naivni Bajesov klasifikator je jedan veoma praktiˇcan metod uˇcenja - u nekim domenima se pokazuje uporedivim po performansama sa NM ili drve´cem odluke. Primenjiv je u zadacima gde se instance izraˇzavaju kao konjunkcije vrednosti atributa (a1, ..., an) a kodomen V ciljne funkcije je diskretan (konaˇcan). Bajesov pristup bi onda bio na´ci najverovatniju vrednost vMAP = argmaxvj ∈V P(vj|a1, ..., an) = argmaxvj ∈V P(a1, ..., an|vj)P(vj) (uz primenu Bajesovog pravila). Vrednost P(vj) se moˇze proceniti frekvencijom (brojanjem) vrednosti u skupu primera, dok za uslovne verovatno´ce to nije praktiˇcno (broj kombinacije je obiˇcno dovoljno velik). Da bi se to prevaziˇslo, naivni klasifikator polazi od pretpostavke da su usllovne verovatno´ce atributa u konjunkciji uslovno nezavisne tj. izbor vrednosti naivnog Bajesovog klasifikatora je: vNB = argmaxvj∈V P(vj) i P(ai|vj) gde se frekvencijama vrednosti atributa u primerima za date vrednosti ocenjuje P(ai|vj). Uobiˇcajeno je da se vrednost P(ai|vj) ocenjuje sa nc n gde je n broj primera kod kojih je vj, a nc broj takvih kod kojih je ai. Poˇsto broj takvih primera moˇze biti suviˇse mali, koristi se m-ocena nc+mp n+m gde je m je jednak broj uzoraka a p verovatno´ca izbora date vrednosti atributa (najˇceˇs´ce se pretpostavlja uniformna raspodela td. je za k mogu´cih vrednosti atributa p = 1 k , mada moˇze uopˇste biti i neka druga raspodela). Na primer, ako je P(ai = wk|vj) verovatno´ca da je i-ta reˇc teksta jednaka wk (k-ta iz nekog reˇcnika) i da je tekst ocenjen nekom vrednoˇs´cu vj, npr. da pripada nekoj diskusionoj listi od ponud¯enih ˇciji se tekstovi poruka analiziraju, onda se moˇze pretpostaviti da je P(ai = wk|vj) = P(am = wk|vj) tj. da verovatno´ca ne zavisi od pozicije - time se znaˇcajno dodatno smanjuje broj kombinacija mogu´cih uslovnih verovatno´ca, i tada se to moˇze skra´ceno obeleˇziti sa P(wk|vj) = nk+1 n+|V | , gde je nk broj koliko puta je nad¯ena reˇc wk med¯u ukupno n mogu´cih pozicija (tj. reˇci) u primerima gde je ciljna vrednost vj (koristi se m-ocena sa m = |V |, |V | je broj reˇci u reˇcniku V ). Algoritam uˇcenja onda izgleda ovako: 1. pokupi sve razliˇcite reˇci u skup V (tokene, uopˇste) iz svih tekstova skupa primera D
  • 48. Maˇsinsko uˇcenje, inteligentni agenti 47 2. izraˇcunaj P(vj) i P(wk|vj) izraze verovatno´ca: za svaku vrednost vj ∈ V : • docsj ← podskup tekstova iz skupa primera D koji sadrˇze vj • P(vj) ← |docsj| |D| • textj ← tekst dobijen konkatenacijom tekstova iz docsj • n ← broj razliˇcitih pozicija reˇci (broj reˇci) u textj • za svaku wj ∈ V : (a) nk ← broj reˇci wk u textj (b) P(wk|vj) ← nk+1 n+|V | i onda se klasifikacija vrˇsi algoritmom: 1. ulazni dokument koji se klasifikuje ima skup pozicija reˇci P (reˇc ai je na i-toj poziciji) 2. vNB = argmaxvj ∈V P(vj) i∈P P(ai|vj) 3.1.4 Mreˇze uverenja Ako je P(X|Y, Z) = P(X|Z) kaˇze se da su X i Y uslovno nezavisno pod uslovom Z. Mreˇzama uverenja (belief networks) se definiˇsu viˇsedimenzionalne (sloˇzene) raspodele koja se sastoji od n-torke promenljivih (Y1, ..., Yn). Mreˇza uverenja je onda usmereni acikliˇcni graf gde su ˇcvorovi sluˇcajne promenljive u kojem je svaki potomak ˇcvora zavisan od njega, a onaj koji to nije je nezavisan (uz uslov prethodnih ˇcvorova ako ih ima). Tako je rekurzivno definisana sloˇzena verovatno´ca: P(y1, ..., yn) = n i=1 P(yi|Roditelji(Yi)) gde je Roditelji(Yi) skup neposrednih roditelja ˇcvora Yi i kombinacija njihovih vrednosti kao u tabeli u primeru ispod:
  • 49. 48 Seminarski rad (primer preuzet iz [TM-ML]) gde je prvim slovom u tabli skra´ceno oznaˇcen odgovaraju´ci ˇcvor (tabela je vezana za ˇcvor Campfire, a ˇcvorovi imaju dve mogu´ce vrednosti - logiˇcke vrednosti). Mreˇza uverenja je potpuno zadata takvim uslovnim verovatno´cama za svaki ˇcvor (ili npr. faktorima dovoljnosti i potrebnosti za svaki luk da bi se formirali logiˇcki iskazi kao pravila, kao ˇsto je to u ekspertnom sistemu PROSPECTOR) i poˇcetnim (a priori) verovatno´cama. Cilj je obiˇcno na´ci raspodelu verovatno´ce n-torke promenljivih na osnovu zadatih raspodela ostalih promenljivih u mreˇzi (i onda moˇzda oceniti njihovu vrednost na osnovu nekih zadatih poˇcetnih verovatno´ca (dokaza) ili vrednosti promenljivih). Ovakvo verovatnosno zakljuˇcivanje je u opˇstem sluˇcaju pokazano kao problem NP klase (Cooper, 1990), ˇcak i u aproksimativnim metodama. Uˇcenje mreˇza uverenja (tj. njihovih uslovnih verovatno´ca ili koeficijenata) na efikasan naˇcin se svodi na (naivni) Bajesov klasifikator ako su sve promenljive sa verovatno´cama poznate na osnovu primera, i ako je struktura mreˇze unapred poznata. Med¯utim, ako su vrednosti samo nekih promenljivih (ostale su ,,skrivene” - skriveni Markovljevi lanci) raspoloˇzive tokom uˇcenja (u primerima), onda nije tako jednostavno. Problem je donekle uporediv sa problemom obuˇcavanja neuronskih mreˇza sa skrivenim slojevima (npr. povratnim propagiranjem), kao ˇsto se mreˇze zakljuˇcivanja mogu predstaviti kao vrsta NM u krajnjem sluˇcaju. Jedan naˇcin je traˇzenjem najverovatnije hipoteze gradijent metodom, odnosno maksimizovanjem P(D|h). Ako je wijk = P(Yi = yij|Ui = uik) uslovna verovatno´ca da ´ce promenljiva Yi imati vrednost yij ako n-torka njenih direktnih roditelja Ui ima vrednost uik, pokazuje se da onda vaˇzi: ∂ ln P(D|h) ∂wijk ≡ ∂ ln Ph(D) ∂wijk = d∈D P(Yi = yij, Ui = uik|d) wijk ≡ d∈D P(yij, uik|d) wijk
  • 50. Maˇsinsko uˇcenje, inteligentni agenti 49 Ovim se dobija pravilo uˇcenja: wijk ← wijk + η d∈D Ph(yij, uik|d) wijk gde se mora dodatno voditi raˇcuna da je ispunjen preduslov da su wijk ispravne verovatno´ce (wijk ∈ [0, 1] i da je j wijk = 1 za sve i, k), ˇsto se radi renormalizacijom koeficijenata nakon svakog ciklusa promene koeficijenata. Uˇcenje strukture mreˇze je joˇs teˇzi problem. Jedan naˇcin je uvod¯enje metrike kojom se ocenjuju mreˇze alternativne strukture (u odnosu na poˇcetnu i kasnije radnu strukturu - algoritam K2, Cooper, Herskovits, 1992), a drugi poznati naˇcin je konstruistanjem uslova (constraints) i otkrivanjem relacija zavisnosti na osnovu primera. 3.1.5 EM algoritam EM algoritam je posebno koristan za primere mreˇza sa pomenutim skri- venim ˇcvorovima. Problema ocene k-sredina (k-means) je jedan od osnovnih problema tog tipa - ako su ulazni podaci zadati kao niz brojeva gde je svaki element niza nasumice uniformno po jednoj od k normalnih raspodela poznatih jednakih disperzija σ2 i nepoznatih sredina tj. proizvoljan element niza X ima vrednost po nekoj od k normalnih raspodela {N(µj, σ2 )}k j=1, a svaki takav element ima i ,,skrivenu” pridruˇzenu vrednost j (indeks uniformno nasumiˇcno izabrane normalne raspodele sa odgovaraju´com sredinom µj, 1 ≤ j ≤ k). Cilj problema je otkriti k-torku h = (µ1, ..., µk) sredina kao ispravnu hipotezu za primer od m zadatih vrednosti. Da je skrivena vrednost poznata (da nije skrivena, zapravo) algoritam bi bio jednostavan - za svaki podniz yi ovakvog niza xi ˇcijim je vrednostima pridruˇzena samo jedna sredina (i odgovaraju´ca raspodela) traˇzi se hipoteza µML td. je µML = argminµ m i=1 (yi − µ)2 za ˇsta se pokazuje da je reˇsenje (koje minimizuje ovu sumu) µML = 1 m m i=1 yi (recimo, kao da je dat niz (k + 1)-torki (xi, zi1 , ..., zik ) gde zij = 1 ukazuje da je za vrednost xi koriˇs´cena normalna raspodela sa sredinom µj - ostale vrednosti zin = 0). EM algoritam za ovaj problem incijalizuje h = (zi1 , ..., zik ) (recimo prvih k vrednosti ulaznog niza ili njihova srednja vrednost) i onda ponavlja naredne korake do stabilnog h (po nekom kriterijumu):
  • 51. 50 Seminarski rad 1. izraˇcunaj E[zij ], j = 1, k uz pretpostavku trenutne h: E[zij ] = p(x = xi|µ = µj) k n=1 p(x = xi|µ = µn) = e− 1 2σ2 (xi − µj)2 k n=1 e− 1 2σ2 (xi − µn)2 2. izraˇcunaj najverovatniju novu hipotezu h′ = (µ′ 1, ..., µ′ k) uz pretpostavku da je trenutna vrednost zij , j = 1, k je prethodno izraˇcunata E[zij ] i zameni h sa h′ : µj ← m i=1 E[zij ]xi m i=1 E[zij ] Suˇstina algoritma su ova dva koraka, gde se najpre koristi trenutna hipoteza da bi se ocenile skrivene vrednosti, a onda se tako dobijenim skrivenim vrednostima raˇcuna iterativno bolja hipoteza. EM algoritam obavezno konvergira ka lokalno maksimalno verovatnoj (P(D|h)) hipotezi na taj naˇcin. Uobiˇcejena uopˇstena formulacija je da se za skup posmatranih vrednosti (observed) X = {x1, ..., xm} i skrivenih (hidden, unobserved) Z = {z1, ..., zm} (Y = X Z je ukupan, pun skup podataka) posmatra skup parametara θ koji je od interesa za problem. Z se moˇze posmatrati kao sluˇcajna promenljiva (a time i Y ) ˇcija raspodela zavisi od nepoznatih parametara θ i poznatih podataka X. Traˇzi se h′ tako da maksimizuje E[ln P(Y |h′ )], tj. Q(h′ |h) = E[ln P(Y |h′ )|h, X] (kao funkcija od h′ pod pretpostavkom θ = h). Tada se uopˇsteni EM algoritam svodi na slede´ca dva koraka: procena (estimation) (E): raˇcunanje Q(h′ |h) maksimizovanje (maximization) (M): h ← argmaxh′ Q(h′ |h) Ako je Q neprekidna onda EM konvergira ka stacionarnoj taˇcki funkcije P(Y |h′ ) (sliˇcno gradijent metodama). U sluˇcaju problema k-sredina vaˇzi: θ = (µ1, ..., µk), p(yi|h′ ) = p(xi, zi1 , ..., zik |h′ ) = 1√ 2πσ2 e− 1 2σ2 Pk j=1 zij (xi−µ′ j )2 , pa je ln P(Y |h′ ) = ln m i=1 p(yi|h′ ) = m i=1 p(yi|h′ ), i na osnovu toga je Q(h′ |h) = E[ln P(Y |h′ )] = m i=1 ln 1√ 2πσ2 − 1 2σ2 k j=1 E[zij ](xi − µ′ j)2 , pa je argmaxh′ Q(h′ |h) = argminh′ m i=1 k j=1 E[zij ](xi − µ′ j)2 .
  • 52. Maˇsinsko uˇcenje, inteligentni agenti 51 3.2 Statistiˇcko uˇcenje i funkcija gubitka Sve pomenute metode i poznate metode matematiˇcke verovatno´ce i statistike nude korisne alate u problemima maˇsinskog uˇcenja. To se moˇze i ovako posmatrati: ako je X sluˇcajna promenljiva nad n-torkama gde je p(X) (a priori) verovatno´ca da je to n-torka koju traˇzimo da klasifikujemo, odnosno gustina raspodele sluˇcajne promenljive X, onda se moˇze sa p(X|1) i p(X|2) oznaˇciti gustina raspodele za kategorije 1 i 2 (p(i) je a priori verovatno´ca kategorije), redom (dalje se sve moˇze uopˇstiti jednostavno za proizvoljan broj kategorija) - raspodele za te dve kategorije se mogu razlikovati. Dve osnovne greˇske se mogu napraviti: da je data n-torka (uzorak, ˇsema) u kategorji 1 iako pripada kategoriji 2, i obratno. Ozbiljnost napravljene greˇske se ocenjuje funkcijom gubitka (loss function) λ(i|j) za odabranu kategoriju i ako je kategorija j taˇcna (λ(i|i) = 0). Oˇcekivana vrednost gubitka za dato x je LX(i) = λ(i|1)p(1|X) + λ(i|2)p(2|X). Kategoriju 1 biramo ako je LX(1) ≤ LX(2), a upotrebom Bajesovog pravila dobija se: λ(1|2)p(X|2)p(2) ≤ λ(2|1)p(X|1)p(1) Specijalno, ako je λ(1|2) = λ(2|1) i p(1) = p(2) onda je taj uslov: p(X|2) ≤ p(X|1) (tj. izbor najverovatnije kategorije u X, maximum likelihood), gde se koristi i opˇstije k(i|j) = λ(i|j)p(j). Naravno, za proizvoljan skup kategorija C se moˇze zadatak definisati uopˇsteno, gde se bira kategorija j ∈ C za koju vaˇzi: j = argmini∈CLX(i) Konkretan kriterijum se dobija izborom pretpostavljene raspodele - dve raspodele su interesantne: Gausova (normalna) i binomna. Matriˇcno zapisana gustina viˇsedimenzionalne normalne raspodele je: p(X) = 1 (2π)n/2|Σ|1/2 e −(X−M)T Σ−1(X−M) 2 gde je M = E[X] srednji vektor (vektor srednjih vrednosti), Σ = [σ2 ij]ij matrica kovarijanse (simetriˇcna, pozitivno definitna), |Σ| = det Σ, σ2 ij = E[(xi − mi)(xj − mj)] (σ2 ii je disperzija za xi). Tada se pomenuti kriterijum svodi na: (X − M1)T Σ1 −1 (X − M1) ≤ (X − M2)T Σ2 −1 (X − M2) + B
  • 53. 52 Seminarski rad gde je B = 2 (2π)n/2 ( 1 |Σ2|1/2 − 1 |Σ1|1/2 ) konstanta. Specijalno, ako je Σ1 = Σ2 = Σ i ako su dijagonalne, tada je uslov: (X − M1)T (X − M1) ≤ (X − M2)T (X − M2) tj. X(M1 − M2) ≥ C gde je C = (M1M1 − M2M2)/2 konstanta. Ako su vrednosti sluˇcajne promenljive u skupu {0, 1}, i ako su komponente uslovno nezavisne, p(X|i) = p(x1|i) . . . p(xn|i), moˇze se zapisati (binomna raspodela): p(xi = 1|1) = pi p(xi = 0|1) = 1 − pi p(xi = 1|2) = qi p(xi = 0|2) = 1 − qi
  • 54. Maˇsinsko uˇcenje, inteligentni agenti 53 i onda je pomenuti uslov: n i=1 xi log pi(1 − qi) qi(1 − pi) + n i=1 log 1 − pi 1 − qi + log p(1) p(2) ≥ 0 3.3 Kombinatorna optimizacija, inteligencija roja Mnogi problemi veˇstaˇcke inteligencije se reˇsavaju dinamiˇckim programiranjem i metodama bliskim problemima optimizacije. Klasa asinhrono distribuiranih algoritama koji su inspirisani bioloˇskim zajednicama, poput mrava u prirodi (sliˇcno genetskim algoritmima), zove se inteligencija roja (swarm intelligence). Primer je TSP problem (putuju´ceg trgovca) odred¯ivanja optimalnog Hamiltonovog puta datog obeleˇzenog (cenama) grafa. Rubinˇstajn predlaˇze metodu koja daje podklasu ovakvih algoritama (inspirasanu optimizacijom kolonije mrava, Rubinstein, 1999) upotrebom prelazne entropije - ,,PE mravi” (CE-ants, Cross Entropy). Rubinˇstajnova metoda nije distribuirana (raˇcunanja se ne mogu paralelizovati) i spada specijalno zato u klasu centralnih metoda (varijantu koja jeste distribuirana predloˇzili su Helvik i Wittner, 2001). Schoonderwoerd (kao primenu na osnovu Dorigovog ACO metoda i sistema AntNet, Ant Colony Optimization) predlaˇze sistem sa ve´cim brojem veoma uproˇs´cenih agenata (koji vremenom stare) za reˇsavanje mreˇznih i telekomunikacionih problema. Med¯utim, ovaj metod se ne snalazi tako dobro sa NP problemima kao ˇsto je TSP, ˇsto metoda PE-mrava ispravlja uvod¯enjem koeficijenta ˇziˇze pretrage. Broj Hamiltonovih putanja u grafu reda n je (n − 1)! - ideja je iskoristiti statistiˇcke osobine roja koji ostavlja feromonske tragove koji ukazaju blizinu optimalne putanje, i tako na´ci reˇsenje ˇsto bliˇze optimalnom. Ovi tragovi su dati matricom prelaska Pt u trenutku t, koja odgovara matrici verovatno´ca Markovljevog lanca. Ako je funkcija cene putanje πi = {r1i , r2i , ..., rni } sa matricom cena Lkl (za Hamiltonovu putanju vaˇzi za svako i da je ni = n + 1 i r1i = rni ) data sa L(πi) = ni−1 j=1 Lrj rj+1 , Rubinˇstajnovi PE-mravi ovako rade (sliˇcno EM-algoritmu, traˇzi se matrica prelaska u dva koraka - raˇcuna se funkcija ocene performansi, a onda iteracija matrice prelaska): 1. Pt=0 se inicijalizuje uniformno nasumiˇcnim (malim) vrednostima 2. generiˇsi N putanja na osnovu Pt i izraˇcunaj minimalnu Bolcmanovu temperaturu γt kao meru performanse kojom se utiˇce na izbor znaˇcajnijih
  • 55. 54 Seminarski rad putanja: γt ≡ argminγ′ t h(Pt, γ′ t), h(Pt, γ′ t) = 1 N N k=1 H(πk, γt) > ρ gde je H(Pt, γ′ t) = e − L(πk)) γt , k = 1, N mera performanse putanje πk, a 10−6 ≤ ρ ≤ 10−2 ograniˇcenje tj. koeficijent ˇziˇze pretrage (search focus) kao parametar algoritma. 3. za narednu iteraciju Pt+1 = argmaxPt 1 N N k=1 H(πk, γt) i,j, pokazuje se da je: Pt+1,ij = {r,s}∈πk,k=1,N H(πk, γt) {r}∈πl,l=1,N H(πl, γt) koja minimizuje prelaznu entropiju i poˇstuje ograniˇcenja γt 4. ponavljaj prethodna dva koraka sve dok ne bude H(π, γt) ≈ H(π, γt+1) gde je π pribliˇzno optimalno reˇsenje (najbliˇze pronad¯eno) Distribuirana i asinhrona verzija koristi slede´ce izmene (autoregresijom): Pt+1,ij = {r,s}∈πk,k=1,t βt−k H(πk, γt) {r}∈πl,l=1,t βt−lH(πl, γt) , γt = argminγ′ t h′ t(γ′ t) > ρ h′ t(γ′ t) = h′ t−1(γ′ t)β + (1 − β)H(πt, γt) ≈ 1 − β 1 − βt t k=1 βt−k H(πk, γt) gde 0 < β < 1 kontroliˇse istoriju zapam´cenih putanja umesto N (recimo β = 0.998, ρ se smanjuje svaki put za 5%). Koraci 2. i 3. algoritma se tako mogu napraviti posle samo jedne nove putanje πt. Dalje poboljˇsanje algoritma se ogleda u primeni elitnog izbora (elite selection) gde se cena ograniˇcava relativno u odnosu na trenutno najbolju nad¯enu putanju Lnajbolji, t = min∀u≤t L(πu) tako da je: L(πt) ≤ (1 + ρ2)Lnajbolji, t−1 gde je ρ2 parametar koji se moˇze i menjati tokom vremena (iteracija). Kada je ρ2 = 0 reˇsenje se pronalazi brzo ali nije toliko blisko optimalnom. Ideja je vremenom smanjivati ρ2 (ˇcime elitna selekcija postaje restriktivnija) svaki put kada se nad¯e novo bolje reˇsenje (Lnajbolji, t+n < Lnajbolji, t) ili kada