Machine Learning

Seminarski rad: Maˇsinsko uˇcenje,
inteligentni agenti
Popović Zoran
Centar za multidisciplinarne studije
Univerzitet u Beogradu
23. maj 2007
Saˇzetak
Ovaj tekst je zamiˇsljen kao pregled sadrˇzaja knjiga i radova iz
oblasti maˇsinskog uˇcenja i inteligentnih agenata. Rad je pisan pomoću
TEX-a tj. LATEX-a kao njegovog dijalekta i jfig alata - [PG] i [TB].
Profesor: Vladan Devedˇzić

Maˇsinsko uˇcenje, inteligentni agenti 1
Sadrˇzaj
1 Poglavlje 1 - uvod 4
1.1 Pojam maˇsinskog uˇcenja . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tipovi uˇcenja i osnovne odlike . . . . . . . . . . . . . . . . . . 6
1.3 Neuronske mreˇze i genetski algoritmi . . . . . . . . . . . . . . 8
2 Uˇcenje koncepta i ured¯enje od opˇsteg ka posebnom 10
2.1 Uˇcenje koncepta . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Algoritam eliminacije kandidata . . . . . . . . . . . . . . . . . 12
2.3 Induktivni bias . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Uˇcenje drvetom odluke . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Reprezentacija . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Okamova oˇstrica . . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Proˇsirenja ID3 . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Vrednovanje hipoteze . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1 Upored¯ivanje hipoteza . . . . . . . . . . . . . . . . . . 22
2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja . . . . . . 22
2.6.1 Induktivno logiˇcko programiranje . . . . . . . . . . . . 24
2.6.2 Kanonski ILP algoritam . . . . . . . . . . . . . . . . . 25
2.6.3 Indukcija kao inverzna rezolucija . . . . . . . . . . . . 28
2.7 Raˇcunska i statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . 30
2.7.1 Statistiˇcka teorija uˇcenja . . . . . . . . . . . . . . . . . 30
2.7.2 ERM princip . . . . . . . . . . . . . . . . . . . . . . . 31
2.7.3 SRM princip . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7.4 VAK (PAC) pristup . . . . . . . . . . . . . . . . . . . . 34
2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa 35
2.7.6 Optimalna granica greˇske . . . . . . . . . . . . . . . . 36
2.7.7 Graniˇcno uˇcenje . . . . . . . . . . . . . . . . . . . . . . 36
3 Statistiˇcko i Bajesovo uˇcenje 43
3.1 Bajesovo uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Veza najverovatnije hipoteze i LMS . . . . . . . . . . . 44
3.1.2 MDL princip . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.3 Bajesovi klasiﬁkatori, Gibsov algoritam . . . . . . . . . 45
3.1.4 Mreˇze uverenja . . . . . . . . . . . . . . . . . . . . . . 47
3.1.5 EM algoritam . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Statistiˇcko uˇcenje i funkcija gubitka . . . . . . . . . . . . . . . 51

2 Seminarski rad
3.3 Kombinatorna optimizacija, inteligencija roja . . . . . . . . . 53
3.4 Apriori metoda . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4 Uˇcenje instancama i metode klasiﬁkacije 58
4.1 Metod najbliˇzih suseda . . . . . . . . . . . . . . . . . . . . . . 58
4.1.1 Lokalno-teˇzinska regresija . . . . . . . . . . . . . . . . 60
4.2 Funkcije radijalne baze . . . . . . . . . . . . . . . . . . . . . . 60
4.2.1 Zakljuˇcivanje izborom sluˇcaja . . . . . . . . . . . . . . 61
4.3 Nenadgledano uˇcenje i metode klasterovanja . . . . . . . . . . 62
4.4 Vremenske instance i problem predvid¯anja . . . . . . . . . . . 66
4.5 SVM, maˇsine potpornih vektora . . . . . . . . . . . . . . . . . 68
5 Analitiˇcko uˇcenje i uˇcenje objaˇsnjenjima 71
5.1 Uˇcenje objaˇsnjenjima (EBL) . . . . . . . . . . . . . . . . . . . 71
5.2 Analitiˇcko uˇcenje i deduktivno zakljuˇcivanje . . . . . . . . . . 75
5.3 Induktivno i analitiˇcko uˇcenje . . . . . . . . . . . . . . . . . . 76
6 Uˇcenje ojaˇcavanjem 78
6.1 Pojam uˇcenja ojaˇcavanjem . . . . . . . . . . . . . . . . . . . . 78
6.2 Q-funkcija i uˇcenje . . . . . . . . . . . . . . . . . . . . . . . . 80
6.2.1 Nedeterministiˇcki sluˇcaj . . . . . . . . . . . . . . . . . 81
7 Otkrivanje znanja i traganje kroz znanje (Data Mining) 82
7.1 Pojam otkrivanja znanja . . . . . . . . . . . . . . . . . . . . . 82
7.2 Web Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8 Arhitektura i tipovi inteligentnih agenata 87
8.1 Tropistiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Histeretiˇcni agenti . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Agenti nivoa znanja . . . . . . . . . . . . . . . . . . . . . . . . 90
8.4 Agenti znanja u koracima . . . . . . . . . . . . . . . . . . . . 93
8.5 Agenti s namerom . . . . . . . . . . . . . . . . . . . . . . . . . 96
8.6 Promiˇsljeni (racionalni) agenti . . . . . . . . . . . . . . . . . . 100
9 Multi-agentski sistemi i primeri 102
9.1 Multi-agentski sistemi . . . . . . . . . . . . . . . . . . . . . . 102
9.2 JADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.2.1 FIPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2.2 FIPA-SL . . . . . . . . . . . . . . . . . . . . . . . . . . 113

9.3 Primer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
9.3.1 Modiﬁkovan model najbliˇzih suseda . . . . . . . . . . . 116
9.3.2 Razvojno okruˇzenje . . . . . . . . . . . . . . . . . . . . 118
9.3.3 Alternativna okruˇzenja . . . . . . . . . . . . . . . . . . 119
9.4 Prototip primera . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.4.1 Pokretanje . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.4.2 Opis korisniˇckog interfejsa i primer unosa . . . . . . . . 124
9.4.3 Opis postavljanja upita . . . . . . . . . . . . . . . . . . 125
9.4.4 Ostale mogu´ce dorade . . . . . . . . . . . . . . . . . . 126
9.4.5 Aplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
9.4.6 To-Do lista . . . . . . . . . . . . . . . . . . . . . . . . 127

4 Seminarski rad
1 Poglavlje 1 - uvod
Maˇsinsko uˇcenje kao oblast veˇstaˇcke inteligencije predstavlja skup para-
digmi, algoritama, teorijskih rezultata i primena iz razliˇcitih oblasti veˇstaˇcke
inteligencije i evolucionih modela (u smislu pretraˇzivanja) ali i drugih oblasti:
statistike i verovatnoće (Bajesov klasifikator, raspodele i testovi) i drugih
oblasti matematike, teorije izraˇcunljivosti (mora postojati svest o sloˇzenosti
problema i ograniˇcenjima koja proistiˇcu iz toga), teorije (adaptivnog) upravljanja,
informacione teorije, psihlogije i neurobiologije (neuronske mreˇze), filozofije,
kognitivnih i drugih nauka. Cilj je napraviti programe koji bi bili u stanju
da uˇce - zaˇsto bi raˇcunari i maˇsine uopˇste morali da budu u stanju da uˇce
? Pored mogućnosti istraˇzivanja i isprobavanja razliˇcitih modela uˇcenja kod
ljudi i ˇzivotinja u psihologiji, postoje daleko praktiˇcniji razlozi za tako neˇsto:
• neki se problemi nemogu jednostavno definisati osim primerima u toku
praktiˇcnog rada (npr. prepoznavanje glasa ili problemi vizije kod kojih
je neophodno personalizovati bazu znanja o konkretnom glasu ili licu
koji se prepoznaje radi autentifikacije ili zbog optimalnijeg rada) ili
ako okruˇzenje u kojem se koristi sistem nije poznato u toku njegovog
projektovanja
• u velikoj koliˇcini podataka se kriju neoˇcigledni entiteti i relacije med¯u
njima - problem otrivanja znanja (Data Mining): postoje metode ma-
ˇsinskog uˇcenja koje se uspeˇsno primenjuju u mnogim oblastima
• ˇcesto su koliˇcine podataka i odnosa u njima toliko velike da je ljudima
praktiˇcno nemoguće da znanje u njima u celini obuhvate, koriste ili
zapiˇsu - onda je praktiˇcnije, ako je moguće, postupno maˇsinski obuhvatiti
takvo znanje
• maˇsine i programi koji se prilogad¯avaju okruˇzenju koje se menja vremenom
(dinamiˇcki sistemi) su ˇcest i potreban zahtev u mnogim oblastima, a
za mnoge zadatke je cilj naći reˇsenje koje se fleksibilno prilagod¯ava
umesto da se koriste metode veˇstaˇcke inteligencije kojima je potreban
reinˇzenjering nakon svake suˇstinske promene
Većina danaˇsnjih praktiˇcno uspeˇsnih sistema maˇsinskog uˇcenja spada u one
koji su ,,tabula rasa” ˇsto se tiˇce nekakvog predznanja (znanja kojim uˇcenik
raspolaˇze pre nego ˇsto krene da uˇci), pored reprezentacije hipoteze i primera
- tek neke metode pokazuju potencijal u tom smislu (uˇcenje objaˇsnjenjima

i Bajesove mreˇze) i zato je neophodno dalje unapred¯ivanje sliˇcnih metoda.
Budućnost maˇsinskog uˇcenja je i u sistemima koji se ne tiˇcu samo jednog
zadatka ili tipa zadataka već predstavljaju uopˇstene i fleksibilne sisteme koji
uˇce dugo (life-long learning: samostalni agenti koji starenjem poboljˇsavaju
performanse, uˇce nove reprezentacije, itd.), kao i u razvojnim okruˇzenjima (i
moˇzda proˇsirenjima programskih jezika) koja sadrˇze neophodne mehanizme
potrebne za maˇsinsko uˇcenje. Na kraju, tek je naˇceto istraˇzivanje mogućnosti
uˇcenja prirodnim jezikom kao izvorom iskustva - najveći deo danaˇsnjeg polustruktuiranog
sadrˇzaja interneta je upravo u obliku nekakvog teksta.
1.1 Pojam maˇsinskog uˇcenja
Jedna preciznija definicija pojma maˇsinskog uˇcenja (kako se navodi u
[TM-ML]) bi bila:
Definicija 1.1 Program (maˇsina) M uˇci iz iskustva E u odnosu na klasu
zadataka T i meru performansi P (mera je definisana nad osobinom ili
skupom osobina koje takod¯e moraju biti definisane), ako se mera performansi
P programa poboljˇsava u vezi zadataka T nakon iskustva E.
U primeru prepoznavanja pisanog teksta T je prepoznavanje i klasifikovanje
reˇci ili slova u datoj slici, P je procenat ispravno prepoznatih, E je skup
obuˇcavanja koji ˇcini bazu zadatih slika slova i reˇci i njihovih klasifikacija.
Klasiˇcan je primer i Sejmurov program koji uˇci da igra dame. Mera performansi
je onda sposobnost da pobedi protivnika nakon iskustva steˇcenog u igranju
protiv samog sebe ili protivnika koji ume da igra. Objekat uˇcenja mogu biti
razliˇcite konceptualizacije sveta, odnosno izraˇcunljive strukture:
• funkcije - mnogi se problemi mogu svesti na zadatak traˇzenja preslikavanja
f nad nekim skupovima gde je hipoteza preslikavanje h (iste arnosti)
a skup obuˇcavanja S je odred¯en broj parova zadatih vrednosti domena
i f, a cilj je da se h iz neke klase fukcija H ˇsto bolje ,,poklapa” sa
f (h = f, idealno). Na primer funkcija evaluacije u teoriji igara koja
je obiˇcno predstavljena vektorom parametara (uz npr. LMS pravilo
uˇcenja)
• logiˇcki programi, frejmovi - osnovni vid konceptualizacije sveta u kojem
se traˇzi reˇsenje nekog problema je jezik PR1 ili nekog od njegovih
,,dijalekata” (npr. PROLOG) kao i druge formalizacije

6 Seminarski rad
• produkciona pravila
• konaˇcni automati, formalne gramatike
• neuronske mreˇze i drugi sistemi koji reˇsavaju probleme
1.2 Tipovi uˇcenja i osnovne odlike
Osnova podela tipova uˇcenja vezuje se za uˇcenje funkcija, ali se uoˇcava
sliˇcno i sa drugim objektima uˇcenja:
Nadgledano (supervised) - kada su zadate vrednosti funkcije u skupu obuˇcavanja
(trivijalan primer moˇze biti interpolacija ili fitovanje krive)
Nenadgledano (unsupervised) - kada nisu zadate vrednosti funkcije u skupu
obuˇcavanja (obiˇcno se svodi na neki problem klasifikovanja tj. kao da
je u prethodnom sluˇcaju vrednost zapravo klasa pripadnosti)
Hipoteza kao nauˇceno znaˇcenje konceptualizacije sveta (okruˇzenja) i njena
taˇcnost kao polazna mera performansi su zajedniˇcke većini sistema maˇsinskog
uˇcenja. Struktura jednog prototipa takvog klasiˇcnog sistema (npr. mnogi
problemi igara, klase neuronskih mreˇza, razliˇciti sistemi prepoznavanja ˇsablona
ili klasifikacije, itd.) je prikazana pomoću ˇcetiri povezane celine:
o
(igra sa tablom b)
(game history)
Kriticar
Hipoteza
Parovi
performansama
Sistem sa
Generalizator
eksperimenata
Generator
Rezultati
Novi problem
(b, V (b))

Tako je opisan, na primer, program koji igra dame sa funkcijom evaluacije V
koja ima koeficijente wi i vrednostima stanja table xi kao n-torke b domena te
funkcije kao objekta uˇcenja. Sistem sa performansama i radnom hipotezom
V daje nekakvo reˇsenje (solution trace, npr. lista poteza tj. stanja b i
ocena njihovih vrednosti) koje preuzima kritiˇcar - postoji skup obuˇcavanja
kojeg ˇcine parovi (b, Vo(b)), ali ovima kritiˇcar pridruˇzuje ,,iskustvo” nastalo
nakon svake partije tako ˇsto za med¯upoteze u partiji (pogotovu za koje nema
vrednosti u skupu obuˇcavanja) uzima ocenu vrednosti Vo(b) ← V (succ(b))
(pravilo ocene vrednosti obuke, gde je succ(b) stanje table nakon poteza
programa, tj. ono kod kojeg se oˇcekuje sledeći potez protivnika). Ovo
je pogotovu korisno ako je jedino iskustvo dostupno nastalo u partijama
odigranim protiv samog sebe (ovo je dodatno korisno kod sistema koji nemogu
da prevazid¯u problem ,,loˇseg iskustva” kada uˇce od protivnika koji ne zna
dobro da igra - Semjuelov primer). Sigurno je poznato samo da je neko
dobio ili izgubio partiju, a na ovaj naˇcin se ocenjuju i med¯uvrednosti funkcije
evaluacije, ali se i koristi i nauˇceno znanje. Pokazuje se da je ovo veoma
efikasan metod uˇcenja i u posebnim sluˇcajevima (uˇcenje sa ojaˇcavanjem)
moˇze se pokazati da obavezno teˇzi ka najboljem reˇsenju (npr. perceptron, u
sluˇcajevima kada takvo reˇsenje postoji). Generalizator je komponenta koja
ima ulogu primene steˇcenog znanja na osnovu pravila uˇcenja i njegov rezultat
je nova hipoteza - npr. LMS (Least Mean Squares) podrazumeva da najbolja
hipoteza minimizuje zbir kvadrata greˇsaka (razlike pojedinih vrednosti iz
skupa obuˇcavanja i hipoteze) E = (b,Vo(b))∈S [Vo(b) − V (b)]2
i to se realizuje,
na primer, sledećim iterativnim pravilom uˇcenja:
wi ← wi + η[Vo(b) − V (b)]xi
gde je η ∈ (0, 1) parametar brzine uˇcenja. Nova hipoteza bi trebala da
svakim ovakvim ciklusom (epohom) daje bolje performanse. Na osnovu
nje, trenutnog skupa obuˇcavanja i strategije uˇcenja generator eksperimenata
kreira novo poˇcetno stanje (prazna tabla u konkretnom sluˇcaju). U opˇstem
sluˇcaju su moguće mnoge varijacije ovakve strukture uˇcenja gde se pored
drugaˇcijeg izbora iskustva i generisanja sluˇcajeva moˇze izabrati drugaˇcija
strategija uˇcenja koja podrazumeva i drugaˇciju funkciju evaluacije (koja je
ponekad i objekat uˇcenja, objektivna funkcija) i njenu reprezentaciju, kao i
drugaˇciji algoritam uˇcenja (npr. gradijent metoda, dinamiˇcko programiranje
i drugo) tj. generalizatora. Tu se postavljaju mnoga pitanja - kako realizovati
opisane komponente optimalno, kakav skup obuˇcavanja je potreban (koliki
broj parova, kako raznovrsnost utiˇce na sposobnost generalizacije nauˇcenog

8 Seminarski rad
znanja), kako (i zaˇsto) ograniˇciti klasu raspoloˇzivih hipoteza i drugo. Takod¯e,
veoma je vaˇzan izbor ˇclanova skupa obuˇcavanja i naˇcin evaluacije performansi
uˇcenja - koliko je potrebno parova obuˇcavanja da bi se postiglo optimalno
vreme i performanse uˇcenja ? Ako je skup parova obuˇcavanja ujedno i jedini
izvor znanja za sistem koji uˇci, i jedini izvor za ocene performansi uˇcenja -
kako biti siguran da će sistem kasnije uspeˇsno raditi i sa nepoznatim parovima
van skupa obuˇcavanja (koliko je u stanju da generalizuje) ? ˇCest praktiˇcan
metod da se ovo postigne je podela skupa obuˇcavanja na n particija (n folds,
gde je n obiˇcno izmed¯u 3 i 10), gde se u n iteracija jedna particija koristi
za ocenu performansi a ostale za uˇcenje. O nekim drugim metodima će
viˇse detalja biti u narednim poglavljima. Cilj daljeg teksta pre svega je
pregled razliˇcitih metoda uˇcenja bez posebnog razmatranja detalja osim kao
ilustracije naˇcina primene i pregleda sadrˇzaja.
1.3 Neuronske mreˇze i genetski algoritmi
Neuronske mreˇze i genetski algoritmi (evoluciono programiranje) kao pa-
radigme Soft Computing oblasti prirodno podrˇzavaju mnoge aspekte maˇsin-
skog uˇcenja. Izmed¯u ostalog, predstavljaju dobar primer sistema u kome
je primenjeno maˇsinsko uˇcenje. Ako se pod¯e od klase NM sa povratnim
propagiranjem (kao i nekih drugih), kod uopˇstenog prototipa sistema maˇsinskog
uˇcenja mogu se prepoznati onda svi njegovi elementi - zadaci koje sistem mora
da vrˇsi, performanse sistema koje se mere (recimo, numeriˇcka taˇcnost NM
ili efikasnost klasifikacije, LMS greˇska), kao i iskustvo i skupovi obuˇcavanja.
Strategije obuˇcavanja i struktura mogu biti i veoma drugaˇcije od opisanog
primera i prototipa ˇsto je obiˇcno posledica specifiˇcnog domena i problema
koji se reˇsava ovakvim sistemima. NM pokazuju osobine induktivnih sistema
maˇsinskog uˇcenja - imaju sposobnost generalizacije na osnovu datih primera.
Genetski algoritmi u opˇstem sluˇcaju se mogu posmatrati kao algoritmi
maˇsinskog uˇcenja koji uˇce (odnosno traˇze) hipotezu gde je prostor hipoteza
uslovljen specifiˇcnim prostorom pretrage konkretnog GA sa svojim zadatkom
- postavlja se onda pitanje: kakvu ulogu ima iskustvo kod GA ? Objektivna
funkcija (,,fitnes populacije”) se moˇze zadati ili menjati primerima, i tada
imamo iskustvo i uˇcenje - na primer, GA koji generiˇse program (ili neki drugi
izraˇcunljivi formalizam) sa iskustvom zadatim osobinama. Tada se nekim
metrikama kao ˇsto su taˇcnost rezultata na osnovu zadatih ulaza (instanci),
duˇzinom koda ili efikasnoˇsću definiˇse objektivna funkcija.

Navedeni su samo neki od mnogih primera primene NM i GA u oblastima
maˇsinskog uˇcenja bez posebnih detalja u vezi istih.
Prvih ˇsest poglavlja ovog rada se odnose na maˇsinsko uˇcenje i oslanjaju
se najve´cim delom na knjigu [TM-ML], dok se poslednja dva odnose na
inteligentne agente gde se koriste prikazi arhitkture i tipova iz [GN], i primeri
iz [TIS] (kao i za sedmo poglavlje o otkrivanju znanja).

10 Seminarski rad
2 Uˇcenje koncepta i ured¯enje od opˇsteg ka
posebnom
Jedno od centralnih pitanja maˇsinskog uˇcenja je otkrivanje opˇsteg znanja
ili funkcija na osnovu datih specifiˇcnih primera (u skupu obuˇcavanja). Ako
se koncept u smislu deklarativnog znanja moˇze opisati pozitivnim primerima
(ˇsta on jeste) ili negativnim primerima (ˇsta on nije), onda se uˇcenje koncepta
moˇze formulisati kao pretraˇzivanje prostora (potencijalnih) hipoteza (verzija,
kasnije) sa ciljem pronalaˇzenja hipoteze koja najbolje odgovara datim primerima.
Ovo se u mnogim sluˇcajevima moˇze pojednostavniti koriˇsćenjem strukture
tog prostora - ured¯enjem med¯u hipotezama od opˇsteg ka posebnom. Ovo je
ujedno i vid primene induktivnog zakljuˇcivanja i uˇcenja - ˇcesto se oˇcekuje
od sistema koji uˇci da bude u stanju da uopˇstava, da zakljuˇci neˇsto ako je
potrebno već na osnovu jednog primera ili da sa naknadno dodatim novim
primerima promeni svoje znanje.
2.1 Uˇcenje koncepta
Metoda uˇcenja koncepta (ili pretraˇzivanja prostora hipoteza) je metoda
koja je u osnovnom obliku korisna i kao pojaˇsnjenje problema induktivnog
uˇcenja i kao veoma praktiˇcna metoda u nekim poboljˇsanim varijantama.
Moˇze se posmatrati i kao traˇzenje Bulove funkcije na osnovu datih primera
(svi mogući atributi sa njihovim vrednostima su argumenti funkcije koja ima
dve vrednosti, ˇsto je zapravo relacija), pa se umesto algebarske strukture i
njenog modela pod konceptom ovde podrazumeva Bulova funkcija:
Definicija 2.1 Koncept c je Bulova funkcija nad skupom instanci X, tj.
c : X → {0, 1}. Intanca x pripada konceptu c akko je c(x) = 1.
Instance su zadati vektori konkretnih vrednosti atributa i vrednosti te funkcije
(koncepta), a hipoteza h ∈ H je Bulova funkcija koja aproksimira ciljni
koncept. Skup (prostor) H hipoteza je zapisan kao vektor uslova (constraint)
za te atribute, gde svaki atribut moˇze imati: konkretnu vrednost u hipotezi,
proizvoljnu vrednost (ˇsto se prikazuje jednostavnosti radi sa ,,?”kao nekakav
asterisk) ili nijednu (prikazuje se, opet radi jednostavnosti, sa ∅). Instanca
x ∈ D iz skupa primera D ⊆ X moˇze tako da zadovolji hipotezu (pozitivna,
c(x) = 1) ili da je ne zadovolji (negativna, c(x) = 0). Najopˇstija hipoteza je

onda oblika (?, ?, ..., ?), a najposebnija je oblika (∅, ∅, ..., ∅) (zapravo, dovoljno
je da bilo koji atribut ima ∅ kao ograniˇcenje da bi sve instance bile odbaˇcene
- veliki broj hipoteza osim ovakvih je semantiˇcki ekvivalentan). Polazna
pretpostavka induktivnog uˇcenja je da je bilo koja hipoteza koju zadovoljavaju
zadati primeri (dovoljno veliki broj takvih) u stanju da dobro aproksimira
ciljni koncept svim predstavljen primerima (induktivna pretpostavka). Za
hipotezu hj se kaˇze da je opˇstija ili jednaka hk akko (∀x ∈ X)hk(x) = 1 ⇒
hj(x) = 1, i to se zapisuje kao hj ≥g hk. Stroga opˇstost se definiˇse sa:
hj >g hk akko hj ≥g hk ∧ hk g hj, a tako se mogu definisati i odgovarajuće
relacije posebnosti. Ovo su relacije parcijalnog ured¯enja (za svaki lanac vaˇzi
da postoji donja i gornja granica).
Algoritam (Find-S) koji nalazi maksimalno specifiˇcnu (posebnu) hipotezu
na osnovu datih primera:
1. h ← (∅, ∅, ..., ∅)
2. za svaku pozitivnu instancu x,
za svaki uslov ai u h:
ako ai nije zadovoljen sa x onda’
zameni ai sa sledećim opˇstijim uslovom koji je
zadovoljen sa x (vrednost ili ,,?”)
3. rezultat je hipoteza h
(preuzet primer iz [TM-ML])

12 Seminarski rad
Algoritam u osnovi dobro radi sa prostorom hipoteza koje se sastoje od
konjunkcija uslova (dosad opisane, proste hipoteze) i ako nema pogreˇsnih
primera. Za druge prostore je potrebno dodati backtracking da bi se pokrili
i drugi lanci sa svojim maksimalno specifiˇcnim hipotezama.
2.2 Algoritam eliminacije kandidata
Ovaj algoritam (Mitchell, prva primena 1979.) pristupa problemu uˇcenja
koncepta tako ˇsto traˇzi skup svih hipoteza konzistentnih sa datim primerima
za razliku od prethodnog koji nalazi jedan (i ostaje pitanje da li je to jedini
takav i ispravan). Ovo je poznato i kao metod (i problem) formacije koncepta.
Hipoteza h je konzistentna (saglasna) sa skupom primera D (zapisano kao
h ∼ D) akko h(x) = c(x) za svaki primer (x, c(x)) ∈ D. Prostor verzija
(mogućnosti) V SH,D je podskup prostora hipoteza H konzistentnih sa primerima
u D: V SH,D = {h ∈ H| (∀(x, c(x)) ∈ D)h(x) = c(x)}. Program koji uˇci
(uˇcenik L) je konzistentan ako daje konzistentne hipoteze. Uopˇstena granica
(ili granica uopˇstenja, general boundary) je skup maksimalno uopˇstenih ˇclanova
H konzistentnih sa D, a specifiˇcna granica (ili granica posebnosti, specific
boundary) je skup minimalno uopˇstenih hipoteza iz H konzistentnih sa D.
Algoritam listaj-pa-eliminiˇsi (list-then-eliminate) uzima prostor verzija kao
spisak najpre svih u H a onda eliminiˇse sve koji nisu konzistentni sa svaki
primerom u D redom. Takav algoritam ipak nije pogodan za dovoljno veliki
prostoh hipoteza (koji nemora biti konaˇcan uopˇste).
Definicija 2.2 Opˇsta granica GH,D, u odnosu na skup dopustivih hipoteza
H i skup primera za uˇcenje D, je skup najopˇstijih hipoteza iz H saglasnih sa
primerima iz D, odnosno:
G = {g ∈ H| g ∼ D ∧ (¬∃g′
∈ H)[(g′
>g g) ∧ g′
∼ D]}
Definicija 2.3 Specifiˇcna granica SH,D, u odnosu na skup dopustivih hipoteza
H i skup primera za uˇcenje D, je skup najmanje opˇstih hipoteza iz H saglasnih
sa primerima iz D, odnosno:
S = {s ∈ H| s ∼ D ∧ (¬∃s′
∈ H)[(s >g s′
) ∧ s′
∼ D]}
Koristeći kompaktniji prikaz prostora verzija granicama G i S algoritam
eliminacije kandidata to reˇsava. Teorema reprezentacije prostora verzija

pokazuje da za svaki skup instanci X, hipoteza H, ciljni koncept c i skup
primera D za koje je G i S deﬁnisan vaˇzi:
V SH,D = {h ∈ H : (∃s ∈ S)(∃g ∈ G) g ≥g h ≥g s}
Algoritam eliminacije kandidata je onda:
1. G ← (?, ?, ..., ?) (ili inicijalizacija uopˇstenom granicom)
S ← (∅, ∅, ..., ∅) (ili inicijalizacija speciﬁˇcnom granicom)
2. za svaki primer d iz skupa obuˇcavanja:
• ako je d pozitivan primer:
– izuzmi iz G sve hipoteze koje nisu konzistentne sa d
– za svaku hipotezu s ∈ S koja nije konzistentna sa d:
∗ izuzmi s iz S
∗ dodaj u S sva minimalna uopˇstenja h od s takva da je:
h konzistentno sa d, i neka hipoteza
iz G je opˇstija od h
∗ izuzmi iz S sve hipoteze koje su opˇstije od S
• ako je d negativan primer:
– izuzmi iz S sve hipoteze koje nisu konzistentne sa d
– za svaku hipotezu g ∈ G koja nije konzistentna sa d:
∗ izuzmi g iz G
∗ dodaj u G sva minimalne specijalizacije h od g td. je:
h konzistentno sa d, i neka hipoteza
iz S je posebnija od h
∗ izuzmi iz G sve hipoteze koje su manje opˇste od G
3. rezultat je ograniˇcen sa S i G.
Primer (uzeto iz [TM-ML], kao i nekoliko joˇs primera u daljem tekstu):

14 Seminarski rad
Algoritam eliminacije kandidata konvergira ka reˇsenju ako postoji ciljna hi-
poteza u prostoru hipoteza koja taˇcno opisuje ciljni koncept i ako nema
greˇsaka u primerima - idealno dobija se prostor verzija koji sadrˇzi taˇcno jednu
hipotezu. Ako postoji greˇska u primerima ili ako prostor hipoteza ne sadrˇzi
nijednu hipotezu koja opisuje ciljni koncept dobija se prazan prostor verzija.
Brzina konvergiranja je idealno najve´ca kada se biraju naredni primeri kojima
se broj hipoteza u prostoru verzija koji je konzistentan prepolovi - tada bi
bio dovoljan log2 |V S| primera (eksperimenata). Ako nije do kraja nauˇcen,
pozitivan primer se slaˇze sa svima u S, negativan ni sa jednim u G - ali
ne menja prostor verzija. Ako je broj pozitivnih ili negativnih ve´ci od
drugih u prostoru verzija nedovoljnog nauˇcenog koncepta i ako je prihvatljiva

pretpostavka da su sve hipoteze podjednako verovatne u H, onda se uzima
da je proporcionalno verovatno instanca pozitivna, odnosno negativna.
2.3 Induktivni bias
Ako se prostor hipoteza izabere tako mu ne pripada hipoteza koja pokriva
ciljni koncept (npr. skup konjunktivnih hipoteza, a ciljni koncept je disjunkcija
koja nije pokrivena) onda su pretpostavke o klasi hipoteza prejake i prostor
hipoteza nije dovoljno izraˇzajan dabi se dobio rezultat. Ako prostor hipoteza
nije dovoljno ili nije uopˇste uslovljen tj. sadrˇzi sve raspoloˇzive hipoteze (sve
koncepte koji se mogu nauˇciti - sve podskupove domena X funkcije koja
se uˇci), algoritam nije u stanju viˇse da generalizuje jer mu upravo bias
prostora hipoteza H - tj. uslovi kojima se definiˇse njegova struktura, ili
konceptualni bias - daje za to potrebno ,,znanje”. Bez konceptualnog biasa
ili nekog drugog uslova se algoritam svodi na skupljanje pojedinih pozitvnih
i negativnih primera (,,rote-learner” - S je uvek onda disjunkcija pozitivnih
primera a G negacija disjunkcije negativnih).
Ako je Dc = {(x, c(x))} skup primera ciljnog koncepta c, algoritam L koji
uˇci nakon obuˇcavanja klasifikuje novu instancu xi bilo pozitivno ili negativno,
ˇsto se zapisuje kao L(xi, Dc). Ovo je induktivno zakljuˇcivanje (xi ∧ Dc) ≻
L(xi, Dc) (klasifikacija se zakljuˇcuje induktivno na osnovu Dc i xi). Pokazuje
se da je induktivni (ili logiˇcki) bias B algoritma L skup dodatnih pretpostavki
dovoljnih da se deduktivnim zakljuˇcivanjem dod¯e do istog rezultata: (B ∧
Dc ∧xi) ⊢ L(xi, Dc). Za algoritam eliminisanja kandidata to je B = {c ∈ H}
(Find-S ima joˇs jaˇci bias). Na taj naˇcin se svakom induktivnom sistemu
zakljuˇcivanja pridruˇzuje odgovarajući ekvivalentan deduktivni. Metod formacije
koncepta je tako potpupno odred¯en kao ˇcetvorka L = (P, N, H, B) - P je skup
pozitivnih primera, N je skup negativnih primera, H je konceptualni bias, a
B je logiˇcki bias. Poseban izazov predstavljaju algoritmi koji uˇce i otkrivaju
sopstveni bias uporedo.
2.4 Uˇcenje drvetom odluke
Metod sliˇcan prethodno opisanom uˇcenju koncepta koji koristi sistem i
algoritam ID3 (kao i ASSISTANT i C4.5) koji generiˇse pravilo, odnosno drvo
klasifikacije za dati koncept sa svojim atributima i njihovim vrednostima.
Njegov induktivni bias je prednost malih drveća nad većim, a u stanju je

16 Seminarski rad
da klasifikuje i disjunktivne koncepte. Ovakav metod moˇze da bude daleko
efikasniji od drugih sistema za induktivno uˇcenje, ali i neprimenjiv u nekim
sloˇzenim domenima. Postoje varijante (bagging, random forest) koje uporedu
razvijaju viˇse takvih drveta.
2.4.1 Reprezentacija
Uˇcenje drvetom odluke predstavlja vid aproksimacije funkcije (diskretne
vrednosti) atributa i njihovih diskretnih vrednosti. Drvo odluke klasifikuje
instancu prihvatajući atribute od korena do lista jedne grane, a moˇze se
posmatrati i kao spisak ako-onda pravila (svaka grana predstavlja konjunkciju
uslova nad atributima, a celo drvo disjunkciju). Primer (Quinlan, 1986, za
ID3) drveta za PlayTennis koncept:
(primer takod¯e preuzet iz [TM-ML])
koji predstavlja izraz:
(Outlook = Sunny) ∧ (Humidity = Normal)
∨ (Outlook = Overcast)
∨ (Outlook = Rain ∧ Wind = Weak)
Kao ˇsto se vidi, instance su predstavljene listama parova atribut-vrednost,
ciljna funkcija u primeru je Bulova ali se moˇze proˇsiriti na diskretnu ili ˇcak
realnu funkciju. Instance primera mogu sadrˇzati greˇske (bilo u vrednosti
atributa ili klasifikacije) ili nedefinisane vrednosti atributa. Glavno pitanje je
od kojeg atributa krenuti s klasifikacijom - cilj je izabrati najkorisniji atribut

(sliˇcno biranju instance koja polovi prostor verzija u problemu formacije
koncepta), i to se ˇcini ocenjivanjem statistiˇcke osobine informacione dobiti
(snage, information gain) koja se definiˇse entropijom skupa S:
E(S) ≡ −p⊕ log2 p⊕ − p⊖ log2 p⊖
gde je p⊕ proporcionalan odnos pozitivnih instanci u S, a p⊖ odnos negativnih
u S (ima vrednost nula ako svi primeri pripadaju istoj klasi). Ako ciljni
atribut u opˇstem sluˇcaju ima c diskretnih vrednosti onda je E(S) ≡ c
i=1 −pi log2 pi.
Ako je V alues(A) skup vrednosti atributa A i Sv = {s ∈ S : A(s) = v}
(skup instanci gde A ima vrednost v) onda je:
Gain(S, A) ≡ E(S) −
v∈V alues(A)
|Sv|
|S|
E(Sv)
Verzija ID3 algoritma za Bulove funkcije (CLS algoritam, Hunt, 1966):
ID3(S, c, atributi)
1. kreiraj ˇcvor Koren stabla
2. ako su svi primeri u S pozitivni,
vrati Koren sa oznakom=+
3. ako su svi primeri u S negativni,
vrati Koren sa oznakom=−
4. ako je atributi lista atributa koje treba testirati prazna,
vrati Koren sa oznakom=najˇceˇsća vrednost u primerima
5. inaˇce:
(a) A ← iz atributi liste atribut koji najbolje klasifikuje prema Gain(S, A),
Koren ← A
(b) za svaku vrednost vi atributa A:
i. dodaj novu granu ispod Koren za uslov A = vi
ii. ako je Svi
prazan
• onda: ispod dodaj list sa oznakom=najˇceˇsća vrednost u
primerima

18 Seminarski rad
• inaˇce: dodaj ispod poddrvo ID3(Svi
, c, atributi − A)
6. vrati Koren
Ovakav ID3 algoritam se lako moˇze uopˇstiti za funkciju diskretnih vrednosti
(oznaka), i koristi se obiˇcno prozor koji ˇcini podskup skupa primera (zadate
veliˇcine) nad kojim se primeni ovakav algoritam, a onda se u prozor unesu
svi izuzeci iz skupa primera koji ne odgovaraju klasifikaciji i ako ih ima
ponovi se postupak. Time se prevazilazi ograniˇcenje veliˇcine skupa primera.
Induktivni bias ID3 algoritma koji proistiˇce iz redosleda i prostora pretrage
(bias preferencije ili pretrage) je zapravo taj da preferira kraće drveće sa
ˇcvorovima veće informacione snage bliˇze korenu, dok konceptualnog biasa
nema (sve konaˇcne diskretne funkcije dolaze u obzir jer mogu predstaviti
nekim drvetom odluke) - naspram metode formacije koncepta gde mora da
postoji konceptualni bias i gde je induktivni posledica takve reprezentacije
hipoteze (bias restrikcije ili jeziˇcki bias), a ne redosleda pretrage. Zato je
ID3 nema problem konceptualnog biasa, i poˇsto koristi statistiˇcke ocene svih
primera daleko je manje osetljiv na greˇske nego formacija koncepta, a lako se
moˇze omogućiti i da prihvata hipoteze koje ne odgovaraju primerima sasvim
taˇcno. Neki sistemi mogu kombinovati biase restrikcije i pretrage, kao kod
primera uˇcenja funkcije evaluacije igre i LMS uˇcenja.
2.4.2 Okamova oˇstrica
Da li je ID3 bias opravdan ? Mnogi filozofi su vekovima razmatrali pitanje
o izboru hipoteze (i dalje raspravljaju) - Okam (William of Occam, 1320) je
to formulisao otprilike ovako: bolja je jednostavnija hipoteza koja odgovara
podacima (eksperimentima, primerima). Fiziˇcari vole ovu hipotezu - ˇcisto
kombinatornim argumentima moˇze se pokazati da kraćih hipoteza ima daleko
manje nego duˇzih - ali postoje i kritike: postoje i druge malobrojne klase
hipoteza (veˇstaˇcke), a rezultat zavisi i od interne reprezentacije hipoteze
(obiˇcno se onda koristi evolucioni argument da biva izabrana interpretacija
koja ovaj kriterijum ˇcini uspeˇsnijim).
2.4.3 Proˇsirenja ID3
Za hipotezu h se kaˇze da overfituje (overfitting) primere ako ima manju
greˇsku nego neka druga hipoteza h′
nad primerima, ali veću nad ukupnom
raspodelom instanci (van skupa primera). Problem nastaje kada postoje

nasumiˇcne greˇske u podacima kada nakon odred¯enog broj primera poˇcinje
da opada ukupna taˇcnost klasifikacije iako raste na skupu primera. Jedan
naˇcin je da se zaustavi rast drveta pre idealne klasifikacije primera, drugi
je da se nakon klasifikacije potkreˇse drvo (post-pruning). Kriterijumi u oba
sluˇcaja mogu biti:
• obuka i validacija - izdvajanje iz skupa primera jedan podskup na kome
se testira taˇcnost izvan skupa primera
• χ-test ili neki drugi statistiˇcki test procene performanse nad celom
raspodelom instanci (Quinlan, 1986)
• princip minimalne duˇzine opisa (Minimum Description Length - MDL,
Quinlan i Rivest 1989, Mehta 1995) - kodiranjem drveta i primera na
neki naˇcin dobija se mera sloˇzenosti tj. veliˇcina kodiranja - kada je
veliˇcina minimizovana prekida se rast drveta odluke
Kresanje se vrˇsi zamenom poddrveta listom sa najˇceˇsćom (proseˇcnom) klasifikacijom
sve dok se time ne dobija manje performantno drvo odluke. ID3 drˇzi samo
jednu hipotezu tokom pretrage za razliku od formacije koncepta, u osnovnom
obliku nema backtracking i zato je moguće da nad¯e reˇsenje koje nije globalno
najbolje iako je obiˇcno performantniji od prethodnog. Ovo se takod¯e reˇsava
potkresivanjem.
Postoji tehnika potkresivanja pravila (rule post-prunning, Quinlan 1993)
u sistemu C4.5 u sledećim koracima:
1. generiˇsi drvo uz moguće overfitovanje
2. pretoˇci drvo odluke u niz pravila (za svaku granu, redom)
3. izbaci iz pravila (generalizuj) preduslove ako se time ne naruˇsavaju
performanse
4. sortiraj dobijena pravila prema ocenjenoj taˇcnosti i razmatraj ih tim
redosledom tokom klasifikacije instanci
Sliˇcno ovome, moguće je drvo odluˇcivanja pretoˇciti u optimizovani graf (odluˇcivanja)
kojim se pre svega eliminiˇse redundantno poddrveće i time smanjuje nepotreban
broj primera.

20 Seminarski rad
Ograniˇcenje da atributi moraju biti diskretne vrednosti se moˇze prevazići
dodelom karakteristiˇcnih intervala kontinualnim vrednostima, gde se za svaku
diskretnu vrednost ciljnog atributa nalazi prag ocenom najveće informacione
snage primera sortiranih po atributu koji se ocenjuje (Fayyad 1991).
Postoji problem kod atributa kao ˇsto je datum - iako nosi veliku informacionu
snagu, obiˇcno razdvaja primere u male grupe bez nekog velikog uticaja na
vrednost ciljnog atributa. Jedno reˇsenje je da se koristi alternativna ocena
atributa - npr. odnos snage (gain ratio, Quinlan 1986) koji je osetljiv na
uniformno deljenje primera:
SplitInformation(S, A) ≡ −
c
i=1
|Si|
|S|
log2
|Si
|S|
GainRation(S, A) ≡
Gain(S, A)
SplitInformation(S, A)
Svaki atribut moˇze prema nekim kriterijumima imati dodatno cenu Cost(A)
gde je cilj da se atributi sa većom cenom koriste prilikom pouzdane klasifikacije
(da bi se povećala zahtevana taˇcnost). Tada se koristi umesto informacione
snage Gain2
(S,A)
Cost(A)
ili 2Gain(S,A)−1
(Cost(A)+1)w gde je w ∈ [0, 1] parametar koji ocenjuje znaˇcaj
cene u odnosu na informacionu snagu (Tan, Schlimmer 1990-1993, Nunez
1991).
Ako ne postoji vrednost nekog atributa A u ˇcvoru u kome treba oceni
informacionu snagu moˇze se koristiti:
• najˇceˇsća vrednost primera u tom ˇcvoru
• najˇceˇsća vrednost primera sa vrednoˇsću ciljnog atributa datog primera
• umesto najˇceˇsće vrednosti moˇze se koristiti vrednost s najvećom procenjenom
verovatnoćom primera u datom ˇcvoru (Quinlan 1993)
2.5 Vrednovanje hipoteze
Empirijsko vrednovanje taˇcnosti hipoteze je suˇstinski znaˇcajno za maˇsinsko
uˇcenje. Tri pitanja se postavljaju:

• ako je data taˇcnost nad skupom primera koji predstavlja manji podskup
svih mogućih instanci, koliko je time dobro procenjena taˇcnost nad
dodatnim primerima tj. ostalim instancama ?
• ako neka hipoteza daje bolje performanse od neke druge u skupu primera,
koliko je verovatno da je bolja uopˇste (izvan skupa primera) ?
• kako na najbolji naˇcin iskoristiti skup primera da bi se nauˇcila hipoteza
i procenila njena taˇcnost ?
Izbor instanci u skupu primera (odnosno njihova raspodela u odnosu na
ukupnu populaciju u statistiˇckom smislu) utiˇce na procenu taˇcnosti u odnosu
na ostatak instanci - bias u izboru stvara bias u proceni. ˇCak i kada nema
biasa u izboru, postoji disperzija (varijansa) u proceni koja rasta s manjim
brojem elemenata skupa primera. Ako se izbor instanci (bez vrednosti ciljnog
atributa) posmatra kao sluˇcjna promenljiva sa nekom zadatom raspodelom
nezavisno od izbora ranijih primera ili od hipoteze, onda se postavljaju
pitanja: koja je procena taˇcnosti hipoteze h za buduće instance nad tom
raspodelom, i kolika je greˇska takve procene ?
Greˇska uzorkovanja hipoteze h za ciljnu funkciju f i skup primera S je
eS(h) ≡ 1
n x∈S δ(f(x), h(x)) gde je δ(f(x), h(x)) = 1 samo ako je f(x) =
h(x), inaˇce je δ(f(x), h(x)) = 0. Prava greˇska da će hipoteza pogreˇsno
klasifikovati novu instancu nad datom distribucijom je: eD ≡ PX:D[f(X) =
h(X)]. Tada, ako je:
• skup primera S prema raspodeli D ima n elemenata
• n eS(h)[1 − eS(h)] ≥ 5 (npr. n ≥ 30 ako eS(h) nije preblizu 0 ili 1 -
posledica centralne teoreme)
• hipoteza h napravi r greˇsaka tj. eS(h) = r/n
bez drugih informacija vaˇzi da je eS(h) = eD(h) i sa verovatnoćom N (N ·
100%) eD(h) leˇzi u intervalu poverenja eS(h)±zN
eS(h)[1−eS(h)]
n
(zN je vrednost
argumenta gustine normalne (Gausove) raspodele koja odred¯uje dvostrani
interval poverenja koji sadrˇzi N · 100% vrednosti tj. sa verovatnoćom N
sadrˇzi vrednosti iz te raspodele). Greˇska eD(h) poˇstuje binomnu raspodelu
(ako se posmatra verovatnoća da se r puta napravi pogreˇsna klasifikacija svaki
put s verovatnoćom p tako da je eS(h) = r/n), pa je eS(h) ocena (estimator)

22 Seminarski rad
za eD(h) = p. Ocena je dobra ako nema bias tj. E[eS(h)] − eD(h) = 0 ˇsto i
jeste taˇcno. Onda je σeS(h) = σr
n
= p(1−p)
n
tj. σeS(h) ≈ eS(h)(1−eS(h))
n
.
2.5.1 Upored¯ivanje hipoteza
Ako je d = eS1 (h1) − eS2 (h2) treba oceniti d = eD(h1) − eD(h2). Poˇsto
je σ2
bd
≈
eS1
(h1)(1−eS1
(h1))
n1
+
eS2
(h2)(1−eS2
(h2))
n2
onda je d ocena za d sa N · 100%
intervalom poverenja d ± zN σbd.
Sliˇcno, upotrebom t-raspodele (Student) mogu se upored¯ivate performanse
dva razliˇcita algoritma uˇcenja ([TM-ML]).
2.6 Uˇcenje pravila i algoritmi sekvencijalnog pokrivanja
Jedna od reprezentacija funkcije kao formalizma koji predstavlja objekat
uˇcenja - kao ˇsto su to Bulove funkcija, drvo odluˇcivanja, neuronska mreˇza i
drugo - moˇze biti i kod programa. Moˇze se pokazati da su neki formalizmi
ekvivalentni u smislu izraˇzajnosti (znanje prikazano na jedan naˇcin moˇze
se prikazati i na drugi naˇcin), na primer iskazni raˇcun, drveta odluˇcivanja
i Bulove funkcije. Med¯utim, PR1 je izraˇzajniji od prethodnih - suˇstinska
razlika je da moˇze sadrˇzati promenljive, a takve su specijalno Hornove klauzule
(prvog reda) ˇcije konjunkcije predstavljaju osnovni zapis mnogih logiˇckih
jezika med¯u kojima je i PROLOG programski jezik. Uˇcenje pravila oblika
ako-onda je u mnogo ˇcemu praktiˇcno korisno, ali pre svega je intuitivno bliˇze
ljudskom zapisu znanja.
Osnovna klasa algoritama za uˇcenje ovakvih pravila su algoritmi sekvencijalnog
pokrivanja koji otkrivaju pravilo po pravilo u iteracijama, i svakim otkrivenim
pravilom se uklanjaju primeri koji su njime pokriveni. Za to je potrebna
procedura nauˇci-jedno-pravilo koja otkriva jedno pravilo za dati skup pozitvnih
i negativnih primera, gde otkriveno pravilo idealno pokriva samo pozitivne
primere (pokriva ih ako se shvati kao relacija koja je tada ispunjena), ali
se neki put moˇze dozvoliti da prihvati i ˇsto manji broj negativnih primera.
Iteracije se vrˇse dokle god ima pozitivnih primera ili sve dok se ne pred¯e zadati
prag performansi pravila - dobijeni skup pravila se moˇze onda i sortirati
prema performansama (c je ciljni atribut, A skup atributa, E skup primera):
• L ← {}

• Pravilo ← nauˇci-jedno-pravilo(c,A,E)
• dokle Performanse(Pravilo,E) > prag:
– L ← L + Pravilo
– E ← E − { primeri koji su ispravno klasifikovani pravilom }
– Pravilo ← nauˇci-jedno-pravilo(c,A,E)
• sortiraj dobijena pravila u L prema performansama
Poˇsto je ovakvo pretraˇzivanje prostora hipoteza ,,gramzivo” (greedy - nema
backtracking), nije garantovano da će biti pronad¯ena optimalna hipoteza.
Jedan praktiˇcan naˇcin da se realizuje procedura nauˇci-jedno-pravilo je pretraˇzivanje
sliˇcno ID3 od opˇsteg ka posebnom, ali usmereno uvek granom koja najviˇse
obećava - najveće performanse, npr. da je entropija pokrivenih primera
najmanja ili da je najveća frekvencija uspeˇsno klasifikovanih u odnosu na
pokrivene primere (umesto da gradi poddrvo za sve vrednosti izabranog
atributa). Da bi se smanjio rizik gramzivog pretraˇzivanja pamti se k najboljih
kandidata pri svakom koraku umesto jednog, i to se zove zrakasto pretraˇzivanje
(beam search) - ovakav algoitam koristi CN2 (Clark, Niblett, 1989):
nauˇci-jedno-pravilo(c,A,E,k)
• Najbolja-hipoteza ← ∅ /* najopˇstija hipoteza */
• skup-kandidata ← { Najbolja-hipoteza }
• dokle god skup-kandidata nije prazan:
1. Generiˇsi sledeću specifiˇcniju hipotezu:
(a) svi-uslovi ← { a=v }
/* ∀ a ∈ A, ∀ v koje se pojavljuje u E za atribut a */
(b) novi-kandidati ←
za svaku h ∈ skup-kandidata:
za svaki u ∈ svi-uslovi:
kreiraj specijalizaciju h dodavanjem u
(c) izbaci sve hipoteze iz skupa novi-kandidati koje su ponovljene,
nekonzistentne, ili nisu maksimalno specifiˇcne
2. Najbolja-hipoteza se menja:

24 Seminarski rad
– za svaku h ∈ novi-kandidati:
ako Performanse(h,E,c) > Performanse(Najbolja-hipoteza,E,c)
onda Najbolja-hipoteza ← h
3. skup-kandidata se menja:
– skup-kandidata ← k najboljih iz skupa novi-kandidati prema
performansama
• vrati pravilo oblika:
”Ako Najbolja-hipoteza onda predvid¯anje”
gde je predvid¯anje najfrekventnija vrednost ciljnog atributa c med¯u
primerima E koji odgovaraju hipotezi Najbolja-hipoteza
Varijantu ovakvog algoritma koristi AQ (Michalski, 1986).
2.6.1 Induktivno logiˇcko programiranje
Maˇsinsko uˇcenje koje koristi logiˇcke programe u PR1 kao objekte uˇcenja
je ILP (Lavraˇc, Dˇzeroski, 1994). Tako se npr. moˇze realizovati ekskluzivno
ili (kao ekvivalentan zapis odgovaraju´ce Bulove funkcije):
XOR(x,y) :- True(x),¬ True(y)
XOR(x,y) :- ¬ True(x), True(y)
Za ovakav program se kaˇze da pokriva instance (ulazne vrednosti, argumente)
x i y za koje je XOR(x,y)=⊤ tj. taˇcno (inaˇce ima vrednost ⊥). Program π1 je
potreban (prikazano u primeru ispod) ako pokriva raˇcunanjem samo pozitivne
instance (ali ih nemora sve pokrivati). Program π2 koji pokriva sve pozitivne
primere je dovoljan, ˇsto znaˇci da moˇze da pokrije i neke negativne instance
(kao pozitivne). U sluˇcaju da su dopuˇstene greˇske u primerima mogu´ce je da
se desi da su pokrivene i neke negativne instance, a da su izostavljene neke
pozitivne. U suprotnom, poˇzeljan je program koji je i potreban i dovoljan.

(definicije i ilustracija preuzete iz [intro])
Sliˇcno kao kod prostora verzija kod uˇcenja koncepta, program koji je
dovoljan ali nije potreban se moˇze specijalizacijom uˇciniti i potrebnim - ili
obratno, ako je potreban ali nije dovoljan, moˇze se generalizacijom onda
uˇciniti i dovoljnim. Najopˇstiji program je oblika [ρ :- ], dok je najposebniji
oblika [ρ :- ⊥]. Naˇcelno su moguća dva metoda - jedan koji polazi od
najopˇstijeg programa, i drugi koji polazi od najposebnijeg. Ovde će se
obrazloˇziti metoda koja polazi od [ρ :- ] i koja ga specijalizuje sve dok
ne postane potreban, ali se moˇze desiti da nije onda dovoljan (ˇsto se onda
iterativno nadoknad¯uje takvom generalizacijom da se ˇcuva potrebnost).
2.6.2 Kanonski ILP algoritam
Osnovni operatori ILP algoritma su pomenuta specijalizacija i generalizacija
(pored pokrivanja primera).
Postoje tri naˇcina na koji se moˇze logiˇcki program generalizovati:
1. Zamenom nekih terma u nekoj klauzuli programa promenljivama (suprotno
od postupka supstitucije)
2. Uklanjanjem literala iz tela neke klauzule programa

26 Seminarski rad
3. Dodavanjem klauzule programu
Obratno i dualno postoje tri naˇcina da se logiˇcki program specijalizuje:
1. Zamenom nekih promenljivih u nekoj klauzuli programa termima (supstitucija)
2. Dodavanjem literala telu neke klauzule programa
3. Uklanjanjem klauzule iz programa
U ovom kanonskom ILP algoritmu uˇcenja će se koristiti metod dodavanja
klauzula za generalizaciju programa i dodavanje literala telu neke klauzule
za specijalizaciju programa. Moguće je uvesti relaciju poretka posebnosti:
klauzula c1 je posebnija od klauzule c2 ako je c2 |= c1, i specijalno, ako je
skup literala u c2 podskup skupa literala u c1. Tako se dobija graf rafiniranja
sliˇcno prostoru verzija.
Poˇsto postoji veliki broj naˇcina da se izabere literal koji treba dodati, ILP
algoritmi obiˇcno koriste neka dodatna ograniˇcenja, odnosno biraju se samo:
• literali iz pozadinske baze (ˇcinjenice koje dodatno objaˇsnjavaju primere,
nezavisne od primera)
• literali ˇciji su argumenti podskup onih u glavi klauzule
• literali koji uvode novu promenljivu koja se ne nalazi med¯u onima u
glavi klauzule
• literal koji izjednaˇcava promenljivu u glavi klauzule sa joˇs jednom ili
termom iz pozadinske baze (supstitucija)
• literal koji je osim argumenata isti kao onaj u glavi klauzule, isti predikat
(ovim se dozvoljavaju rekurzivni programi)
Ako je dat skup pozitvnih primera E+
i negativnih primera E−
(E = E+
∪
E−
) kojim se opisuje neka ciljna relacija ρ, ILP algoritam indukuje program
π kojim se raˇcuna ta relacija:
Ecur ← E
π ← []
ponavljaj

c ← [ρ : −]
ponavljaj /* c se ˇcini potrebnim */
izaberi literal l koji treba dodati c
/* nedeterministiˇcka taˇcka u algoritmu */
c ← [c,l]
sve dok c ne postane potreban
/* sve dok c ne prestane da pokriva negativne instance */
π ← [π,c]
Ecur ← Ecur - {pozitivne instance u Ecur koje pokriva π}
sve dok π ne postane dovoljan
Jedna od implementacija ovakvog ILP sistema je Kvinlanov sistem FOIL
(Quinlan, 1990) koji se moˇze posmatrati i kao proˇsirenje CN2 na PR1, gde se
predlaˇze odabir literala na osnovu informacione snage sliˇcno kao kod metoda
drveta odluke (dodavanje kandidata literala L pravilu R):
FOIL Gain(L, R) ≡ t log2
p1
p1 + n1
− log2
p0
p0 + n0
gde je p0 broj pozitivnih vezivanja pravila R (u smislu vezivanja promenljivih),
n0 broj negativnih, p1 broj pozitivnih vezivanja za novo pravilo R’ (dobijeno
dodavanjem L pravilu R), n1 broj negativnih, i konaˇcno, t je broj pozitvnih
vezivanja R koja su pokrivena i sa R’. Takod¯e, da bi se omogu´cili i rekurzivni
programi, neophodni su neki dodatni uslovi za dodatni literal - jedan naˇcin
je da promenljive koje dodati literal sadrˇzi ne budu u glavi klauzule.
ILP se takod¯e moˇze shvatiti i kao vid indukcije drvetom odluˇcivanja. Ako
su Ri relacije pozadinske baze, cilj je onda da ciljnu relaciju R izrazi preko Ri,
a ILP se onda moˇze posmatrati kao indukcija jednog glavnog drveta odluke
ˇciji su ˇcorovi opet drveta odluke, a ˇcvorovi ovih poddrveta su relacije Ri koje
se slaˇzu s nekim primerima (koji idu ,,desno” narednom ˇcvoru) ili ne (idu
,,levo”) sve dok se ne preostane skup samo pozitivnih primera (ovo odgovara
unutraˇsnjij petlji kanonskog ILP). Glavno drvo se gradi sve dok se ne dobije
poddrvo u kome samo negativne instance bivaju odbaˇcene. Rezultat primera
prikazanog ilustracijom ispod je:
R :- R1, R2, R3
R :- R4, R5

28 Seminarski rad
(preuzeto iz [intro])
2.6.3 Indukcija kao inverzna rezolucija
Uˇcenje indukcijom se svodi na jednostavnoj praktiˇcnoj pretpostavci da
je indukcija suprotna dedukciji, pod izvesnim pretpostavkama. Taˇcnije,
u odnosu na pravilo rezolucije koja odgovara dedukcionom zakljuˇcivanju,
pravilo inverzne rezolucije koje odgovara induktivnom zakljuˇcivanju je onda
zaista inverzan postupak. Vereov metod polazi od generalizacije kao postupku
koji je suprotan uniﬁkaciji (koja se koristi u rezoluiji ili npr. za upored¯ivanje
ˇsablona u pretrazi), i moˇze se primenjivati na bazu znanja opisanu klauzulama
da bi se doˇslo do koncepta kao najmanjeg zajedniˇckog generalizatora primera
(na primer: poznati svet blokova). Inverznu rezoluciju predlaˇzu kao praktiˇcno
reˇsenje kasnije Muggleton i Buntine, 1988. - ako je rezolventa C data sa
C = (C1 − {L1})θ ∪ (C2 − {L2})θ td. je L1θ = ¬L2θ (dobijeno supstitucijom
θ za literale L1 i L2 u klauzulama C1 i C2, redom), onda je odgovaraju´ce
pravilo inverzne rezolucije (θ = θ1θ2 gde se θ1 odnosi na promenljive u C1, a
θ2 na promenljive u C2):
C2 = (C − (C1 − {L1})θ1)θ−1
2 ∪ {¬L1θ1θ−1
2 }
Jednostavan primer rezolucije (levo) i inverzne rezolucije (desno) na nivou
iskaznog raˇcuna:

i primer indukcije u punom smislu inverzne rezolucije prvog reda:
(ovaj i prethodni primer su preuzeti iz [TM-ML])
gde se vidi induktivni zakljuˇcak (u gornjem desnom uglu) koji predstavlja
klauzulu GrandChild(x, y) ← Father(x, z), Father(z, y) na osnovu tri dobra
primera. Praktiˇcno se pokazalo da inverzna rezolucija lako dovodi do kombinatorne
eksplozije i zato se razvijaju mnoge alternativne metode. Jednu uspeˇsnu
varijantu koristi sistem PROGOL (Muggleton, 1995) gde se inverzna rezolucija
koristi samo da bi se doˇslo do jedinstvene najspeciﬁˇcnije hipoteze koja zajedno
sa pozadinskom teorijom objaˇsnjava primere (deduktivno: za svaki primer
(xi, f(xi)) koji nije pokriven sekvencijalnim pokrivanjem se traˇzi hi takvo
da je B ∧ hi ∧ xi ⊢ f(xi)), a onda se ta hipoteza (sliˇcno ILP, tj. FOIL
sistemu) koristi kao donja granica u pretrazi od opˇsteg ka posebnom (koristi
se MDL princip gde je duˇzina opisa broj literala klauzule, a pretraga sliˇcna
A∗
algoritmu).

30 Seminarski rad
2.7 Raˇcunska i statistiˇcka teorija uˇcenja
Pored pitanja teˇzine razliˇcitih tipova problema uˇcenja, njihove karakterizacije
i pitanja uspeˇsne praktiˇcne izvodljivosti uˇcenja u realnom vremenu, raˇcunska
i statistiˇcka teorija uˇcenja (algoritamska teorija uˇcenja) daju odgovore i
na pitanja o vezi veliˇcine ili kvaliteta skupa primera, osobina i parametara
algoritma uˇcenja i njegove uspeˇsnosti na kraju. Postoje nekoliko osnovnih
pristupa:
• VAK, verovatna aproksimativna korektnost (PAC framework: Probably
Aproximatively Correct, Valiant) - gde se identifikuju klase hipoteza
koje se mogu ili ne mogu nauˇciti iz polinomijalnog broja primera (sloˇzenost
uzorka - sample complexity), ˇcime se definiˇse prirodna mera kompleksnosti
prostora hipoteza kojom se moˇze ograniˇciti broj primera potrebnih za
induktivno uˇcenje
• granica greˇske (mistaske bound framework) - ispituje se broj napravljenih
greˇsaka u toku uˇcenja potrebnih da bi se doˇslo do prihvatljive hipoteze
• Goldov formalni model graniˇcnog uˇcenja
2.7.1 Statistiˇcka teorija uˇcenja
Ako je {(x1, y1), ..., (xl, yl)} skup nezavisnih i jednako raspored¯enih (njr)
skup obuˇcavanja izabranih prema fiksiranom ali nepoznatom funkcijom raspodele
F(x, y) = F(x)F(y|x) (x ∈ X su odabrani prema F(x)), i vrednosti nepoznate
objektivne funkcije y (supervizora S, ciljnog operatora) prema F(y|x). Hipoteza
f se konstruiˇse na osnovu ovog skupa sa merom gubitka (diskrepancijom,
greˇskom aproksimacije) L(y, f(x, α)) izmed¯u y i hipoteze h = f(x, α). Oˇcekivana
vrednost greˇske je funkcional:
R(α) = L(y, f(x, α))dF(x, y) = R(f)
Moˇze se uopˇstiti za proizvoljan broj nepoznatih (z umesto (x, y): R(α) =
Q(z, α)dF(z), gde je Q(z, α) je specifiˇcna funkcija gubitka). Cilj je naći
funkciju f(x, α0) koja minimizuje R(α) (preko klase funkcija {f(x, α)|α ∈
Λ}). Osnovni podproblemi su prepoznavanje ˇseme (pattern recognition -
u osnovi, problem klasifikacije za y ∈ {0, 1}, L(y, f(x, α)) = δ(y, f(x, α))
- moˇze se uopˇstiti i na veći konaˇcan skup klasa), ocena regresije (funkcija

regresije f(x, α0) = ydF(y|x), L(y, f(x, α)) = (y − f(x, α))2
) i ocena
gustine raspodele (L(p(x, α)) = − log p(x, α)). U tu svrhu se koriste principi
indukcije - ERM (princip minimizacije empirijskog rizika), i SRM (princip
minimizacije strukturalnog rizika).
2.7.2 ERM princip
Umestp R(α) koristi se:
Remp(α) =
1
l
l
i=1
Q(zi, α)
Postavljaju se pitanja:
• koji su (potrebni i dovoljni) uslovi konzistentnosti (bazirani na ERM)
?
• koliko je brza konvergencija uˇcenja ?
• kako kontrolisati konvergenciju (sposobnost generalizacije, ˇsta utiˇce)
uˇcenja ?
• kako konstruisati algoritme za prethodno ?
Deﬁnicija 2.4 Metod ERM je netrivijalno konzistentan za S = {Q(z, α)|α ∈
Λ} (skup indikatorskih funkcija) i F(z) ako za svaki neprazan skup Λ(c) =
{α| Q(z, α)dF(z) ≥ c}, c ∈ (−∞, ∞) vaˇzi konvergencija:
inf
α∈Λ(c)
Remp(α) → inf
α∈Λ(c)
R(α), l → ∞
Vaˇzi kljuˇcna teorema maˇsinskog uˇcenja (Vapnik, Chervonenkis, 1980):
Teorema 1 Ako postoje konstante A i B takve da za sve funkcije u S vaˇzi
A ≤ R(α) ≤ B, α ∈ Λ, tada je potreban i dovoljan uslov netrivijalne
konzistentnosti ERM da vaˇzi uniformna jednostrana konvergencija Remp(α) →
R(α), α ∈ Λ na S u smislu:
lim
l→∞
P{sup
α∈Λ
(R(α) − Remp(α)) > ε} = 0, (∀ε > 0)

32 Seminarski rad
Radi odred¯ivanja gornje granice rizika za ERM, uvodi se sledeći pojam (posledica
druge teoreme uniformne konvergencije u vezi sa ε-entropijom, detalji se
mogu naći u [VVN], kao i Poperova teorija neporecivosti, nonfalsifiability):
Definicija 2.5 Dimenzija Vapnik- ˇCervonenkisa (VC) skupa indikatorskih funkcija
S jednaka je najvećem broju h vektora z1, ..., zh koji se mogu razdvojiti u
dve klase na svih 2h
mogućih naˇcina (dihotomija) elementima tog skupa
(maksimalan broj vektora koji moˇze biti pokidan skupom S).
Definicija 2.6 Za dati skup realnih funkcija S (θ je stepena funkcija: θ(x) =
0 ako je x < 0, inaˇce θ(x) = 1), skup
{θ(Q(z, α) − β)| q ∈ S, α ∈ Λ, β ∈ ∆ = (inf
z,α
Q(z, α, sup
z,α
Q(z, α))}
je kompletan skup indikatora za dati skup realnih funkcija.
Definicija 2.7 VC dimenzija skupa realnih funkcija S je najveći broj h vektora
uzorka nad kojima funkcije iz kompletnog skupa indikatora skupa S mogu da
realizuju 2h
dihotomija.
Vaˇzi teorema:
Teorema 2 Za sve funkcije skupa ograniˇcenih nenegativnih funkcija {0 ≤
Q(z, α) ≤ B| α ∈ Λ}, sa verovatnoćom od bar 1 − η vaˇzi nejednakost (h =
V C(S)):
R(α) ≤ Remp(α) +
Bǫ(l)
2
1 + 1 +
4Remp(α)
Bǫ(l)
ǫ(l) = 4
h(ln 2l
h
+ 1) − ln η
4
l
Takod¯e, ako je αl parametar ERM minimizacije i α0 parametar minimizacije
stvarnog rizika, vaˇzi nejednakost sa verovatnoćom bar od 1 − 2η:
∆(αl) = R(αl) − R(α0) < B
− ln eta
2l
+ ǫ(l) 1 + 1 +
4Remp(α)
Bǫ(l)
Moguće je odrediti granice rizika i za neograniˇcene funkcije (uz dodatni
uslov):
sup
α∈Λ
( Qp
(z, α)dF(z))
1
p
Q(z, α)dF(z)
≤ τ

2.7.3 SRM princip
Kako je ranije pomenuto, SRM prinicip indukcije se odnosi na kontrolu
sposobnosti generalizacije programa koji uˇci malim skupom obuˇcavanja (npr.
l/h < 20). Ako je S∗
= k Sk td. vaˇzi S1 ⊂ S2 ⊂ ... ⊂ Sk ⊂ ... i hk = V C(Sk)
takve da je h1 ≤ h2 ≤ ... ≤ hk ≤ ..., i svaki Sk je ili totalno ograniˇcen
0 ≤ Q(z, α) ≤ Bk, α ∈ Λk, ili njegove neograniˇcene funkcije zadovoljavaju
(za neko (p, τk)):
sup
α∈Λk
( Qp
(z, α)dF(z))
1
p
Q(z, α)dF(z)
≤ τk, p > 2
kaˇze se da je S∗
dopustiva (admissable) struktura. Treba takod¯e pretpostaviti
da je S∗
svuda gust u S u smislu metrike:
ρ(Q(z, α1), Q(z, α2)) = |Q(z, α1) − Q(z, α2)|dF(z)
Cilj je prona´ci broj n = n(l) za svako l tako da element Sn minimizuje
empirijski rizik. Vaˇzi teorema:
Teorema 3 SRM nudi metod aproksimacije Q(z, α
n(l)
l ) za koje niz rizika
R(α
n(l)
l ) konvergira ka najmanjem riziku:
R(α0) = inf
α∈Λ
Q(z, α)dF(z)
sa asimptotskom brzinom konvergencije:
V (l) = rn(l) + Tn(l)
hn(l) ln l
l
ako je n = n(l) odred¯en sa:
lim
l→∞
T2
n(l)hn(l) ln l
l
= 0
gde je:
1. Tk = Bk za totalno ograniˇcene Sk
2. Tk = τk za uslovno neograniˇcene Sk

34 Seminarski rad
rn(l) je mera aproksimacije:
rn = inf
α∈Λn
Q(z, α)dF(z) − inf
α∈Λ
Q(z, α)dF(z)
Problem odred¯ivanja rn(l) je vezan za odred¯ivanje n(l) u prethodnoj teoremi
i zavisi od konkretnog sluˇcaja - viˇse detalja i primera za neke klase NM
moˇze se naći u [?]. Interesantan primer SVM, gde se moˇze pokazati da
skup svih razdvajajućih hiperravni sa bar dimenzijom ∆ ima VC dimenziju
h ≤ min (R2
∆2 , n) + 1 (n je dimenzija vektora obuˇcavanja, R je radijus sfere
kojoj pripadaju). Posledica je (uz Sk definisan sa B2
/∆2
≤ k) je da SVM
poˇstuju SRM princip.
2.7.4 VAK (PAC) pristup
Ako se stvarna greˇska hipoteze h (true error) u odnosu na ciljni koncept
c i raspodelu instanci primera D definiˇse kao verovatnoća (x : D znaˇci da je
x sluˇcajna promenljiva sa raspodelom D):
eD(h) = Px:D(c(x) = h(x))
onda se moˇze definisati pojam VAK-uˇcljivosti (PAC-learnability):
Definicija 2.8 Za klasu C ciljnih koncepata definisanih nad skupom X instanci
duˇzine n, i program L koji koristi prostor hipoteza H, C je VAK-uˇcljiva
programom L sa H ako za svako c ∈ C, raspodelu D nad X, ε td. je
0 < ε < 1/2 i δ td. je 0 < δ < 1/2, program L sa verovatnoćom ne manjom
od (1−δ) nad¯e h ∈ H td. je eD(h) ≤ ε u vremenu (u smislu cene raˇcunanja)
koje je polinom od 1/ε, 1/δ, n i size(c).
Ovde n i size(c) karakteriˇsu kompleksnost prostora X i klase C - size(c) je
duˇzina kodiranja koncepta c za neku reprezentaciju klase C kojoj pripada
(npr. broj istinitosnih osobina u konjunkciji kojom se definiˇse koncept), a
duˇzina instance n je npr. broj atributa u konjunkciji ili arnost funkcije (gde
je vektor argumenata instanca). Takod¯e, ovim se povezuje veliˇcina skupa
primera i polinomijalna izraˇcunljivost problema uˇcenja.
Sloˇzenost uzorka (sample complexity) je mera rasta broja primera u
odnosu na (prethodno opisanu) sloˇzenost problema. Kao ˇsto je ranije pomenuto,
svaki konzistentan uˇcenik daje hipotezu koja pripada prostoru verzija V SH,D

po definiciji (bez obzira na X, H ili D). Da bi se ograniˇcio broj primera
potrebnog za bilo kojeg konzistentnog uˇcenika dovoljno je ograniˇciti broj
primera tako da prostor verzija ne sadrˇzi ne[rihvatljive hipoteze. Kaˇze se da
je V SH,D ε-iscrpljen u odnosu na c i D ako (∀h ∈ V SH,D)eD(h) ≤ ε. Vaˇzi
onda teorema (Haussler, 1988) kojom se uspostavlja veza prostora verzija i
ovog pojma sa verovatnoćom koja ne zavisi od raspodele primera ili definicije
ciljnog koncepta:
Teorema 4 Ako je H konaˇcan i D je niz od m ≥ 1 nezavisnih nasumice
odabranih primera za ciljni koncept c, onda je za svako 0 ≤ ε ≤ 1 prostor
V SH,D ε-iscrpljen verovatnoćom p ≤ |H|−εm
.
Odatle sledi m ≥ 1
ε
(ln |H|+ln 1/δ) gde je δ ˇzeljeni minimalni prag verovatnoće
greˇske uˇcenja bilo kojeg konzistentnog uˇcenika.
2.7.5 Agnostiˇcko uˇcenje i VC dimenzija Vapnik-ˇCervonenkisa
Uˇcenik koji ne pretpostavlja (za razliku od prethodnog) da ciljni koncept
pripada prostoru hipoteza već jednostavno pronalazi hipotezu hbest s najmanjom
greˇskom uˇcenja (za date primere) naziva se agnostiˇckim uˇcenikom (ne pretpostavlja
da je C ⊆ H). Tada se traˇzi potreban broj tj. granica broja primera za koju
vaˇzi da stvarna greˇska ne prelazi ε + eD(hbest). Pokazuje se da onda vaˇzi
(opˇste granice Hefdinga ili aditivne granice ˇCernofa, Hoeffding, Chernoff):
m ≥
1
2ε2
(ln |H| + ln 1/δ)
Primeri:
1. konjunkcije literala (|H| = 3n
): m ≥ 1
ε
(n ln 3 + ln 1/δ) (sliˇcno i za
k-termove KNF ili DNF)
2. uˇcenik bez biasa (|C| = 2|X|
): m ≥ 1
ε
(2n
ln 2+ln 1/δ) (nije polinomijalna
granica)
Pored ovih ocena koriste se i ocene V C(H) ≤ log2 |H| dimenzijom VC
Vapnik-ˇCervonenkisa (Vapnik-Chervonenkis) gde se kompleksnost H (kapacitet
sistema funkcija po Vapniku) ne meri brojem razliˇcitih hipoteza već brojem
razliˇcitih instanci koje se diskriminiˇsu u H. Ovo je, recimo, vaˇzno ako je
prostor hipoteza beskonaˇcan jer se onda prethodne nejednakosti nemogu
upotrebiti. Za S ⊆ X, svako h ∈ H daje dihotomiju nad S ako postoje dve

36 Seminarski rad
particije, npr. {x ∈ S| h(x) = 0} i {x ∈ S| h(x) = 1} (moguće je da bude
2|S|
dihotomija S nad H). Ako se svaka dihotomija iz S (razbijanje na dve
particije) moˇze prikazati nekom hipotezom iz H (kao u navedenom primeru),
onda se kaˇze da H kida S. V C(H) je onda veliˇcina (kardinalnost) najvećeg
(konaˇcnog) podskupa u X kojeg kida H (ako nema konaˇcnog podskupa onda
je V C(H) = ∞). Praktiˇcni detalji o ovome se mogu naći u [intro] i [?].
Ranija nejednakost o granici broja primera se moˇze zameniti onda narednom:
m ≥ 1
ε
(4 log2 (2/δ) + 8V C(H) log2 (13/ε)). Moˇze se naći ˇcak i gornja granica
broja primera (Ehrenfeucht, 1989 - teorema: ako za proizvoljan L i C vaˇzi
V C(C) ≥ 2 i 0 < ε < 1/8, 0 < δ < 1/100, onda postoji raspodela i ciljni
koncept kod koga je eD(h) > ε ako se uzme manje od max 1
ε
log 1/δ, V C(C)−1
32ε
primera). Jedna od praktiˇcnih posledica ovih ˇcinjenica je mogućnost ozbiljnije
teoretske ocene performansi i broja primera razliˇcitih klasa neuronskih mreˇza
(ˇsto pre toga nije bilo jednostavno) i drugih metoda uˇcenja.
2.7.6 Optimalna granica greˇske
Ako je ML(c) maksimalan broj greˇsaka za ciljni koncept c koji program
L moˇze da napravi uˇceći c taˇcno (konzistentno) nad svim mogućim nizovima
primera. Onda je ML(C) = maxc∈C ML(c) (npr. MF ind−S(C) = n + 1 za
klasu n istinitosnih literala). Optimalna granica greˇske je onda:
Opt(C) ≡ min
L
ML(C)
Pokazuje se (Littlestone, 1987) da je V C(C) ≤ Opt(C) ≤ log2 |C|.
2.7.7 Graniˇcno uˇcenje
Apstraktna formulacija graniˇcnog uˇcenja zadaje se modelom problema
identifikacije. Ovaj odeljak je uglavnom zasnovan na sadrˇzaju u [ZR] (gde se
mogu naći dodatni detalji). On se sastoji od sledećih elemenata:
1. Klase objekata: algoritam koji uˇci treba da identifikuje jedan od ovih
objekata na osnovu pruˇzenih informacija.
2. Metoda za prezentaciju informacija: u svakom trenutku t algoritam
koji uˇci dobija informaciju it koja se bira iz skupa I. Skup svih mogćih
nizova informacija za neki objekat ω ∈ Ω obeleˇzava se sa I∞
(ω).

3. Relacije imenovanja: algoritam treba da identifikuje objekat navod¯enjem
nekog njegovog imena. Relacija imenovanja se sastoji od skupa imena
N i funkcije f : N → Ω.
Problem identifikacije je utvrd¯ivanje pravila koje za svaki objekat ω ∈ Ω i
svaki niz iz I∞
(ω) daje ime n takvo da je f(n) = ω. Graniˇcna identifikacija
podrazumeva pogad¯anje objekta u svakom trenutku i zahteva se da postoji
konaˇcan vremenski trenutak posle kojeg su sva pogad¯anja ista za isto ω, i
taˇcna. Ne zahteva se da ovaj vremenski trenutak bude poznat. Pogad¯anje
u trenutku t je odred¯eno izraˇcunljivom funkcijom pogad¯anja Gt(i1, i2, ..., it).
Ako funkcija Gt nije izraˇcunljiva, govorimo o neefektivnoj graniˇcnoj identifikaciji.
Konaˇcna identifikacija podrazumeva da će algoritam posle konaˇcnog broja
koraka prestati da traˇzi informacije i da će dati konaˇcan odgovor o imenu
objekta. Identifikacija u odred¯enom vremenu podrazumeva identifikaciju u
unapred odred¯enom broju koraka. Ako su skupovi I∞
(ω) disjunktni, onda
kaˇzemo da je ispunjen uslov razlikovanja. Ako sa Ωt oznaˇcimo skup svih
objekata iz Ω koji su saglasni sa poˇcetkom datog niza informacija do trenutka
t, kaˇzemo da je ispunjen uslov opadanja neizvesnosti ako za svaki objekat
ω ∈ Ω i svaki niz iz I∞
(ω) graniˇcni skup od Ωt kad t → 1 sadrˇzi samo ω.
Osnovni metod za graniˇcnu identifikaciju je identifikacija nabrajanjem.
Ona se sastoji od formiranja nabrajanja klase objekata na bilo koji naˇcin
(i sa ponavljanjem) i pogad¯anja da je u koraku t nepoznati objekat upravo
prvi objekat u nabrajanju koji se nalazi u Ωt. Funkcija pogad¯anja će biti
izraˇcunljiva ako se za svaki konaˇcan niz informacija do trenutka t i za svaki
pozitivan ceo broj n moˇze efektivno utvrditi da li je n-ti objekat nabrajanja u
Ωt i ako postoji efektivan naˇcin nalaˇzenja imena n-tog objekta u nabrajanju.
Ako je Gt funkcija pogad¯anja, ω ∈ Ω i ι ∈ I∞
(ω) definiˇsemo vreme pogad¯anja
τ(Gt, ω, ι) kao prvi trenutak u kome i posle koga su sva pogad¯anja funkcije Gt
ista i taˇcna. Ako takav trenutak ne postoji, onda vreme pogad¯anja definiˇsemo
kao ∞. Ako su Gt i G′
t dve funkcije pogad¯anja, kaˇzemo da je funkcija Gt
uniformno brˇza od funkcije G′
t ako za svako ω ∈ Ω, ι ∈ I∞
(ω) vaˇzi:
τ(Gt, ω, ι) ≤ τ(G′
t, ω, ι)
i ako za neko ω0 ∈ Ω, ι0 ∈ I∞
(ω) vaˇzi:
τ(Gt, ω0, ι0) ≤ τ(G′
t, ω0, ι0)
Osnovni nalazi za problem identifikacije su dati u nastavku.

38 Seminarski rad
Teorema 5 Ako su skupovi I i Ω prebrojivi i ako svaki objekat ima bar jedno
ime, za neefektivnu graniˇcnu identifikaciju uslov razlikovanja je neophodan,
a uslov opadajuće neizvesnosti je dovoljan. Ako je skup I∞
(ω) prebrojiv za
svako ω, onda je uslov razlikovanja dovoljan za neefektivnu graniˇcnu identifikaciju.
Teorema 6 Ako je Gt funkcija pogad¯anja koja realizuje identifikaciju nabrajanjem,
onda nijedna funkcija pogad¯anja nije uniformno bolja od Gt.
Jedan od primena i rezultata u oblasti algoritamske teorije uˇccenja razmatra
teorijska ograniˇcenja sistema za klasifikaciju koji se zasnivaju na predstavljanju
instanci u vektorskim prostorima i linearnoj separaciji (npr. klasifikacija
zasnovana na SVM). Konaˇcan skup koncepata se moˇze predstaviti pomoću
matrice M ∈ {0, 1}m×n
gde Mij = −1 znaˇci da je instanca i negativan primer
koncepta j i analogno za pozitivne primere.
Definicija 2.9 Linearni raspored koji predstavlja matricu M ∈ Rm×n
je dat
kolekcijom vektora u1, ..., um, v1, ..., vn ∈ Rd
euklidske duˇzine ||ui||2 = ||vj||2 =
1 takvih da je sign(ui, vj) = sign(Mij) za sve i, j. Parametar d se naziva
dimenzija rasporeda, mini,j(ui, vj) je minimalna margina, a 1
mn i,j (ui, vj)
srednja margina realizovana rasporedom.
Poznato je da mala dimenzija, odnosno velika margina, obezbed¯uju malu
greˇsku prilikom generalizacije. Donja granica dimenzije i gornja granica
margine za linearne rasporede se mogu odrediti dekompozicijom matrice A ∈
Rm×n
preko singularnih vrenosti: Neka je r rang matrice A. Uvek postoje
matrice U ∈ Rm×r
i V ∈ Rr×n
sa ortonormiranim kolonama i pozitivnim
brojevima σ1(A) ≥ ... ≥ σr(A) > 0, koje nazivamo singularnim vrednostima
matice A, takve da je A = Udiag(σ1(A), ..., σr(A))V T
. Podrazumeva se
σi(A) = 0 za i > r. Spektralna norma matrice A se definiˇsse kao ||A|| =
σ1(A). Donja granica dimenzije data je sledećom teoremom:
Teorema 7 Neka je M ∈ Rm×n
matrica takva da je |Mij| ≥ 1 za sve i, j.
Ako je r rang matrice M, neka je u1, ..., um, v1, ..., vn ∈ Rd
linearni raspored
za d ≤ r koji predstavlja matricu M. Tada je:
d
d
i=1
σ2
i (M) ≥ mn
Odred¯ene su i gornje granice minimalne i srednje margine:

Teorema 8 Ako za matricu M′
vaˇzi sign(M′
ij) = sign(Mij), onda vaˇzi:
min
i,j
|(ui, vj)| ≤
√
mn||M′
||
i,j M′
ij
Teorema 9 1
mn i,j |(ui, vj)| ≤ ||M||
√
mn
U prethodnoj teoremi koriˇsćenje M′
umesto M je pogodnost koja omogućava
da se umesto polazne matrice M kojoj odgovara linearni raspored, koristi
druga matrica koja daje bolju ocenu. Uslov je da odgovarajući elementi
polazne i nove matrice imaju isti znak (u smislu funkcije sign). U oblasti
algoritamske teorije uˇcenja analiziraju se tehnike uzorkovanja koje bi omogućile
izgradnju algoritama maˇsinskog uˇcenja koji bi iz uvida u instance koje se
dobijaju u toku uˇcenja mogli da odrede dovoljan obim uzorka za uˇcenje.
Problem koji se posmatra je sledeći: neka je D skup instanci iz kojih se uˇci
i B bulovska funkcija nad D. Potrebno je utvrditi verovatnoću pB takvu
da je B(x) = 1. Ukoliko je broj instanci u D preveliki za prebrojavanje,
pribegava se uzorkovanju i pribliˇznom odred¯ivanju broja pB na osnovu tog
uzorka. Pitanje je koliki uzorak je potreban. Prvi cilj je utvrd¯ivanje granice
apsolutne greˇske ocene. Preciznije, za dato δ > 0 i 0 < ε < 1 cilj je odrediti
ocenu p′
B takvu da je:
P[|p′
B − pB| ≤ ε] > 1 − δ (1)
Drugi cilj je utvrd¯ivanje granice relativne greˇske. Za dato δ > 0 i 0 < ε < 1
cilj je odrediti p′
B takvo da je:
P[|p′
B − pB| ≤ εpB] > 1 − δ (2)
Treći cilj je odred¯ivanje pribliˇzne ocene za neku funkciju broja pB (npr. uB =
pB − 1
2
). Preciznije, ako je dat broj δ > 0 i 0 < ε < 1, clij je odrediti ocenu
u′
B takvu da vaˇzi:
P[|u′
B − uB| ≤ ε|uB|] > 1 − δ (3)
Teorema 10 Ako se instance koje ˇcine uzorak obima n biraju uniformno iz
D i ako je m broj instanci iz uzorka za koje je B(x) = 1 i p′
B = m/n, onda
ocena p′
B zadovoljava uslov (1) ako vaˇzi:
n >
1
2ε2
ln(
2
δ
)

40 Seminarski rad
Takod¯e, ocena p′
B zadovoljava uslov (2) ako vaˇzi:
n >
3
ε2pB
ln(
2
δ
) (4)
Poˇsto poslednja teorema u oceni obima uzorka koji je neophodan da bi vaˇzio
uslov (3) koristi nepoznatu vrednost pB, ona nije korisna za postizanje drugog
postavljenog cilja. Moguće je koristiti sledeći algoritam prilagodljivnog uzorkovanja
(**): uzimati uniformno instance iz D sve dok broj instanci za koje je
B(x) = 1 ne dostigne vrednost A. Ako je n ukupan broj instanci koje
su uzete iz D onda se za ocenu p′
B uzima A/n.
Teorema 11 Za svako δ > 0 i 0 < ε < 1 vaˇzi uslov (2) ako prilikom
prilagodljivog uzorkovanja (**) vaˇzi:
A >
3(1 + ε)
ε2
ln(
2
δ
)
Tada, sa verovatnoćom većom od 1 − δ/2 obim uzorka n zadovoljava uslov:
n ≤
3(1 + ε)
(1 − ε)ε2pB
ln (
2
δ
) (5)
Pored¯enjem uslova (4) i (5) i uzimajući u obzir da je ε obiˇcno malo, zakljuˇcuje
se da je algoritam prilagodljivog uzorkovanja skoro optimalan. Za postizanje
trećeg cilja predlaˇze se sledeći algoritam nemonotonog prilagodljivog uzorkovanja:
• m ← 0; n ← 0;
• u′
B ← 0; α ← ∞;
• Dok je |u′
B| < α(1 + 1/ε) primenjivati sledeće korake:
– uzeti x sluˇcajnim izborom sa uniformnom raspodelom iz D;
– m ← m + B(x); n ← n + 1;
– u′
B ← m/n − 1/2;
– α ← 1
2n
ln (n(n + 1)/δ));
• predloˇziti u′
B kao ocenu za uB;

Teorema 12 Za svako δ > 0 i 0 < ε < 1, nemonotono prilagodljivo uzorkovanje
zadovoljava uslov (3). Takod¯e, ako je n obim uzorka, sa verovatnoćom većom
od 1 − δ, onda vaˇzi:
n ≤
2(1 − 2ε)2
(ε|uB|)2
ln(
1
εδ|uB|
)
Identifikacija jezika poˇciva na Goldovom modelu graniˇcne identifikacije koji
je već pomenut. Ako je skup Σ neprazna i konaˇcna azbuka i Σ∗
skup svih
niski nad skupom Σ ukljuˇcujući i praznu, jezik nad azbukom Σ je bilo koji
podskup od L ⊆ Σ∗
. Model uˇcenja jezika se sastoji od tri komponente:
1. Definicije uˇcenja: jezik L je nauˇcen ako je graniˇcno identifikovan med¯u
dopustivim jezicima.
2. Metod prezentovanja informacija: moguće je uˇcenje iz teksta ili pomoću
informatora. Tekst je niz x : N → L niski jezika L takvih da se
svaka niska jezika L pojavljuje u njemu bar jednom. Razlikujemo
proizvoljan, rekurzivan i primitivno rekurzivan tekst. Informator je
niz y : N → Σ∗
× {⊤, ⊥} takav da je (α, ⊤) njegov element ukoliko
α ∈ L, a (α, ⊥) ukoliko α ∈ Σ∗
− L, za svako α ∈ σ∗
. Moguće su i
drugaˇcije, ekvivalentne, formulacije informatora.
3. Vrste imena jezika: svaki jezik moˇze imati jedno ili viˇse imena. Algoritam
identifikuje jezik navodeći neko od njegovih imena. Imena jezika su
Tjuringove maˇsine. Tester za jezik L je Tjuringova maˇsina koja realizuje
proceduru odluˇcivanja za L, odnosno funkciju koja reˇci iz Σ∗
pridruˇzuje
1 ukoliko je ta reˇc iz L, a 0 u suprotnom. Generator za L je Tjuringova
maˇsina koja realizuje surjektivno preslikavanje iz skupa prirodnih brojeva
u L.
Dokazane su teoreme:
Teorema 13 Za bilo koji naˇcin prezentacije informacija, ako se klasa jezika
moˇze graniˇcno identifikovati koristeći tester imenovanje, onda se ona moˇze
graniˇcno identifikovati i koristeći imenovanje generatorom.
Teorema 14 Koristeći prezentovanje informacija pomoću informatora i tester
imenovanje klasa primitivno rekurzivnih jezika se moˇze graniˇcno identifikovati.
Teorema 15 Koristeći prezentovanje informacija pomoću informatora i imenovanje
generatorom klasa rekurzivnih jezika se ne moˇze graniˇcno identifikovati.

42 Seminarski rad
Teorema 16 Koristeći prezentovanje informacija pomoću proizvoljnog teksta
i tester imenovanje klasa jezika konaˇcne kardinalnosti se moˇze graniˇcno identifikovati.
Teorema 17 Koristeći prezentovanje informacija pomoću primitivno rekurzivnog
teksta i imenovanje generatorom cela klasa rekurzivno nabrojivih jezika se
moˇze graniˇcno identifikovati.
Teorema 18 Koristeći prezentovanje informacija pomoću rekurzivnog teksta
i imenovanje generatorom klasa jezika koja sadrˇzi sve konaˇcne jezike i bar
jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati.
Teorema 19 Koristeći prezentovanje informacija pomoću primitivno rekurzivnog
teksta i tester imenovanje klasa jezika koja sadrˇzi sve konaˇcne jezike i bar
jedan beskonaˇcan, se ne moˇze graniˇcno identifikovati.
Algoritam RPNI za identifikaciju (i uˇcenje) regularnih jezika iz pozitivnih
(S+) i negativnih primera (S−) postoji, ali zahteva kompletnost uzorka (bez
formalne definicije, neophodni su i pozitivni i negativni primeri u dovoljnom
obimu da bi identifikacija bila garantovana - algoritam i detalji su u [ZR]).
Obim uzorka koji je potreban je u najgorem sluˇcaju manji od n2
Σ, a sloˇzenost
algoritma je O((|S+|+|S−|)|S+|2
). Nauˇceni automat je minimalni deterministiˇcki
automat koji prihvata taˇcno jezik L. Identifikacija kontekstno slobodnih
jezika (KSJ) je mnogo ,,tvrd¯i” problem, i postojeća reˇsenja u okviru Goldove
teorije su bar NP kompletni i neefikasni. Ovim problemom se i dalje mnogo
efikasnije bave bajesovski metodi (n-grami i skriveni lacni Markova) i stohastiˇcke
kontektsno-slobodne gramatike (Smirnof).

3 Statistiˇcko i Bajesovo uˇcenje
3.1 Bajesovo uˇcenje
Pored Bajesovog zakljuˇcivanja i mreˇza uverenja (belief networks, Bajesove
mreˇze specijalno ako koriste Bajesovo pravilo zakljuˇcivanja) kao metode automatskog
zakljuˇcivanja, to je i korisna metoda maˇsinskog uˇcenja jer nudi mogućnost
kvantitativnog ocenjivanja alternativnih hipoteza. Bajesovo uˇcenje je tako
vezano za algoritme uˇcenja koji koriste verovatnoću i statistiku kao model.
Osnova je izbor hipoteze (MAP - Maximum a posteriori) najverovatnije
uslovne verovatnoće u odnosu na dati skup primera (posmatranja) D i prostor
hipoteza H (uz primenu Bajesovog pravila i izuzimanja P(D) kao konstante
za razliˇcite h):
hMAP ≡ argmaxh∈HP(h|D) = argmaxh∈H
P(D|h)P(h)
P(D)
= argmaxh∈HP(D|h)P(h)
Moˇze se i P(h) izostaviti sliˇcno P(D) ako se pretpostavi da je a priori
verovatnoća hipoteze ista za sve hipoteze (uniformna). Na primer, P(h) =
1/|H| za sve h ∈ H, i za vrednosti primera d1, ..., dn instanci x1, ..., xn:
P(D|h) =
1, di = h(xi) za sve di ∈ D;
0, inaˇce.
dobija se metod MAP uˇcenja grubom silom koji pokazuje da je:
P(h|D) =
1
|V SH,D|
, di = h(xi) za sve di ∈ D;
0, inaˇce.
tj. svaka konzistentna hipoteza (bez greˇsaka za date primere) je MAP hipoteza.
Svaki algoritam uˇcenja koji proizvodi konzistentne hipoteze je konzistentan.
Moˇze se pokazati da ako je distribucija u H td. je P(hi) ≥ P(hj) ako je
hi specifiˇcnija od hj (specijalno, uniformna raspodela je uvek takva) onda
algoritam Find-S daje MAP hipoteze. Tako se moˇze Bajesovom mreˇzom
karakterisati i algoritam koji ne koristi verovatnoće - kao ˇsto je induktivnim
biasom karakterisan i zamenjen deduktivnim sistemom, tako moˇze biti zamenjem
Bajesovom mreˇzom uz pretpostavku o raspodeli za H i datim P(D|h), odnosno
njenom gustinom p(D|h).

44 Seminarski rad
3.1.1 Veza najverovatnije hipoteze i LMS
Ako su primeri dati sa nekom oˇcekivanom greˇskom m = 0 sa zadatom
disperzijom σ2
td. je di = f(xi) + ei, i ako su primeri med¯usobno uslovno
nezavisni onda je (h = hML, ML - minimum likelihood):
h = argmaxh∈H
n
i=1
P(di|h) = argmaxh∈H
n
i=1
1
√
2πσ2
e− 1
2σ2 (di−h(xi))2
ˇsto se na kraju svodi (upotrebom logaritma i drugih transformacija - detalji
u [TM-ML] kao i za mnoge druge detalje i dokaze) na:
h = argminh∈H
n
i=1
(di − h(xi))2
ˇcime se pokazuje da se najbolja hipoteza dobija minimizovanjem zbira kvadrata
razlike - LMS metodom. Konkretnije, ako je di ∈ {0, 1} (diskretan skup) i
izbor primera xi uslovno ne zavisi od hipoteze h, moˇze se pokazati da se i xi
mogu tretirati kao sluˇcajne promenljive, i tada je P(D|h) = n
i=1 P(xi, di|h) =
n
i=1 P(di|h, xi)P(xi). Sliˇcnim transformacijama (uz P(di|h, xi) = h(xi)di
(1−
h(xi))1−di
) se dobija onda:
h = argmaxh∈HG(h, D), G(h, D) =
n
i=1
[di ln h(xi) + (1 − di) ln (1 − h(xi))]
Postoji sliˇcnost ovog izraza sa opˇstim oblikom entropije −pi log pi i zato
se njegova negativna vrednost naziva i prelaznom entropijom (cross entropy).
Ovakav pristup je posebno interesantan kada je objekat uˇcenja realna funkcija.
Prirodan model za ovakav sistem (s Bajesovom mreˇzom) i uˇcenje su neuronske
mreˇze sa povratnim propagiranjem, gde je pravilo obuˇcavanja NM (spustom
niz gradijent) ∆wjk = η n
i=1 h(xi)(1 − h(xi))(di − h(xi))xijk u sluˇcaju maksimizovanja
G(h, D) zamenjeno jednostavnijim pravilom:
∆wjk = η
n
i=1
(di − h(xi))xijk
3.1.2 MDL princip
Ranije pomenut MDL princip je blisko povezan sa verovatno´com i problemom
Okamove oˇstrice. Ideja o MDL je potekla joˇs 1960-tih kada su Solomonov,

(Solomonoff, 1960: koja je priroda induktivnog zakljuˇcivanja ?) Kolmogorov
i ˇCaitin (Kolmogorov, Chaitin, 1965-66: koja je priroda sluˇcajnosti ?) postavili
pitanja i temelje statistike i informacione teorije u vezi kompleksnosti algoritma
(gde se uoˇcava veza izmed¯u sluˇcajno generisane niske i sloˇzenosti programa,
kao i kompresiji opisa niske programom koji u sebi - ,,intrinsiˇcki” - tako sadrˇzi
osobine podataka) - Rissanen 1978. tako predlaˇze MDL princip induktivnog
zakljuˇcivanja. Uz osnovne pretpostavke teorije informacija, moˇze se protumaˇciti
kod
hMAP = argmaxh∈HP(D|h)P(h) = argminh∈H [− log2 P(D|h) − log2 P(h)]
da su kraće hipoteze poˇzeljnije (Shannon, Weaver 1949): ako je LCH
(h) =
− log ph broj bitova (duˇzina opisa) potreban za poruku h kodom C, onda je
MDL princip hMDL = argminh∈H[LC1 (h)+LC2 (D|h)] (prvi sabirak karakteriˇse
duˇzinu opisa hipoteze, a drugi duˇzinu opisa primera s hipotezom kao pretpostavkom
- npr. ˇsta su izuzeci). Pokazuje se da ako je C1 = CH optimalno kodiranje za
h i C2 = CD|h optimalno kodiranje za D|h, onda je hMAP = hMDL. Med¯utim
MDL ne opravdava posebno najkraću hipotezu jer se za proizvoljna kodiranja
C1 i C2 ne moˇze opravdati MDL hipoteza kao najbolja (potrebno je znati
sve verovatnoće hipoteza da bi se to potvrdilo, a to nije obavezno najbolja
reprezentacija znanja).
3.1.3 Bajesovi klasifikatori, Gibsov algoritam
Naspram dosadaˇsnjeg pitanja o najverovatnijoj hipotezi, joˇs je bitnije
pitanje najverovatnije klasifikacije nove instance na osnovu zadatih primera.
Za skup vrednosti klasifikacija V optimalni Bajesov klasifikator nove instance
x ∈ X bira najverovatniju ispravnu klasifikaciju (u problemu uˇcenja koncepta
to je kao da se bira klasifikacija nad prostorom verzija uz teˇzinske koeficijente
tj. uslovne verovatnoće):
argmaxvj∈V P(vj|D), P(vj|D) =
hi∈H
P(vj|hi)P(hi|D)
Ovaj algoritam ima u proseku najbolje performanse u odnosu na bilo koji
drugi, ali moˇze biti veoma skup. Gibsov algoritam koristi kompromis (veća
greˇska uz manju cenu raˇcunanja - Opper, Haussler, 1991):
1. Izaberi proizvoljnu hipotezu h iz H nasumice, ali prema raspodeli
uslovne verovatnoće (u odnosu na date primere)

46 Seminarski rad
2. Upotrebi h da oceniˇs klasifikaciju nove instance
Pokazuje se da je greˇska klasifikacije ovog algoritma pod odred¯enim uslovima
najviˇse dvaput veća od Bajesovog optimalnog klasifikatora (Haussler, 1994).
Naivni Bajesov klasifikator je jedan veoma praktiˇcan metod uˇcenja -
u nekim domenima se pokazuje uporedivim po performansama sa NM ili
drvećem odluke. Primenjiv je u zadacima gde se instance izraˇzavaju kao
konjunkcije vrednosti atributa (a1, ..., an) a kodomen V ciljne funkcije je
diskretan (konaˇcan). Bajesov pristup bi onda bio naći najverovatniju vrednost
vMAP = argmaxvj ∈V P(vj|a1, ..., an) = argmaxvj ∈V P(a1, ..., an|vj)P(vj) (uz
primenu Bajesovog pravila). Vrednost P(vj) se moˇze proceniti frekvencijom
(brojanjem) vrednosti u skupu primera, dok za uslovne verovatnoće to nije
praktiˇcno (broj kombinacije je obiˇcno dovoljno velik). Da bi se to prevaziˇslo,
naivni klasifikator polazi od pretpostavke da su usllovne verovatnoće atributa
u konjunkciji uslovno nezavisne tj. izbor vrednosti naivnog Bajesovog klasifikatora
je:
vNB = argmaxvj∈V P(vj)
i
P(ai|vj)
gde se frekvencijama vrednosti atributa u primerima za date vrednosti ocenjuje
P(ai|vj). Uobiˇcajeno je da se vrednost P(ai|vj) ocenjuje sa nc
n
gde je n broj
primera kod kojih je vj, a nc broj takvih kod kojih je ai. Poˇsto broj takvih
primera moˇze biti suviˇse mali, koristi se m-ocena nc+mp
n+m
gde je m je jednak
broj uzoraka a p verovatnoća izbora date vrednosti atributa (najˇceˇsće se
pretpostavlja uniformna raspodela td. je za k mogućih vrednosti atributa p =
1
k
, mada moˇze uopˇste biti i neka druga raspodela). Na primer, ako je P(ai =
wk|vj) verovatnoća da je i-ta reˇc teksta jednaka wk (k-ta iz nekog reˇcnika) i da
je tekst ocenjen nekom vrednoˇsću vj, npr. da pripada nekoj diskusionoj listi
od ponud¯enih ˇciji se tekstovi poruka analiziraju, onda se moˇze pretpostaviti
da je P(ai = wk|vj) = P(am = wk|vj) tj. da verovatnoća ne zavisi od pozicije
- time se znaˇcajno dodatno smanjuje broj kombinacija mogućih uslovnih
verovatnoća, i tada se to moˇze skraćeno obeleˇziti sa P(wk|vj) = nk+1
n+|V |
, gde je
nk broj koliko puta je nad¯ena reˇc wk med¯u ukupno n mogućih pozicija (tj.
reˇci) u primerima gde je ciljna vrednost vj (koristi se m-ocena sa m = |V |,
|V | je broj reˇci u reˇcniku V ). Algoritam uˇcenja onda izgleda ovako:
1. pokupi sve razliˇcite reˇci u skup V (tokene, uopˇste) iz svih tekstova
skupa primera D

2. izraˇcunaj P(vj) i P(wk|vj) izraze verovatnoća:
za svaku vrednost vj ∈ V :
• docsj ← podskup tekstova iz skupa primera D koji sadrˇze vj
• P(vj) ←
|docsj|
|D|
• textj ← tekst dobijen konkatenacijom tekstova iz docsj
• n ← broj razliˇcitih pozicija reˇci (broj reˇci) u textj
• za svaku wj ∈ V :
(a) nk ← broj reˇci wk u textj
(b) P(wk|vj) ← nk+1
n+|V |
i onda se klasifikacija vrˇsi algoritmom:
1. ulazni dokument koji se klasifikuje ima skup pozicija reˇci P (reˇc ai je
na i-toj poziciji)
2. vNB = argmaxvj ∈V P(vj) i∈P P(ai|vj)
3.1.4 Mreˇze uverenja
Ako je P(X|Y, Z) = P(X|Z) kaˇze se da su X i Y uslovno nezavisno pod
uslovom Z. Mreˇzama uverenja (belief networks) se definiˇsu viˇsedimenzionalne
(sloˇzene) raspodele koja se sastoji od n-torke promenljivih (Y1, ..., Yn). Mreˇza
uverenja je onda usmereni acikliˇcni graf gde su ˇcvorovi sluˇcajne promenljive
u kojem je svaki potomak ˇcvora zavisan od njega, a onaj koji to nije je
nezavisan (uz uslov prethodnih ˇcvorova ako ih ima). Tako je rekurzivno
definisana sloˇzena verovatnoća:
P(y1, ..., yn) =
n
i=1
P(yi|Roditelji(Yi))
gde je Roditelji(Yi) skup neposrednih roditelja ˇcvora Yi i kombinacija njihovih
vrednosti kao u tabeli u primeru ispod:

48 Seminarski rad
(primer preuzet iz [TM-ML])
gde je prvim slovom u tabli skraćeno oznaˇcen odgovarajući ˇcvor (tabela je
vezana za ˇcvor Campfire, a ˇcvorovi imaju dve moguće vrednosti - logiˇcke
vrednosti). Mreˇza uverenja je potpuno zadata takvim uslovnim verovatnoćama
za svaki ˇcvor (ili npr. faktorima dovoljnosti i potrebnosti za svaki luk da bi
se formirali logiˇcki iskazi kao pravila, kao ˇsto je to u ekspertnom sistemu
PROSPECTOR) i poˇcetnim (a priori) verovatnoćama. Cilj je obiˇcno naći
raspodelu verovatnoće n-torke promenljivih na osnovu zadatih raspodela
ostalih promenljivih u mreˇzi (i onda moˇzda oceniti njihovu vrednost na
osnovu nekih zadatih poˇcetnih verovatnoća (dokaza) ili vrednosti promenljivih).
Ovakvo verovatnosno zakljuˇcivanje je u opˇstem sluˇcaju pokazano kao problem
NP klase (Cooper, 1990), ˇcak i u aproksimativnim metodama.
Uˇcenje mreˇza uverenja (tj. njihovih uslovnih verovatnoća ili koeficijenata)
na efikasan naˇcin se svodi na (naivni) Bajesov klasifikator ako su sve promenljive
sa verovatnoćama poznate na osnovu primera, i ako je struktura mreˇze
unapred poznata. Med¯utim, ako su vrednosti samo nekih promenljivih (ostale
su ,,skrivene” - skriveni Markovljevi lanci) raspoloˇzive tokom uˇcenja (u
primerima), onda nije tako jednostavno. Problem je donekle uporediv sa
problemom obuˇcavanja neuronskih mreˇza sa skrivenim slojevima (npr. povratnim
propagiranjem), kao ˇsto se mreˇze zakljuˇcivanja mogu predstaviti kao vrsta
NM u krajnjem sluˇcaju. Jedan naˇcin je traˇzenjem najverovatnije hipoteze
gradijent metodom, odnosno maksimizovanjem P(D|h). Ako je wijk = P(Yi =
yij|Ui = uik) uslovna verovatnoća da će promenljiva Yi imati vrednost yij ako
n-torka njenih direktnih roditelja Ui ima vrednost uik, pokazuje se da onda
vaˇzi:
∂ ln P(D|h)
∂wijk
≡
∂ ln Ph(D)
∂wijk
=
d∈D
P(Yi = yij, Ui = uik|d)
wijk
≡
d∈D
P(yij, uik|d)
wijk

Ovim se dobija pravilo uˇcenja:
wijk ← wijk + η
d∈D
Ph(yij, uik|d)
wijk
gde se mora dodatno voditi raˇcuna da je ispunjen preduslov da su wijk
ispravne verovatnoće (wijk ∈ [0, 1] i da je j wijk = 1 za sve i, k), ˇsto se radi
renormalizacijom koeficijenata nakon svakog ciklusa promene koeficijenata.
Uˇcenje strukture mreˇze je joˇs teˇzi problem. Jedan naˇcin je uvod¯enje
metrike kojom se ocenjuju mreˇze alternativne strukture (u odnosu na poˇcetnu
i kasnije radnu strukturu - algoritam K2, Cooper, Herskovits, 1992), a drugi
poznati naˇcin je konstruistanjem uslova (constraints) i otkrivanjem relacija
zavisnosti na osnovu primera.
3.1.5 EM algoritam
EM algoritam je posebno koristan za primere mreˇza sa pomenutim skri-
venim ˇcvorovima. Problema ocene k-sredina (k-means) je jedan od osnovnih
problema tog tipa - ako su ulazni podaci zadati kao niz brojeva gde je
svaki element niza nasumice uniformno po jednoj od k normalnih raspodela
poznatih jednakih disperzija σ2
i nepoznatih sredina tj. proizvoljan element
niza X ima vrednost po nekoj od k normalnih raspodela {N(µj, σ2
)}k
j=1, a
svaki takav element ima i ,,skrivenu” pridruˇzenu vrednost j (indeks uniformno
nasumiˇcno izabrane normalne raspodele sa odgovarajućom sredinom µj, 1 ≤
j ≤ k). Cilj problema je otkriti k-torku h = (µ1, ..., µk) sredina kao ispravnu
hipotezu za primer od m zadatih vrednosti. Da je skrivena vrednost poznata
(da nije skrivena, zapravo) algoritam bi bio jednostavan - za svaki podniz
yi ovakvog niza xi ˇcijim je vrednostima pridruˇzena samo jedna sredina (i
odgovarajuća raspodela) traˇzi se hipoteza µML td. je µML = argminµ
m
i=1 (yi − µ)2
za ˇsta se pokazuje da je reˇsenje (koje minimizuje ovu sumu) µML = 1
m
m
i=1 yi
(recimo, kao da je dat niz (k + 1)-torki (xi, zi1 , ..., zik
) gde zij
= 1 ukazuje
da je za vrednost xi koriˇsćena normalna raspodela sa sredinom µj - ostale
vrednosti zin = 0). EM algoritam za ovaj problem incijalizuje h = (zi1 , ..., zik
)
(recimo prvih k vrednosti ulaznog niza ili njihova srednja vrednost) i onda
ponavlja naredne korake do stabilnog h (po nekom kriterijumu):

50 Seminarski rad
1. izraˇcunaj E[zij
], j = 1, k uz pretpostavku trenutne h:
E[zij
] =
p(x = xi|µ = µj)
k
n=1 p(x = xi|µ = µn)
=
e− 1
2σ2 (xi − µj)2
k
n=1 e− 1
2σ2
(xi − µn)2
2. izraˇcunaj najverovatniju novu hipotezu h′
= (µ′
1, ..., µ′
k) uz pretpostavku
da je trenutna vrednost zij
, j = 1, k je prethodno izraˇcunata E[zij
] i
zameni h sa h′
:
µj ←
m
i=1 E[zij
]xi
m
i=1 E[zij
]
Suˇstina algoritma su ova dva koraka, gde se najpre koristi trenutna hipoteza
da bi se ocenile skrivene vrednosti, a onda se tako dobijenim skrivenim
vrednostima raˇcuna iterativno bolja hipoteza. EM algoritam obavezno konvergira
ka lokalno maksimalno verovatnoj (P(D|h)) hipotezi na taj naˇcin. Uobiˇcejena
uopˇstena formulacija je da se za skup posmatranih vrednosti (observed) X =
{x1, ..., xm} i skrivenih (hidden, unobserved) Z = {z1, ..., zm} (Y = X Z je
ukupan, pun skup podataka) posmatra skup parametara θ koji je od interesa
za problem. Z se moˇze posmatrati kao sluˇcajna promenljiva (a time i Y ) ˇcija
raspodela zavisi od nepoznatih parametara θ i poznatih podataka X. Traˇzi se
h′
tako da maksimizuje E[ln P(Y |h′
)], tj. Q(h′
|h) = E[ln P(Y |h′
)|h, X] (kao
funkcija od h′
pod pretpostavkom θ = h). Tada se uopˇsteni EM algoritam
svodi na slede´ca dva koraka:
procena (estimation) (E): raˇcunanje Q(h′
|h)
maksimizovanje (maximization) (M):
h ← argmaxh′ Q(h′
|h)
Ako je Q neprekidna onda EM konvergira ka stacionarnoj taˇcki funkcije
P(Y |h′
) (sliˇcno gradijent metodama). U sluˇcaju problema k-sredina vaˇzi:
θ = (µ1, ..., µk), p(yi|h′
) = p(xi, zi1 , ..., zik
|h′
) = 1√
2πσ2
e− 1
2σ2
Pk
j=1 zij
(xi−µ′
j )2
,
pa je ln P(Y |h′
) = ln m
i=1 p(yi|h′
) = m
i=1 p(yi|h′
), i na osnovu toga je
Q(h′
|h) = E[ln P(Y |h′
)] = m
i=1 ln 1√
2πσ2
− 1
2σ2
k
j=1 E[zij
](xi − µ′
j)2
, pa
je argmaxh′ Q(h′
|h) = argminh′
m
i=1
k
j=1 E[zij
](xi − µ′
j)2
.

3.2 Statistiˇcko uˇcenje i funkcija gubitka
Sve pomenute metode i poznate metode matematiˇcke verovatnoće i statistike
nude korisne alate u problemima maˇsinskog uˇcenja. To se moˇze i ovako
posmatrati: ako je X sluˇcajna promenljiva nad n-torkama gde je p(X) (a
priori) verovatnoća da je to n-torka koju traˇzimo da klasifikujemo, odnosno
gustina raspodele sluˇcajne promenljive X, onda se moˇze sa p(X|1) i p(X|2)
oznaˇciti gustina raspodele za kategorije 1 i 2 (p(i) je a priori verovatnoća
kategorije), redom (dalje se sve moˇze uopˇstiti jednostavno za proizvoljan
broj kategorija) - raspodele za te dve kategorije se mogu razlikovati. Dve
osnovne greˇske se mogu napraviti: da je data n-torka (uzorak, ˇsema) u
kategorji 1 iako pripada kategoriji 2, i obratno. Ozbiljnost napravljene greˇske
se ocenjuje funkcijom gubitka (loss function) λ(i|j) za odabranu kategoriju
i ako je kategorija j taˇcna (λ(i|i) = 0). Oˇcekivana vrednost gubitka za
dato x je LX(i) = λ(i|1)p(1|X) + λ(i|2)p(2|X). Kategoriju 1 biramo ako je
LX(1) ≤ LX(2), a upotrebom Bajesovog pravila dobija se:
λ(1|2)p(X|2)p(2) ≤ λ(2|1)p(X|1)p(1)
Specijalno, ako je λ(1|2) = λ(2|1) i p(1) = p(2) onda je taj uslov: p(X|2) ≤
p(X|1) (tj. izbor najverovatnije kategorije u X, maximum likelihood), gde se
koristi i opˇstije k(i|j) = λ(i|j)p(j). Naravno, za proizvoljan skup kategorija
C se moˇze zadatak definisati uopˇsteno, gde se bira kategorija j ∈ C za koju
vaˇzi:
j = argmini∈CLX(i)
Konkretan kriterijum se dobija izborom pretpostavljene raspodele - dve
raspodele su interesantne: Gausova (normalna) i binomna. Matriˇcno zapisana
gustina viˇsedimenzionalne normalne raspodele je:
p(X) =
1
(2π)n/2|Σ|1/2
e
−(X−M)T Σ−1(X−M)
2
gde je M = E[X] srednji vektor (vektor srednjih vrednosti), Σ = [σ2
ij]ij
matrica kovarijanse (simetriˇcna, pozitivno definitna), |Σ| = det Σ, σ2
ij =
E[(xi − mi)(xj − mj)] (σ2
ii je disperzija za xi). Tada se pomenuti kriterijum
svodi na:
(X − M1)T
Σ1
−1
(X − M1) ≤ (X − M2)T
Σ2
−1
(X − M2) + B

52 Seminarski rad
gde je B = 2
(2π)n/2 ( 1
|Σ2|1/2 − 1
|Σ1|1/2 ) konstanta. Specijalno, ako je Σ1 = Σ2 = Σ
i ako su dijagonalne, tada je uslov: (X − M1)T
(X − M1) ≤ (X − M2)T
(X −
M2) tj. X(M1 − M2) ≥ C gde je C = (M1M1 − M2M2)/2 konstanta.
Ako su vrednosti sluˇcajne promenljive u skupu {0, 1}, i ako su komponente
uslovno nezavisne, p(X|i) = p(x1|i) . . . p(xn|i), moˇze se zapisati (binomna
raspodela):
p(xi = 1|1) = pi
p(xi = 0|1) = 1 − pi
p(xi = 1|2) = qi
p(xi = 0|2) = 1 − qi

i onda je pomenuti uslov:
n
i=1
xi log
pi(1 − qi)
qi(1 − pi)
+
n
i=1
log
1 − pi
1 − qi
+ log
p(1)
p(2)
≥ 0
3.3 Kombinatorna optimizacija, inteligencija roja
Mnogi problemi veˇstaˇcke inteligencije se reˇsavaju dinamiˇckim programiranjem
i metodama bliskim problemima optimizacije. Klasa asinhrono distribuiranih
algoritama koji su inspirisani bioloˇskim zajednicama, poput mrava u prirodi
(sliˇcno genetskim algoritmima), zove se inteligencija roja (swarm intelligence).
Primer je TSP problem (putujućeg trgovca) odred¯ivanja optimalnog Hamiltonovog
puta datog obeleˇzenog (cenama) grafa. Rubinˇstajn predlaˇze metodu koja
daje podklasu ovakvih algoritama (inspirasanu optimizacijom kolonije mrava,
Rubinstein, 1999) upotrebom prelazne entropije - ,,PE mravi” (CE-ants,
Cross Entropy). Rubinˇstajnova metoda nije distribuirana (raˇcunanja se
ne mogu paralelizovati) i spada specijalno zato u klasu centralnih metoda
(varijantu koja jeste distribuirana predloˇzili su Helvik i Wittner, 2001). Schoonderwoerd
(kao primenu na osnovu Dorigovog ACO metoda i sistema AntNet, Ant
Colony Optimization) predlaˇze sistem sa većim brojem veoma uproˇsćenih
agenata (koji vremenom stare) za reˇsavanje mreˇznih i telekomunikacionih
problema. Med¯utim, ovaj metod se ne snalazi tako dobro sa NP problemima
kao ˇsto je TSP, ˇsto metoda PE-mrava ispravlja uvod¯enjem koeficijenta ˇziˇze
pretrage.
Broj Hamiltonovih putanja u grafu reda n je (n − 1)! - ideja je iskoristiti
statistiˇcke osobine roja koji ostavlja feromonske tragove koji ukazaju blizinu
optimalne putanje, i tako naći reˇsenje ˇsto bliˇze optimalnom. Ovi tragovi su
dati matricom prelaska Pt u trenutku t, koja odgovara matrici verovatnoća
Markovljevog lanca. Ako je funkcija cene putanje πi = {r1i
, r2i
, ..., rni
} sa
matricom cena Lkl (za Hamiltonovu putanju vaˇzi za svako i da je ni = n + 1
i r1i
= rni
) data sa L(πi) = ni−1
j=1 Lrj rj+1
, Rubinˇstajnovi PE-mravi ovako
rade (sliˇcno EM-algoritmu, traˇzi se matrica prelaska u dva koraka - raˇcuna
se funkcija ocene performansi, a onda iteracija matrice prelaska):
1. Pt=0 se inicijalizuje uniformno nasumiˇcnim (malim) vrednostima
2. generiˇsi N putanja na osnovu Pt i izraˇcunaj minimalnu Bolcmanovu
temperaturu γt kao meru performanse kojom se utiˇce na izbor znaˇcajnijih

54 Seminarski rad
putanja:
γt ≡ argminγ′
t
h(Pt, γ′
t), h(Pt, γ′
t) =
1
N
N
k=1
H(πk, γt) > ρ
gde je H(Pt, γ′
t) = e
−
L(πk))
γt , k = 1, N mera performanse putanje πk, a
10−6
≤ ρ ≤ 10−2
ograniˇcenje tj. koeficijent ˇziˇze pretrage (search focus)
kao parametar algoritma.
3. za narednu iteraciju Pt+1 = argmaxPt
1
N
N
k=1 H(πk, γt) i,j, pokazuje
se da je:
Pt+1,ij =
{r,s}∈πk,k=1,N H(πk, γt)
{r}∈πl,l=1,N H(πl, γt)
koja minimizuje prelaznu entropiju i poˇstuje ograniˇcenja γt
4. ponavljaj prethodna dva koraka sve dok ne bude H(π, γt) ≈ H(π, γt+1)
gde je π pribliˇzno optimalno reˇsenje (najbliˇze pronad¯eno)
Distribuirana i asinhrona verzija koristi sledeće izmene (autoregresijom):
Pt+1,ij =
{r,s}∈πk,k=1,t βt−k
H(πk, γt)
{r}∈πl,l=1,t βt−lH(πl, γt)
, γt = argminγ′
t
h′
t(γ′
t) > ρ
h′
t(γ′
t) = h′
t−1(γ′
t)β + (1 − β)H(πt, γt) ≈
1 − β
1 − βt
t
k=1
βt−k
H(πk, γt)
gde 0 < β < 1 kontroliˇse istoriju zapamćenih putanja umesto N (recimo β =
0.998, ρ se smanjuje svaki put za 5%). Koraci 2. i 3. algoritma se tako mogu
napraviti posle samo jedne nove putanje πt. Dalje poboljˇsanje algoritma
se ogleda u primeni elitnog izbora (elite selection) gde se cena ograniˇcava
relativno u odnosu na trenutno najbolju nad¯enu putanju Lnajbolji, t = min∀u≤t L(πu)
tako da je:
L(πt) ≤ (1 + ρ2)Lnajbolji, t−1
gde je ρ2 parametar koji se moˇze i menjati tokom vremena (iteracija). Kada
je ρ2 = 0 reˇsenje se pronalazi brzo ali nije toliko blisko optimalnom. Ideja je
vremenom smanjivati ρ2 (ˇcime elitna selekcija postaje restriktivnija) svaki
put kada se nad¯e novo bolje reˇsenje (Lnajbolji, t+n < Lnajbolji, t) ili kada

Machine Learning

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Machine Learning

Semelhante a Machine Learning (20)

Mais de Zoran Popovic

Mais de Zoran Popovic (8)

Último

Último (6)

Machine Learning