SlideShare uma empresa Scribd logo
1 de 12
Baixar para ler offline
AURKIBIDEA

1.    SARRERA ................................................................................................... 3

 a.      Google Empresa ....................................................................................... 3

 b.      Google Bilatzailea..................................................................................... 3

2.    FUNTZIONAMENDUA ................................................................................. 4

 a.      Bilatzailea ................................................................................................. 4

 b.      Miaketa ..................................................................................................... 6

 c.      Indexazioa ................................................................................................ 7

 d.      Algoritmoak............................................................................................... 7

 e.      Spam-a ..................................................................................................... 8

3.    Konklusioa ................................................................................................. 10

4.    Bibliografia ................................................................................................. 11

5.    ERANSKINAK ............................................................................................ 12

 a.      Bilatzailearen funtzionamendua.............................................................. 12




                                                                                                               2
1. SARRERA

           a. Google Empresa

        Google Inc enpresaren marka bat da. 1998ko irailean izan zen zabaldua
Larry    Page   eta   Sergey    Brin-em   eskutik,   garai   hartan   Stanfordeko
Unibertsitateko Konputazio Zientzietako ikasleak. Izenaren jatorria beraz,
zientzia arlotik atera zuten, matematikaren alorretik hain zuzen ere. Izan ere,
Google izenaik oinarrian Googol du. Googol zenbaki zehatz bat da, zeina bat
digitua 100 zeroz jarraituta dagoen. Hau da, era matematikoan 10100 (hamar ber
ehun) den. (informazio gehiagorako klikatu hemen).
        Beraien produktu nagusia mundu osoan zehar ezaguna eta oso
estilizatua den Google bilatzailea da, baina Google Inc-ek askoz produktu
gehiago eskaintzen dizkigu erabiltzaileoi. Google Maps, gmail, Google Chrome
eta Android izan daitezke agian ezagunenak, baina badira beste asko.

           b. Google Bilatzailea

        Bilatzaileak 30 miloi miloi (30.000.000.000.000) web orri batzen ditu, 100
milioi gigabytes kontrolatzen ditu. Hilabetero 100.000 milioi bilaketa egiten dira
bilatzaile honetan eta zenbakia handitzen dihoa. “Crawling” (orri guztietatik
mugitzen da) bidez bereizi eta ordenatzen duten material guztia. Atari
bakoitzeko jabeek erabaki dezakete haien edukia arakatu daitekeen.
Bilatzaileak, formula matematikoen bidez, orriak edukia eta beste faktore
batzuen arabera antolatzen ditu, emaitza onena lortzeko helburuarekin.
Algoritmo horiek jartzen dute martxan bilatzailea, erabiltzaileak bilatu nahi
duena aurkitzeko. Horretarako, akats ortografikoak, “autocompletado” edo
bilaketa alternatiboen proportzioak kontuan hartzen ditu, besteak beste.
Hau guztia kontuan hartu ondoren, emaitzak agertzen dira (200.000 aldagai
erabiltzearen ondorioz). Hala ere, algoritmoak aldatzen doa eta hau Googleko
ingenieroek aldatzen dituzte.
        Bestalde, beste ezaugarri batzuk ditu Gooogle bilatzaileak:
   1. Klima ezagutu daiteke
   2. Burtsaren egoera jakiteko aukera
   3. Munduko edozein tokiko ordua



                                                                            3
4. Kirol emaitzak
   5. Unitateen konbertsioa (luzerak adb.)
   6. Txanponen konbertsioa
   7. Hiztegia



   2. FUNTZIONAMENDUA

            a. Bilatzailea
       Google bilatzea, bilaketa motor bat da google Inc. propietatearena.
Bilatzaile nagusiena da munduan egunero milaka bisita jasotzen ditu. Bilatzaile
honek internet guztiko datuak hartzen
ditu. Gaur egun, hizkuntza askotan
dago      bilatzea:   txinua,    euskara,
ingelesa,      gaztelania,      frantzesa,
holandesa, japoniarra beste askoren
artean. Egun, google da munduko
base datu handiena.

       Googlek jarritako hitzen inguruko orrietara eramaten dizu, beste
bilatzaileekin konparatuta. Honek, zuzenean testuetara eramaten zaitu edo
bestela LINK batzuetara orriarekin erlazionatua dagoela. Google bilatzaileak ez
zaitu bakarrik eramaten jarritako kontenituetara bakarrik. Web orri barrutako
kontenitua aztertu eta antzekotasuna badaukate, bertara eraman zaitezkete.
Googlek garrantzia ematen dio, bilaketaren terminoen antzekotasunei. Beste
bilatzaileen aldean Googlek ez ditu laburpenak egiten, egindako kontsulten
inguruan hartzen ditu testuak.
       Googlek datuak memoria ``cache´´ batean gordetzen ditu. Era honetan,
erabiltzaileak datu horietara iristeko aukera izan dezake seguritate kopia
bezala.     Honela,   bilatzerakoan   orduan   serbidoreak   huts   egiten   badu
segurtasuneko kopia erabil dezakezu.
Funtzionamendua       azaltzeko era sinplea hau da, bilatu nahi dugunaren
inguruan hitz deskritbo batzuk jarri behar ditugu eta sartu teklari sakatu behar
diogu, emaitzak bilatzeko orduan. Googlrk bilatzen ditu web orriak jarritako
hitzekin antzekotasuna dutenak bakarrik.



                                                                             4
AND kontsulta automatikoak,
Googlek hitzen artean AND
hitza erabiltzerakoan, bakarrik
bi   hitzak    (edo   daudenak)
dituzten webguneak bakarrik
agertzen ditu.




OR       erabileraren      inguruan,
bilatzerakoan hitzen artean OR
erabiltzerakoan,      Googlek     hitz
bate      do       beste        dituen
dokumentuak bakarri agertzen
ditu.
        Pagerank aztertzerako orduan, Googlek bilakaterako orduan, sartutako
hitzekin dauden orrialde denak, era batera edo bestera antolatu behar ditu.
Googlek honela antolatzen ditu web orri hauek, link kopuruen arabera, link
gehiena dituena lehena azalduko da eta orden honetan joango dira beste
guztiak, linkak agertzen dira, web orri batek bere linka bestearenean jartzen
duenean eta zenbait eta gehiago izan hobeto.
        Google bilatzaileak gutxienez 22 karakteristika berezi hitz bakoitzeko,
                                                       honek          sinonimoak,
                                                       prebisio     meteorilogiko
                                                       eta            antzerakoak
                                                       azaltzen ditu. Zenbakiak
                                                       ere     modu      ezberdin
                                                       atean      antolatzen       ditu
                                                        google        bilatzaileak,
interbaloen arabera, 70…73 prezioak, 10,5… temperatura…

(Bilatzailaren inguruko buruz gehiago jakiteko, eranskinetan begiratu)




                                                                               5
b. Miaketa

       Google-k “web miatzailea” bezala ezaguna den softwarea erabiltzen du
jabetza publikoa duten web orrialdeak aurkitzeko.             Miatzaile ezagunena
“Googlebot” da. Miatzaileak web orrialdeak eta hauetan azaltzen diren estekak
kontsultatzen   dituzte,   beste   edozein    erabiltzailek   Web-eko   edukietan
nabigatzerakoan egingo luken bezalaxe. Esteka batetik bestera igarotzen dira
eta Google-ko erabiltzaileei eskaintzen zaizkien web orrialde horiei buruzko
datuak biltzen dituzte.

       Miaketa prozesua aurretik eginiko miaketetan erabilitako web orrialdeen
eta webguneen jabeek hornituriko “sitemaps”aren zerrenda batekin hasten da.
Webgune hauetara sartzean Googleko miatzaileek estekak bilatzen dizkiete
beste orrialde batzuei honela hauei bisitatu ahal izateko.Softwareak arreta
berezia eskaintzen die gune berriei, egungo guneetan dauden berriei eta ez
aktibo dauden estekei.

       Programa informatikoek zehazten dituzte miatu beharreko guneak,
hauek nolako maiztasunarekin miatu eta gune bakoitzean miatu beharreko orri
kopuru zein den. Googlek ez du ordainketarik onartzen gune bat maiztasun
handiagoarekin miatzeko. Gehiago kezkatzen dira ahalik eta emaitz onenak
ateratzen.Izan ere, etorkizun hurbil baterako onena izango baita; bai google-
entzat eta bai bere erabiltzaileentzat ere.

       Webgune gehienek ez dute murrizketarik ezarri beharrik miatzeko,
indexatzeko edo edukia argitaratzeko. Beraz, beren orrialdeak bilatzaileko
emaitzetan azal daitezke. Hau esanda, guneetako nagusiek aukera asko dituzte
Google-k bere guneak nola miatzen eta indexatzen dituen jakiteko Googleko
webmasters-entzako lanabesen eta “robots.txt” izeneko fitxategiaren bitartez.
Fitxategi honekin, guneetako nagusiek adierazi dezakete nahiago dutela
Googlebot-ek bere guneak ez miatzea edo bere guneetako orrialdeak
prozesatzeko argibideak ematea.

       Guneetako nagusiek miatutako orrialdearen arabera edukia indexatzeko
aukera dute. Adibidez, beraien orrialdeak textuko zatirik gabe azaltzeko aukera
dute( bilatzaileko emaitzetan izenburuaren azpian azaltzen den orrialdearen



                                                                            6
laburpena) edo miaketa prozesuan dagoen bertsioa (Googleko zerbitzarian
gordetako txandakatze bertsioa, argitaraturiko orrialdea erabiltzeko moduan ez
dagoen    unerako).   Halaber,     webmasters-ak beren     orrialdeetan    bilaketa
bertakotzeko aukera izan dezake Googleko bilaketa pertsonalizatuaren bitartez.

             c. Indexazioa

      Web-a milaka liburu dituen eta geroz eta handiagoa den liburutegi
publiko baten modukoa da, artxibo sistemarik gabea. Laburbilduz, Googlek
orrialdeak biltzen ditu miaketa prozesua ematen den artean; eta ondoren,
aurkibide bat sortzen du. Beraz, badakigu zehazki non aurkitu behar dugun.
Liburu baten amaierako aurkibide baten modu berdinean, Googleko aurkibideak
barne hartzen ditu hitzen eta hauek azaltzen diren tokien informazioa.
Oinarrizko maila batean bilaketa bat egiten denean, orrialde egokienak
aurkitzeko gure algoritmoek kontsulta terminoak bilatzen dituzte aurkibidean.

      Une honetatik aurrera bilaketa prozesua askoz ere zailagoa bihurtzen da.
Izan ere, “katu” hitza bilatzerakoan ez dugu nahi izaten “katu” hitza ehundaka
aldiz egotea. Gure helburua irudiak, bideoak edo arrazen zerrendak aurkitzea
izango da ziur aski. Googleko indexazio sistemek orrialdeen alderdi ezberdinak
hartzen dituzte kontuan, adibidez: noiz izan den argitaratua, irudi edo bideorik
duten etab. Ezagutza grafikoak hitz klabeen arteko komunztadura baino
haratago joaten uzten digu pertsona,leku edota intereseko gauzak hobeto
ulertzeko.

             d. Algoritmoak

      Googlek bi algoritmo erabiltzen ditu bilaketa egiterakoan: lehenik
garrantzia algoritmoa (“algoritmo de relevancia”) erabiltzen du eta PageRank
algoritmoa ondoren.


      Garrantzi    algoritmoaren    bidez,   Google-k   bilatzen   diren   hitzekin
erlazionatuak dauden orriak aurkitzen ditu. Horretarako, bilatzen diren hitzak
web orri batean non eta zenbat aldiz agertzen diren aztertzen du. Analisi hau
“hitz gakoen dentsitatea” kalkulatuz egiten da (orrian dauden hitz gako kopurua,
orriko hitz kopuruarekin zatituz; ehunekotan adierazten da). Beraz, dentsitatea



                                                                             7
handia bada, emaitza onak lortuko dira (hala ere, handiegia bada, bilatzaileak
orria zigortzen du). Gainera, hitz guztiak ez dira berdin balioztatzen: gehien
balioztatzen diren hitzak URL, orriaren tituluan, esteketan, hitz loditan edo
goiburuan agertzen direnak dira. Dentsitatea kalkulatzeko orriak aurki ditzakegu
(adb. Adworks).


      PageRank Google-k sortu eta erabiltzen duen algoritmoa da. Algoritmo
honek web orriak balioztatzen ditu emaitzak lortzeko. Orriak 1 eta 10 artean
balioztatzen ditu, 1 balioztatze txikiena da, eta 10 handiena; orri batek 0
balioztatzea badu, orria berria delako edo zigortu duelako da. Google-n
bilatzaile software-a algoritmo honetan oinarritzen da bilaketaren emaitzak
aurkezteko. PageRank balioztatze handia duten orriak agertuko dira lehenik. 5
balioztatzetik aurrerakoa orriak garrantzitsuak izango dira Google-entzat.
PageRank parametro batzuen arabera kalkulatzen da:
      Web gune batera doazen hiperesteka kopurua. Esteka bakoitza boto bat
bezala kontsideratzen du; beraz, gero eta boto gehiago, orduan eta emaitzetan
kokaleku onagoa.
      Botoa ematen duen web gunea: esteka duen web guneak PageRank
handia badu, bere botoak balio handiagoa du.
      Esteka duten web guneen gaia: estekak gai berdina duten web guneen
artean egiten bada, PageRank-entzat balio handiagoa du.

          e. Spam-a

      Spam lekuak bilaketetan aurreneko postuetan ateratzen saiatzen dira,
hitz klabeak errepikatuz, testu ikusezina erebiliz edota estekak erosiz. Hori
txarra da bilaketarentzat, izan ere berez testu garrantzitsuak direnei lekua
kentzen diete.


      Nahiz eta horiek izan erabilienak, beste hainbat ere badaude. Jarraian
agertzen dira gehien agertzen diren Spam motak:




                                                                          8
1. Hipertestu berbideratzaile “gaiztoak”: Lekuak, eduki desberdina
          erakusten dio bilatzaileari eta erabiltzaileei, baita erabiltzaileei beste
          orrialde batzuei berbideratu.
      2. Leku Komprometituak: Beste hirugarren pertsona batek orrialdea
          hackeatzean gertatu ohi da.
      3. Testu ikusezina eta hitz gako gehiegi

      4. Dominio aparkatuak: Dominio aparkatuak berezko eduki gutxi du




          eta, hori dela eta, Googlek ez ditu bilaketetan sartzen.


      Horren kontra borroka egiteko, Googlek bere sorkuntzatik asko dira
hartutako neurriak. 2007an eratorritako spam-ari aurre egiteko, hauek sailkatu
eta datuen formatua hobetu zuten. Hori dela eta, eratorritako elementuen spam-
a desagertu zen (grafikoko marra gorria). Honen desagertzearekin, beste spam
mota bat agertu zen: Spam Agresiboa (kolore urdina). Hurrengo eguneratzeak
horri aurre egiteko bideratuak egon dira.


   2009an    iruzurrezko    hipertestuak    gutxitzen   saiatu   ziren   baita       leku
komprometituen handiagotzearen kontra egin. Azken eguneratzea Spam-aren
kontrakoa 2012ko Apirilekoa da. Algoritmo berrikuntza bat egin zute. Honi,
“Penquin” kodea deitu zioten eta horrekin spam taktikak erabiltzen dituzten


                                                                                 9
webguneei puntuazioak jaisten zaizkie. (Penquin kodeari buruz gehiago
jakiteko, klik egin hemen.)


   3. Konklusioa

   Lan honen ondorioz, Google hobeto ezagutzea lortu dugu. Egunero
erabiltzen dugun tresna da, baina ez genekien zehazki bere funtzionamendua
nolakoa zen; bere egitura ezagutzea ahalbidetu digu, baita bilatzaileak dituen
prozesuak ere.




   Googlek dituen aukera eta abantailak ikaragarriak dira, eta bilatzen
duenarentzat erosoa da sarean ibiltzea bilatzaile honen bidez. Zehazki bilatu
nahi dena aurkitzeko erabiltzen dituen prozesu eta algoritmoak zein diren ikusi
ondoren    ohartu   gara      Googlen   arrakastaren   arrazoia   zein   izan    den:
erabiltzaileak bilatu nahi duena bilatzen du, oso era eraginkorrean.




                                                                                10
4. Bibliografia

        Google América Latina Blog



        Blog Adbot



        Google Insidesearch



        ABC Egunkaria



        Portal Programas



        Wikipedia



        Publiceuta




                                     11
5. ERANSKINAK

    a. Bilatzailearen funtzionamendua




                                        12

Mais conteúdo relacionado

Destaque

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Destaque (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Google - Tresna Multimediak

  • 1.
  • 2. AURKIBIDEA 1. SARRERA ................................................................................................... 3 a. Google Empresa ....................................................................................... 3 b. Google Bilatzailea..................................................................................... 3 2. FUNTZIONAMENDUA ................................................................................. 4 a. Bilatzailea ................................................................................................. 4 b. Miaketa ..................................................................................................... 6 c. Indexazioa ................................................................................................ 7 d. Algoritmoak............................................................................................... 7 e. Spam-a ..................................................................................................... 8 3. Konklusioa ................................................................................................. 10 4. Bibliografia ................................................................................................. 11 5. ERANSKINAK ............................................................................................ 12 a. Bilatzailearen funtzionamendua.............................................................. 12 2
  • 3. 1. SARRERA a. Google Empresa Google Inc enpresaren marka bat da. 1998ko irailean izan zen zabaldua Larry Page eta Sergey Brin-em eskutik, garai hartan Stanfordeko Unibertsitateko Konputazio Zientzietako ikasleak. Izenaren jatorria beraz, zientzia arlotik atera zuten, matematikaren alorretik hain zuzen ere. Izan ere, Google izenaik oinarrian Googol du. Googol zenbaki zehatz bat da, zeina bat digitua 100 zeroz jarraituta dagoen. Hau da, era matematikoan 10100 (hamar ber ehun) den. (informazio gehiagorako klikatu hemen). Beraien produktu nagusia mundu osoan zehar ezaguna eta oso estilizatua den Google bilatzailea da, baina Google Inc-ek askoz produktu gehiago eskaintzen dizkigu erabiltzaileoi. Google Maps, gmail, Google Chrome eta Android izan daitezke agian ezagunenak, baina badira beste asko. b. Google Bilatzailea Bilatzaileak 30 miloi miloi (30.000.000.000.000) web orri batzen ditu, 100 milioi gigabytes kontrolatzen ditu. Hilabetero 100.000 milioi bilaketa egiten dira bilatzaile honetan eta zenbakia handitzen dihoa. “Crawling” (orri guztietatik mugitzen da) bidez bereizi eta ordenatzen duten material guztia. Atari bakoitzeko jabeek erabaki dezakete haien edukia arakatu daitekeen. Bilatzaileak, formula matematikoen bidez, orriak edukia eta beste faktore batzuen arabera antolatzen ditu, emaitza onena lortzeko helburuarekin. Algoritmo horiek jartzen dute martxan bilatzailea, erabiltzaileak bilatu nahi duena aurkitzeko. Horretarako, akats ortografikoak, “autocompletado” edo bilaketa alternatiboen proportzioak kontuan hartzen ditu, besteak beste. Hau guztia kontuan hartu ondoren, emaitzak agertzen dira (200.000 aldagai erabiltzearen ondorioz). Hala ere, algoritmoak aldatzen doa eta hau Googleko ingenieroek aldatzen dituzte. Bestalde, beste ezaugarri batzuk ditu Gooogle bilatzaileak: 1. Klima ezagutu daiteke 2. Burtsaren egoera jakiteko aukera 3. Munduko edozein tokiko ordua 3
  • 4. 4. Kirol emaitzak 5. Unitateen konbertsioa (luzerak adb.) 6. Txanponen konbertsioa 7. Hiztegia 2. FUNTZIONAMENDUA a. Bilatzailea Google bilatzea, bilaketa motor bat da google Inc. propietatearena. Bilatzaile nagusiena da munduan egunero milaka bisita jasotzen ditu. Bilatzaile honek internet guztiko datuak hartzen ditu. Gaur egun, hizkuntza askotan dago bilatzea: txinua, euskara, ingelesa, gaztelania, frantzesa, holandesa, japoniarra beste askoren artean. Egun, google da munduko base datu handiena. Googlek jarritako hitzen inguruko orrietara eramaten dizu, beste bilatzaileekin konparatuta. Honek, zuzenean testuetara eramaten zaitu edo bestela LINK batzuetara orriarekin erlazionatua dagoela. Google bilatzaileak ez zaitu bakarrik eramaten jarritako kontenituetara bakarrik. Web orri barrutako kontenitua aztertu eta antzekotasuna badaukate, bertara eraman zaitezkete. Googlek garrantzia ematen dio, bilaketaren terminoen antzekotasunei. Beste bilatzaileen aldean Googlek ez ditu laburpenak egiten, egindako kontsulten inguruan hartzen ditu testuak. Googlek datuak memoria ``cache´´ batean gordetzen ditu. Era honetan, erabiltzaileak datu horietara iristeko aukera izan dezake seguritate kopia bezala. Honela, bilatzerakoan orduan serbidoreak huts egiten badu segurtasuneko kopia erabil dezakezu. Funtzionamendua azaltzeko era sinplea hau da, bilatu nahi dugunaren inguruan hitz deskritbo batzuk jarri behar ditugu eta sartu teklari sakatu behar diogu, emaitzak bilatzeko orduan. Googlrk bilatzen ditu web orriak jarritako hitzekin antzekotasuna dutenak bakarrik. 4
  • 5. AND kontsulta automatikoak, Googlek hitzen artean AND hitza erabiltzerakoan, bakarrik bi hitzak (edo daudenak) dituzten webguneak bakarrik agertzen ditu. OR erabileraren inguruan, bilatzerakoan hitzen artean OR erabiltzerakoan, Googlek hitz bate do beste dituen dokumentuak bakarri agertzen ditu. Pagerank aztertzerako orduan, Googlek bilakaterako orduan, sartutako hitzekin dauden orrialde denak, era batera edo bestera antolatu behar ditu. Googlek honela antolatzen ditu web orri hauek, link kopuruen arabera, link gehiena dituena lehena azalduko da eta orden honetan joango dira beste guztiak, linkak agertzen dira, web orri batek bere linka bestearenean jartzen duenean eta zenbait eta gehiago izan hobeto. Google bilatzaileak gutxienez 22 karakteristika berezi hitz bakoitzeko, honek sinonimoak, prebisio meteorilogiko eta antzerakoak azaltzen ditu. Zenbakiak ere modu ezberdin atean antolatzen ditu google bilatzaileak, interbaloen arabera, 70…73 prezioak, 10,5… temperatura… (Bilatzailaren inguruko buruz gehiago jakiteko, eranskinetan begiratu) 5
  • 6. b. Miaketa Google-k “web miatzailea” bezala ezaguna den softwarea erabiltzen du jabetza publikoa duten web orrialdeak aurkitzeko. Miatzaile ezagunena “Googlebot” da. Miatzaileak web orrialdeak eta hauetan azaltzen diren estekak kontsultatzen dituzte, beste edozein erabiltzailek Web-eko edukietan nabigatzerakoan egingo luken bezalaxe. Esteka batetik bestera igarotzen dira eta Google-ko erabiltzaileei eskaintzen zaizkien web orrialde horiei buruzko datuak biltzen dituzte. Miaketa prozesua aurretik eginiko miaketetan erabilitako web orrialdeen eta webguneen jabeek hornituriko “sitemaps”aren zerrenda batekin hasten da. Webgune hauetara sartzean Googleko miatzaileek estekak bilatzen dizkiete beste orrialde batzuei honela hauei bisitatu ahal izateko.Softwareak arreta berezia eskaintzen die gune berriei, egungo guneetan dauden berriei eta ez aktibo dauden estekei. Programa informatikoek zehazten dituzte miatu beharreko guneak, hauek nolako maiztasunarekin miatu eta gune bakoitzean miatu beharreko orri kopuru zein den. Googlek ez du ordainketarik onartzen gune bat maiztasun handiagoarekin miatzeko. Gehiago kezkatzen dira ahalik eta emaitz onenak ateratzen.Izan ere, etorkizun hurbil baterako onena izango baita; bai google- entzat eta bai bere erabiltzaileentzat ere. Webgune gehienek ez dute murrizketarik ezarri beharrik miatzeko, indexatzeko edo edukia argitaratzeko. Beraz, beren orrialdeak bilatzaileko emaitzetan azal daitezke. Hau esanda, guneetako nagusiek aukera asko dituzte Google-k bere guneak nola miatzen eta indexatzen dituen jakiteko Googleko webmasters-entzako lanabesen eta “robots.txt” izeneko fitxategiaren bitartez. Fitxategi honekin, guneetako nagusiek adierazi dezakete nahiago dutela Googlebot-ek bere guneak ez miatzea edo bere guneetako orrialdeak prozesatzeko argibideak ematea. Guneetako nagusiek miatutako orrialdearen arabera edukia indexatzeko aukera dute. Adibidez, beraien orrialdeak textuko zatirik gabe azaltzeko aukera dute( bilatzaileko emaitzetan izenburuaren azpian azaltzen den orrialdearen 6
  • 7. laburpena) edo miaketa prozesuan dagoen bertsioa (Googleko zerbitzarian gordetako txandakatze bertsioa, argitaraturiko orrialdea erabiltzeko moduan ez dagoen unerako). Halaber, webmasters-ak beren orrialdeetan bilaketa bertakotzeko aukera izan dezake Googleko bilaketa pertsonalizatuaren bitartez. c. Indexazioa Web-a milaka liburu dituen eta geroz eta handiagoa den liburutegi publiko baten modukoa da, artxibo sistemarik gabea. Laburbilduz, Googlek orrialdeak biltzen ditu miaketa prozesua ematen den artean; eta ondoren, aurkibide bat sortzen du. Beraz, badakigu zehazki non aurkitu behar dugun. Liburu baten amaierako aurkibide baten modu berdinean, Googleko aurkibideak barne hartzen ditu hitzen eta hauek azaltzen diren tokien informazioa. Oinarrizko maila batean bilaketa bat egiten denean, orrialde egokienak aurkitzeko gure algoritmoek kontsulta terminoak bilatzen dituzte aurkibidean. Une honetatik aurrera bilaketa prozesua askoz ere zailagoa bihurtzen da. Izan ere, “katu” hitza bilatzerakoan ez dugu nahi izaten “katu” hitza ehundaka aldiz egotea. Gure helburua irudiak, bideoak edo arrazen zerrendak aurkitzea izango da ziur aski. Googleko indexazio sistemek orrialdeen alderdi ezberdinak hartzen dituzte kontuan, adibidez: noiz izan den argitaratua, irudi edo bideorik duten etab. Ezagutza grafikoak hitz klabeen arteko komunztadura baino haratago joaten uzten digu pertsona,leku edota intereseko gauzak hobeto ulertzeko. d. Algoritmoak Googlek bi algoritmo erabiltzen ditu bilaketa egiterakoan: lehenik garrantzia algoritmoa (“algoritmo de relevancia”) erabiltzen du eta PageRank algoritmoa ondoren. Garrantzi algoritmoaren bidez, Google-k bilatzen diren hitzekin erlazionatuak dauden orriak aurkitzen ditu. Horretarako, bilatzen diren hitzak web orri batean non eta zenbat aldiz agertzen diren aztertzen du. Analisi hau “hitz gakoen dentsitatea” kalkulatuz egiten da (orrian dauden hitz gako kopurua, orriko hitz kopuruarekin zatituz; ehunekotan adierazten da). Beraz, dentsitatea 7
  • 8. handia bada, emaitza onak lortuko dira (hala ere, handiegia bada, bilatzaileak orria zigortzen du). Gainera, hitz guztiak ez dira berdin balioztatzen: gehien balioztatzen diren hitzak URL, orriaren tituluan, esteketan, hitz loditan edo goiburuan agertzen direnak dira. Dentsitatea kalkulatzeko orriak aurki ditzakegu (adb. Adworks). PageRank Google-k sortu eta erabiltzen duen algoritmoa da. Algoritmo honek web orriak balioztatzen ditu emaitzak lortzeko. Orriak 1 eta 10 artean balioztatzen ditu, 1 balioztatze txikiena da, eta 10 handiena; orri batek 0 balioztatzea badu, orria berria delako edo zigortu duelako da. Google-n bilatzaile software-a algoritmo honetan oinarritzen da bilaketaren emaitzak aurkezteko. PageRank balioztatze handia duten orriak agertuko dira lehenik. 5 balioztatzetik aurrerakoa orriak garrantzitsuak izango dira Google-entzat. PageRank parametro batzuen arabera kalkulatzen da: Web gune batera doazen hiperesteka kopurua. Esteka bakoitza boto bat bezala kontsideratzen du; beraz, gero eta boto gehiago, orduan eta emaitzetan kokaleku onagoa. Botoa ematen duen web gunea: esteka duen web guneak PageRank handia badu, bere botoak balio handiagoa du. Esteka duten web guneen gaia: estekak gai berdina duten web guneen artean egiten bada, PageRank-entzat balio handiagoa du. e. Spam-a Spam lekuak bilaketetan aurreneko postuetan ateratzen saiatzen dira, hitz klabeak errepikatuz, testu ikusezina erebiliz edota estekak erosiz. Hori txarra da bilaketarentzat, izan ere berez testu garrantzitsuak direnei lekua kentzen diete. Nahiz eta horiek izan erabilienak, beste hainbat ere badaude. Jarraian agertzen dira gehien agertzen diren Spam motak: 8
  • 9. 1. Hipertestu berbideratzaile “gaiztoak”: Lekuak, eduki desberdina erakusten dio bilatzaileari eta erabiltzaileei, baita erabiltzaileei beste orrialde batzuei berbideratu. 2. Leku Komprometituak: Beste hirugarren pertsona batek orrialdea hackeatzean gertatu ohi da. 3. Testu ikusezina eta hitz gako gehiegi 4. Dominio aparkatuak: Dominio aparkatuak berezko eduki gutxi du eta, hori dela eta, Googlek ez ditu bilaketetan sartzen. Horren kontra borroka egiteko, Googlek bere sorkuntzatik asko dira hartutako neurriak. 2007an eratorritako spam-ari aurre egiteko, hauek sailkatu eta datuen formatua hobetu zuten. Hori dela eta, eratorritako elementuen spam- a desagertu zen (grafikoko marra gorria). Honen desagertzearekin, beste spam mota bat agertu zen: Spam Agresiboa (kolore urdina). Hurrengo eguneratzeak horri aurre egiteko bideratuak egon dira. 2009an iruzurrezko hipertestuak gutxitzen saiatu ziren baita leku komprometituen handiagotzearen kontra egin. Azken eguneratzea Spam-aren kontrakoa 2012ko Apirilekoa da. Algoritmo berrikuntza bat egin zute. Honi, “Penquin” kodea deitu zioten eta horrekin spam taktikak erabiltzen dituzten 9
  • 10. webguneei puntuazioak jaisten zaizkie. (Penquin kodeari buruz gehiago jakiteko, klik egin hemen.) 3. Konklusioa Lan honen ondorioz, Google hobeto ezagutzea lortu dugu. Egunero erabiltzen dugun tresna da, baina ez genekien zehazki bere funtzionamendua nolakoa zen; bere egitura ezagutzea ahalbidetu digu, baita bilatzaileak dituen prozesuak ere. Googlek dituen aukera eta abantailak ikaragarriak dira, eta bilatzen duenarentzat erosoa da sarean ibiltzea bilatzaile honen bidez. Zehazki bilatu nahi dena aurkitzeko erabiltzen dituen prozesu eta algoritmoak zein diren ikusi ondoren ohartu gara Googlen arrakastaren arrazoia zein izan den: erabiltzaileak bilatu nahi duena bilatzen du, oso era eraginkorrean. 10
  • 11. 4. Bibliografia Google América Latina Blog Blog Adbot Google Insidesearch ABC Egunkaria Portal Programas Wikipedia Publiceuta 11
  • 12. 5. ERANSKINAK a. Bilatzailearen funtzionamendua 12