SlideShare uma empresa Scribd logo
1 de 96
Baixar para ler offline
Search
Corso di formazione d’Eccellenza in Web 2.0, online
        business e social media marketing

                 Social Media Lab
                 Universita’ IULM

         Govoni Riccardo - 28/Apr/2009
Intro
Di cosa si parla oggi?
Intro

• Il Web, la ricerca quantitativa e
    l’informazione strutturata
• Fonti dati e disponibilita’
• Data & Text mining
•   Case studies ed esempi
Web

An internet firewall, as seen from www.warriorsofthe.net
Breve storia del web
• Da 3 terminali a 1.1B utenti
• Arpanet e il TCP/IP
• Cern e WWW
• HTTP ed il modello page-by-page
• HTML ed i linguaggi di markup
• La crescita esponenziale, i motori di ricerca
HTML
• Linguaggio di markup piu’ popolare per
  contenuti web
• prima apparizione nel 1991, formalizzato
  nel 1993
• E’ de-facto il mattone base del world-wide-
  web...
• ma l’ultima revisione (HTML 4.01) risale al
  1999 !
HTML
• Pro:
 • Semplicita’
 • Portabilita’
• Contro:
 • Applicabilita’ limitata nella sua concezione
    originale
  • Commistione di presentazione e
    contenuto
L’esplosione del web
HTML
• Perfetto per contenuti testuali
• Pessimo per lo scambio dati
• Un layer di presentazione di troppo
  successo

             Text           Data




          Human           Machine
HTML (cont.)
HTML (cont.)
<td>1</td>
<td>
 <span class=quot;flagiconquot;>
   <a href=quot;/wiki/File:Flag_of_Utah.svgquot;
     class=quot;imagequot; title=quot;Flag of Utah.svgquot;>
   <img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot;
      width=quot;22quot; height=quot;15quot; border=quot;0quot;
      class=quot;thumbborderquot; />
   </a>&#160;</span>
   <a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a>
</td>
<td>2.50</td>
Altri standard

• Cascading Style Sheet (CSS)
• Javascript
• Flash
• eXtensible Markup Language (XML)
• Really Simple Syndication (RSS)
Ricerca Quantitativa
Dato, Misura, Ripetibilita’, Statistica, Esperimento




                                  2-var normal gaussian distribution
Ricerca Quantitativa
Ricerca Qualitativa
Obiettivo

• dati, dati, dati
• Hard numbers, quantita' verificabili,
  datasets, serie storiche.
• Esistono sul web? Esistono in formati aperti
  a successive analisi?
Come trovarli?

• Ehi, ma il web e’ (quasi) tutto testo!
• Identifichiamo le fonti dati disponibili
• Preferiamo l’utilizzo di informazioni
  strutturate
Searching...
    Dal testo ai dati
Alcuni esempi


• Google Insights for Search
• Google Ad Planner
Insights for Search




http://www.google.com/insights/search/
Esempi

• Seasonality
• Brand recognition
• Marketing response
• Demographics
• Sales Trends
Demographics: Obesity
Demographics: Obesity

•   Google insights for search for obesity - weight loss

•   http://calorielab.com/news/wp-images/post-images/
    fattest-states-2007.gif

•   http://www.google.com/insights/search/#cat=&q=Weight
    %20Loss&geo=US&date=&clp=&cmpt=geo
Demographics: Swine Flu
Demographics: Swine Flu

•   Google insights for search for swine flu

•   http://en.wikipedia.org/wiki/
    2009_swine_flu_outbreak_in_the_United_States

•   http://www.google.com/insights/search/#q=swine
    %20flu&geo=US&date=today%207-d&cmpt=geo
Google Ad Planner
[Un]structured information
        Why structure matters




            Never tell a typographer that text is “just text”
Perche’ e’ importante?
• Importanza dell’informazione strutturata
  per l’analisi quantitativa
• Gestire l’information overload
• Facilitano l’elaborazione automatica
• Ripetibilita’ del processo di analisi
• Migliore interpretazione del dato: meno
  soggettivo, piu’ oggettivo.
Text
                    RSS
Data Provisioning
             CSV

                    Microformat
 Semantic Web
                          API
Microformats
Embedding structured info under the hood



                                   An example of microchip art. Milhouse on a Sil154CT64 chip
Cosa sono?
   “Designed for humans first and machines
   second, microformats are a set of simple,
   open data formats built upon existing and
   widely adopted standards.”




http://microformats.org/
Cosa sono?
• Un sistema totalmente compatibile con gli
  standard esistenti (HTML, XHTML) per
  arricchire i contenuti web con metadati
  semantici
• Un tentativo per risolvere la commistione
  tra presentazione e contenuto dell’ HTML.
• Ad esempio: contact details, coordinate
  geografiche, eventi di calendario.
Microformat:geo
 Informazioni geografiche: http://microformats.org/wiki/geo


                                              per l’utente
                                 N 37° 24.491 W 122° 08.313




per la macchina
<div class=quot;geoquot;>
 <abbr class=quot;latitudequot; title=quot;37.408183quot;>N 37° 24.491</abbr>
 <abbr class=quot;longitudequot; title=quot;-122.13855quot;>W 122° 08.313</abbr>
</div>
Microformat:xfn
 Informazioni sociali: http://en.wikipedia.org/wiki/XHTML_Friends_Network


                                                      per l’utente
                                            Riccardo Govoni




per la macchina
<a href=quot;http://www.battlehorse.net/quot; rel=quot;colleaguequot;>
  Riccardo Govoni
</a>
Search Engines
  • Yahoo Search Monkey
     http://developer.yahoo.net/blog/archives/2008/12/monkey_finds_microformats_and_rdf.html


  • Google Social Graph APIs
     http://code.google.com/apis/socialgraph/




http://microformats.org/wiki/search-engines
Semantic Web
<item rdf:about=quot;http://dbpedia.org/resource/Catquot;>Cat</item>




 Artwork of the W3C Semantic Web logo
Semantic Web
    “Semantic technologies include software
    standards and methodologies that are
    aimed at providing more explicit meaning
    for the information that's at our disposal”
                         http://www.semantic-conference.com/primer.html


•   E’ un set di principi, standard e tecnologie volta a superare la limitazione del
    web odierno nel discernere presentazione da contenuto.

•   E’ una forma di fruizione dell’universo di informazioni presenti sul web
    orientata all’elaborazione da parte di una macchina.
Cos’e’ una lista? E uno stato?
Cos’e’ una lista?
<td>1</td>
<td>
 <span class=quot;flagiconquot;>
   <a href=quot;/wiki/File:Flag_of_Utah.svgquot;
     class=quot;imagequot; title=quot;Flag of Utah.svgquot;>
   <img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot;
      width=quot;22quot; height=quot;15quot; border=quot;0quot;
      class=quot;thumbborderquot; />
   </a>&#160;</span>
   <a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a>
</td>
<td>2.50</td>
Le tecnologie in gioco
OWL

• Ontologia: una rappresentazione formale di
  un set di concetti all’interno di un dominio
  definito e delle relazioni che li collegano
• OWL (Web Ontology Language):
  Linguaggio per la definizione di ontologie.
RDF

• RDF (Resource Description Framework):
  un’insieme di specifiche per la descrizione e
  modellazione di ‘risorse’ in forma di triple
  “Soggetto - Predicato - Oggetto”
• SPARQL: linguaggio di ricerca per risorse
  descritte tramite RDF.
RDF: esempio
<RDF:RDF xmlns:RDF=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
         xmlns:ANIMALS=quot;http://www.some-fictitious-zoo.com/rdf#quot;>


 <RDF:Seq about=quot;http://www.some-fictitious-zoo.com/all-animalsquot;>
   <RDF:li>
      <RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/lionquot;>
         <ANIMALS:name>Lion</ANIMALS:name>
         <ANIMALS:species>Panthera leo</ANIMALS:species>
         <ANIMALS:class>Mammal</ANIMALS:class>
      </RDF:Description>
   </RDF:li>
   <RDF:li>
      <RDF:Description about=quot;http://www.some-fictitious-zoo.com/arachnids/tarantulaquot;>
         <ANIMALS:name>Tarantula</ANIMALS:name>
         <ANIMALS:species>Avicularia avicularia</ANIMALS:species>
         <ANIMALS:class>Arachnid</ANIMALS:class>
      </RDF:Description>
   </RDF:li>
   <RDF:li>
      <RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/hippopotamusquot;>
         <ANIMALS:name>Hippopotamus</ANIMALS:name>
         <ANIMALS:species>Hippopotamus amphibius</ANIMALS:species>
         <ANIMALS:class>Mammal</ANIMALS:class>
      </RDF:Description>
   </RDF:li>
 </RDF:Seq>
</RDF:RDF>
RDF: esempio


• http://creativecommons.org/licenses/by/3.0/
FOAF


• FOAF (Friend of a Friend): E’ un’ ontologia
  rivolta alla descrizione di persone e reti
  sociali.
FOAF example
<rdf:RDF
  xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;
  xmlns:rdfs=quot;http://www.w3.org/2000/01/rdf-schema#quot;
  xmlns:foaf=quot;http://xmlns.com/foaf/0.1/quot;>
<foaf:Person>
  <foaf:name>Sam Ruby</foaf:name>
  <foaf:firstName>Sam</foaf:firstName>
  <foaf:surname>Ruby</foaf:surname>
  <foaf:nick>rubys</foaf:nick>
  <foaf:mbox_sha1sum>703471c6f39094d88665d24ce72c42fdc5f20585</foaf:mbox_sha1sum>
  <foaf:homepage rdf:resource=quot;http://www.intertwingly.net/quot;/>
  <foaf:depiction rdf:resource=quot;http://www.intertwingly.net/images/SamR_small.jpgquot;/>
  <foaf:workplaceHomepage rdf:resource=quot;http://www.ibm.com/quot;/>
  <foaf:schoolHomepage rdf:resource=quot;http://www.cnu.edu/quot;/>

  <!-- DJ Adams -->
  <foaf:knows>
    <foaf:Person rdf:ID=quot;djquot;>
      <foaf:givenName>DJ</foaf:givenName>
      <foaf:surname>Adams</foaf:surname>
      <foaf:mbox rdf:resource=quot;mailto:dj.adams@pobox.comquot;/>
      <rdfs:seeAlso rdf:resource=quot;http://www.pipetree.com/~dj/foaf.rdfquot;/>
    </foaf:Person>
  </foaf:knows>
...
Case: Open Calais
       http://www.opencalais.com/
       http://viewer.opencalais.com/

• Calais, un progetto Thomson Reuters, e’ un
  servizio online per la conversione di testo
  non strutturato in strutture semantiche,
  utilizzando tecniche di Natural language
  Processing e Machine Learning.
• Esempio: Gnosis
• Alternative: KIM - OntoText
Gnosis
API
                                            Application
                                            Programming
                                            Interface




Tektronix 556 dual beam spectrum analyzer
API
•   Il modo migliore per avere
    accesso a dati strutturati.

•   Permettono all’utente
    (programmatore) l’accesso al
    dato saltando il layer di
    presentazione (HTML).

•   Sono ubiquitarie: ricerca, e-
    commerce, news, finance, reti
    sociali, photo, mapping, mobile,
    travel, music, ovunque.

•   Sono componibili (Mashups).
API
• Sono rivolte a “programmatori”, ma ...
• Riducono la barriera di accesso
  all’informazione per chiunque
• Rendono possibile l’accesso a sistemi che il
  singolo non sarebbe in grado di ottenere.
• Sono espressione dell’idea di “open
  communication” come forma di auto-
  gestione del web.
• Sono un esempio digitale di mutua simbiosi.
Twitter API
{
    quot;trendsquot;:{
       quot;2009-04-27 22:10:19quot;:[
          {
             quot;queryquot;:quot;quot;Swine Fluquot; OR Fluquot;,
             quot;namequot;:quot;Swine Fluquot;
          },
          {
             quot;queryquot;:quot;#swinefluquot;,
             quot;namequot;:quot;#swinefluquot;
          },
          {
             quot;queryquot;:quot;Mexicoquot;,
             quot;namequot;:quot;Mexicoquot;
          },
          {
             quot;queryquot;:quot;#musicmondayquot;,
             quot;namequot;:quot;#musicmondayquot;
          },
          {
             quot;queryquot;:quot;#savechuckquot;,
             quot;namequot;:quot;#savechuckquot;
          }                                    http://search.twitter.com/trends/current.json
       ]
    },
    quot;as_ofquot;:1240870219
}
New York Times APIs




        http://developer.nytimes.com/docs
NYT elastic lists


            Text




     http://moritz.stefaner.eu/projects/elastic-lists/NYT/
Mashups
Blending the web together
Mashups
• Applicazioni web che combinano dati
  provenienti da piu’ fonti in una singola
  funzionalita’ integrata.
• Si basano quasi sempre sulle API rese
  disponibili dai singoli servizi
• Offrono a non sviluppatori l’accesso a
  informazioni strutturate “pre-digerite”
• Yahoo pipes (e.g.: Social Media Tracker)
• Programmable Web
Yahoo Pipes




http://pipes.yahoo.com/pjdonnellywork/5bd39564344cffbc9c9fabbeecec1576
Programmable Web
• La risorsa di riferimento, dove aggiornarsi
  su API e Mashups disponibili
Programmable Web
• http://www.liveplasma.com/
• http://dev.benedictoneill.com/bbc/
• http://imagine-it.org/amazong/arbore.php?
  XMLFileName=0738204315.xml
• http://imagine-it.org/amazong/
  vissimweb.htm
At the end,
                                          it’s all text...
                                          Introduzione al Text processing e
                                          Text mining




Book of Kells, Trinity College, Dublino
Data mining
• Il problema dell’information overload
• Data mining “is the process of extracting
  hidden patterns from data”
• Il Data mining si divide in 2 rami: Discovery
  e Prediction
• Il Data mining riguarda 4 classi di problemi:
  Classification, Clustering, Regression,
  Pattern Inference
Text mining,
 Information Retrieval
• ramo del Data Mining, focalizzato
  all’estrazione di dati a partire da corpora
  testuali.
• Sottogruppi: text clustering, normalization,
  entity recognition, summarization,
  computational linguistics, natural language
  processing
Zipf distribution
 Originally, Zipf's law stated that, “in a corpus of natural
 language utterances, the frequency of any word is roughly
 inversely proportional to its rank in the frequency table”.




http://www.ohohlfeld.com/zipf.html
tf-idf
• Le basi della ricerca testuale:
 • All’interno di un corpo di testo, come
    distinguere i termini che danno un contributo
    significativo ad un documento, rispetto ai
    connettivi?
• Valorizzare i termini che appaiono spesso in un
  documento
• Penalizzare i termini che appaiono spesso
  nell’intero corpus
tf-idf


• tf-idf : Term Frequency / Inverse Document Freq.
• Term weighting:    aij = f(Lij,Gi,Nj) = Lij Gi Nj


• Classic tf-idf:

            http://irthoughts.wordpress.com/2008/07/07/understanding-tfidf/
Clustering
• Identificare una struttura in un’insieme di
  dati non noti a priori.
• Organizzare oggetti in gruppi i cui mmbri
  sono simili secondo una certa metrica.




  http://home.dei.polimi.it/matteucc/
 Clustering/tutorial_html/index.html
Graph Theory
•   the study of graphs: mathematical structures
    used to model pairwise relations between
    objects from a certain collection.

•   A quot;graphquot; in this context refers to a collection
    of vertices or 'nodes' and a collection of
    edges that connect pairs of vertices. A graph
    may be undirected, meaning that there is no
    distinction between the two vertices
    associated with each edge, or its edges may be
    directed from one vertex to another.
Graph Theory
Graph Theory e Clustering
• Entrambe le teorie si basano sul concetto
   di metrica. Perche’ non sfruttarlo?
• Esempio: identificare gruppi all’interno di un
   network sociale.
Esempio: processing battlehorse.net
Machine learning
• Riguarda il disegno e lo sviluppo di
  algoritmi che permettono ad un computer
  di migliorare le proprie capacita’ nel
  tempo, sulla base dei dati a disposizione.
• Include numerose discipline usate
  quotidianamente per gestire l’enorme mole
  di dati disponibile sul web.
Case study: Enron
• Enron ando’ in bancarotta il 2 Dicembre
  2001, a seguito di scandali e illegalita’
  finanziarie.
• Per effetto delle indagini, un corpus di
  200.000(*) email riguardanti 150 persone e’
  diventato di dominio pubblico: il dataset
  Enron.
L’analisi quantitativa
• Utilizziamo i legami mittente-destinatario
  per creare grafi di relazioni, da cui estrarre
  informazioni sociali in base ai volumi di
  scambio: chi parla con chi? chi agisce da
  accentratore?
Enron: riferimenti


•   http://www.cs.cmu.edu/~enron/

•   http://jheer.org/enron/

•   http://www.cs.umass.edu/~ronb/enron_dataset.html
BayesFor
                  Un caso di studio su
                  Web crawling e Media monitoring


www.bayesfor.eu
BayesFor.eu
•   Un’associazione che si propone di promuovere e realizzare
    ricerche, studi o sperimentazioni in materia di analisi dei dati
    e utilizzo di tecniche statistiche

•   Ha l’obiettivo di fare spidering di fonti sul web con lo scopo
    di estrarre informazioni, come ad esempio:

    •   Correlazione tra concetti semantici nel tempo

    •   Associazioni tra concetti semantici e publisher

    •   Media bias e relazioni tra informazioni e notizie

    •   Interrelazione tra news, media e mercati finanziari
Come funziona?
• Lista di fonti (siti di quotidiani italiani ed
  esteri, agenzie di stampa, feed rss, etc...)
• Lista di topics di interesse, incrementata
  dinamicamente in base alla popolarita’
• Un motore di crawling web
• Un archivio dati con memoria storica dei
  contenuti analizzati fino ad oggi
• Strumenti di analisi statistica e numerica
Volumi
• ca. 200 fonti : portali, news websites, feeds
• 40000 termini lessicali tracciati
  giornalmente
• 20M di termini identificati negli ultimi 5
  mesi
• ~ 50Mb di dati giornalieri : come 60 libri di
  300 pagine l’uno
• ~ 25Gb di dati accumulati da fine 2007,
  come una biblioteca di 40.000 volumi
Il processo di
                      estrazione
                              Estrazione automatica dei contenuti delle pagine web di
       Crawling               interesse.

       Archival               Archiviazione storica per giorno e per fonte

                              Rimozione della formattazione indesiderata. Pulizia del
       Cleaning
                              codice HTML e della punteggiatura.

       Filtering              Separazione delle stop-word per ogni lingua analizzata


      Stemming                Identificazione delle radici lessicali e raggruppamento

                              Pesatura dei termini in base a posizione e prominenza
      Weighting               all’interno delle pagine web

Indexing           Analysis          Indicizzazione, ricerca e analisi statistica
Graph theory & News
       events
Case: Primarie PD
True Value                                                                    Predicted




            Candidato                      True Value                       Predicted
             Veltroni                        75.81%                           68.95%
              Bindi                          12.88%                           15.47%
              Letta                          11.07%                           15.47%
  Bonazzi A., Brunori P., Govoni R., Lampronti G.I., and Zandi M. Italy 2008 Polls, Web Visibility and
    Election Results, EDem2008 E-Democracy Conference proceedings, Danube University Krems
Zandi, Grippa, Bazarnick, Brunori, Frongia, Govoni, Bonazzi, Poster: Media Behavior During 2008
   Electoral Campaign: a Web Content Analyis, SUNBELT Annual Conference, San Diego USA
Case: 2008 US Presidential Campaign
Web
Datasets
Dove stanno i dati sul web?
Quali datasets sono disponibili?




                                   Oracle headquarters, California
Datasets?

• Wikipedia Dump: http://download.wikimedia.org/
• il caso Enron: http://www.cs.cmu.edu/~enron/
• Grouplens: http://www.grouplens.org/taxonomy/term/14
• swivel.com , many-eyes.com
• http://www.gapminder.org/
•   http://www.ted.com/index.php/talks/
    hans_rosling_shows_the_best_stats_you_ve_ever_seen.html
J. Minard map of Napoleon’s Russia campaign. ca 1861.




Data Visualization
Un’immagine vale piu’ di mille parole
Data Visualization

• Processing:
 • http://www.processing.org
 • http://www.openprocessing.org
• Google Visualization APIs
 • http://code.google.com/apis/visualization/
Thanks

Mais conteúdo relacionado

Destaque

Linux Apache Php Mysql Lamp1273
Linux Apache Php Mysql Lamp1273Linux Apache Php Mysql Lamp1273
Linux Apache Php Mysql Lamp1273hussulinux
 
Keek login sign in
Keek login sign inKeek login sign in
Keek login sign inross967
 
Tenantify Sample Verification Report
Tenantify Sample Verification ReportTenantify Sample Verification Report
Tenantify Sample Verification ReportSonghua Hu
 
What is mathematical discourse
What is mathematical discourseWhat is mathematical discourse
What is mathematical discourseChris Siew
 
Writing blog posts in AP Style
Writing blog posts in AP StyleWriting blog posts in AP Style
Writing blog posts in AP Stylejour232
 
Future of Diet
Future of DietFuture of Diet
Future of DietKomal Faiz
 

Destaque (10)

Linux Apache Php Mysql Lamp1273
Linux Apache Php Mysql Lamp1273Linux Apache Php Mysql Lamp1273
Linux Apache Php Mysql Lamp1273
 
Keek login sign in
Keek login sign inKeek login sign in
Keek login sign in
 
Tenantify Sample Verification Report
Tenantify Sample Verification ReportTenantify Sample Verification Report
Tenantify Sample Verification Report
 
Drupal 7 Queues
Drupal 7 QueuesDrupal 7 Queues
Drupal 7 Queues
 
Java easy learning
Java easy  learningJava easy  learning
Java easy learning
 
KioWare Lite Kiosk Software Demo
KioWare Lite Kiosk Software DemoKioWare Lite Kiosk Software Demo
KioWare Lite Kiosk Software Demo
 
installation_manual
installation_manualinstallation_manual
installation_manual
 
What is mathematical discourse
What is mathematical discourseWhat is mathematical discourse
What is mathematical discourse
 
Writing blog posts in AP Style
Writing blog posts in AP StyleWriting blog posts in AP Style
Writing blog posts in AP Style
 
Future of Diet
Future of DietFuture of Diet
Future of Diet
 

Semelhante a Riccardo Govoni - Search

Sviluppo web con Ruby on Rails
Sviluppo web con Ruby on RailsSviluppo web con Ruby on Rails
Sviluppo web con Ruby on Railsjekil
 
Web Performance Optimization
Web Performance OptimizationWeb Performance Optimization
Web Performance OptimizationAlessandro Martin
 
Il web intelligente
Il web intelligenteIl web intelligente
Il web intelligenteDavide Cerbo
 
Il nuovo Portale della Provincia di Grosseto
Il nuovo Portale della Provincia di GrossetoIl nuovo Portale della Provincia di Grosseto
Il nuovo Portale della Provincia di GrossetoClaudio Masia
 
Master in giornalismo, corso di web design - 1 di 4
Master in giornalismo, corso di web design - 1 di 4Master in giornalismo, corso di web design - 1 di 4
Master in giornalismo, corso di web design - 1 di 4Luca Di Bella
 
I Linguaggi Del Web (1° Giornata)
I Linguaggi Del Web (1° Giornata)I Linguaggi Del Web (1° Giornata)
I Linguaggi Del Web (1° Giornata)Diego La Monica
 
Il Web Del Futuro Visioni E Idee Sul Web Semantico
Il  Web Del Futuro    Visioni E  Idee Sul  Web  SemanticoIl  Web Del Futuro    Visioni E  Idee Sul  Web  Semantico
Il Web Del Futuro Visioni E Idee Sul Web SemanticoSimone Onofri
 
Nicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelNicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelMeet Magento Italy
 
Introduzione Alla Web Analytics
Introduzione Alla Web AnalyticsIntroduzione Alla Web Analytics
Introduzione Alla Web AnalyticsMarco
 
Introduzione Alla Web Analytics
Introduzione Alla Web AnalyticsIntroduzione Alla Web Analytics
Introduzione Alla Web AnalyticsMarco
 
... thinking about Microformats!
... thinking about Microformats!... thinking about Microformats!
... thinking about Microformats!Stefano Fago
 
Tecniche e Best Practice nella costruzione di Form accessibili per il Web
Tecniche e Best Practice nella costruzione di Form accessibili per il WebTecniche e Best Practice nella costruzione di Form accessibili per il Web
Tecniche e Best Practice nella costruzione di Form accessibili per il WebRoberto Zucchetto
 
Sviluppare estensioni per google chrome
Sviluppare estensioni per google chromeSviluppare estensioni per google chrome
Sviluppare estensioni per google chromeMarco Vito Moscaritolo
 
IC2009 Anatomia di un Semantic Search Engine
IC2009 Anatomia di un Semantic Search EngineIC2009 Anatomia di un Semantic Search Engine
IC2009 Anatomia di un Semantic Search EngineEmanuele Della Valle
 
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...SAS Italy
 
Laboratorio Di Basi Di Dati 06 Programmazione Web Lato Client
Laboratorio Di  Basi Di  Dati 06  Programmazione  Web Lato ClientLaboratorio Di  Basi Di  Dati 06  Programmazione  Web Lato Client
Laboratorio Di Basi Di Dati 06 Programmazione Web Lato Clientguestbe916c
 

Semelhante a Riccardo Govoni - Search (20)

Oai Data Adapter
Oai Data AdapterOai Data Adapter
Oai Data Adapter
 
Dal Click Al Web Server
Dal Click Al Web ServerDal Click Al Web Server
Dal Click Al Web Server
 
Sviluppo web con Ruby on Rails
Sviluppo web con Ruby on RailsSviluppo web con Ruby on Rails
Sviluppo web con Ruby on Rails
 
Web Performance Optimization
Web Performance OptimizationWeb Performance Optimization
Web Performance Optimization
 
Il web intelligente
Il web intelligenteIl web intelligente
Il web intelligente
 
Il nuovo Portale della Provincia di Grosseto
Il nuovo Portale della Provincia di GrossetoIl nuovo Portale della Provincia di Grosseto
Il nuovo Portale della Provincia di Grosseto
 
Master in giornalismo, corso di web design - 1 di 4
Master in giornalismo, corso di web design - 1 di 4Master in giornalismo, corso di web design - 1 di 4
Master in giornalismo, corso di web design - 1 di 4
 
HTML5
HTML5HTML5
HTML5
 
I Linguaggi Del Web (1° Giornata)
I Linguaggi Del Web (1° Giornata)I Linguaggi Del Web (1° Giornata)
I Linguaggi Del Web (1° Giornata)
 
Il Web Del Futuro Visioni E Idee Sul Web Semantico
Il  Web Del Futuro    Visioni E  Idee Sul  Web  SemanticoIl  Web Del Futuro    Visioni E  Idee Sul  Web  Semantico
Il Web Del Futuro Visioni E Idee Sul Web Semantico
 
Nicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelNicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next level
 
Introduzione Alla Web Analytics
Introduzione Alla Web AnalyticsIntroduzione Alla Web Analytics
Introduzione Alla Web Analytics
 
Introduzione Alla Web Analytics
Introduzione Alla Web AnalyticsIntroduzione Alla Web Analytics
Introduzione Alla Web Analytics
 
... thinking about Microformats!
... thinking about Microformats!... thinking about Microformats!
... thinking about Microformats!
 
Tecniche e Best Practice nella costruzione di Form accessibili per il Web
Tecniche e Best Practice nella costruzione di Form accessibili per il WebTecniche e Best Practice nella costruzione di Form accessibili per il Web
Tecniche e Best Practice nella costruzione di Form accessibili per il Web
 
Sviluppare estensioni per google chrome
Sviluppare estensioni per google chromeSviluppare estensioni per google chrome
Sviluppare estensioni per google chrome
 
IC2009 Anatomia di un Semantic Search Engine
IC2009 Anatomia di un Semantic Search EngineIC2009 Anatomia di un Semantic Search Engine
IC2009 Anatomia di un Semantic Search Engine
 
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
 
Realizzare un sito web
Realizzare un sito webRealizzare un sito web
Realizzare un sito web
 
Laboratorio Di Basi Di Dati 06 Programmazione Web Lato Client
Laboratorio Di  Basi Di  Dati 06  Programmazione  Web Lato ClientLaboratorio Di  Basi Di  Dati 06  Programmazione  Web Lato Client
Laboratorio Di Basi Di Dati 06 Programmazione Web Lato Client
 

Mais de Social Media Lab

Frieda Brioschi - La Community di Wikipedia Italia
Frieda Brioschi - La Community di Wikipedia Italia Frieda Brioschi - La Community di Wikipedia Italia
Frieda Brioschi - La Community di Wikipedia Italia Social Media Lab
 
Marco De Rossi - Imprenditorialità e formazione online: Oil Project
Marco De Rossi - Imprenditorialità e formazione online: Oil Project Marco De Rossi - Imprenditorialità e formazione online: Oil Project
Marco De Rossi - Imprenditorialità e formazione online: Oil Project Social Media Lab
 
Davide Casali - Social Interaction Design
Davide Casali - Social Interaction Design Davide Casali - Social Interaction Design
Davide Casali - Social Interaction Design Social Media Lab
 
Francesco Fullone - Project Management 2.0
Francesco Fullone - Project Management 2.0Francesco Fullone - Project Management 2.0
Francesco Fullone - Project Management 2.0Social Media Lab
 
Gianandrea Giacoma - Mo De Agganci
Gianandrea Giacoma - Mo De AgganciGianandrea Giacoma - Mo De Agganci
Gianandrea Giacoma - Mo De AgganciSocial Media Lab
 
Gianandrea Giacoma - Psicologia Dei Nuovi Media
Gianandrea Giacoma - Psicologia Dei Nuovi MediaGianandrea Giacoma - Psicologia Dei Nuovi Media
Gianandrea Giacoma - Psicologia Dei Nuovi MediaSocial Media Lab
 
Livia Iacolare - Web e TV: Gli esperimenti di Current
Livia Iacolare - Web e TV: Gli esperimenti di CurrentLivia Iacolare - Web e TV: Gli esperimenti di Current
Livia Iacolare - Web e TV: Gli esperimenti di CurrentSocial Media Lab
 
Stefano Maffulli - Etica nella Società Digitale
Stefano Maffulli - Etica nella Società DigitaleStefano Maffulli - Etica nella Società Digitale
Stefano Maffulli - Etica nella Società DigitaleSocial Media Lab
 
Alessandro Galetto - Mobile Web
Alessandro Galetto - Mobile WebAlessandro Galetto - Mobile Web
Alessandro Galetto - Mobile WebSocial Media Lab
 
Gabriele Niola - Cinema E Web
Gabriele Niola - Cinema E WebGabriele Niola - Cinema E Web
Gabriele Niola - Cinema E WebSocial Media Lab
 
Dalla strategia alla delivery quotidiana
Dalla strategia alla delivery quotidianaDalla strategia alla delivery quotidiana
Dalla strategia alla delivery quotidianaSocial Media Lab
 
L'Innovazione non è un'autostrada
L'Innovazione non è un'autostradaL'Innovazione non è un'autostrada
L'Innovazione non è un'autostradaSocial Media Lab
 
Game studies - Federico Fasce
Game studies - Federico FasceGame studies - Federico Fasce
Game studies - Federico FasceSocial Media Lab
 
Gianluca Diegoli - Il nuovo marketing: 91 tesi
Gianluca Diegoli - Il nuovo marketing: 91 tesiGianluca Diegoli - Il nuovo marketing: 91 tesi
Gianluca Diegoli - Il nuovo marketing: 91 tesiSocial Media Lab
 
Social Media Branding - Maurizio Goetz
Social Media Branding - Maurizio GoetzSocial Media Branding - Maurizio Goetz
Social Media Branding - Maurizio GoetzSocial Media Lab
 
Mauro Lupi - Marketing and Advertising 2.0
Mauro Lupi - Marketing and Advertising 2.0Mauro Lupi - Marketing and Advertising 2.0
Mauro Lupi - Marketing and Advertising 2.0Social Media Lab
 
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...Social Media Lab
 

Mais de Social Media Lab (20)

Frieda Brioschi - La Community di Wikipedia Italia
Frieda Brioschi - La Community di Wikipedia Italia Frieda Brioschi - La Community di Wikipedia Italia
Frieda Brioschi - La Community di Wikipedia Italia
 
Marco De Rossi - Imprenditorialità e formazione online: Oil Project
Marco De Rossi - Imprenditorialità e formazione online: Oil Project Marco De Rossi - Imprenditorialità e formazione online: Oil Project
Marco De Rossi - Imprenditorialità e formazione online: Oil Project
 
Davide Casali - Social Interaction Design
Davide Casali - Social Interaction Design Davide Casali - Social Interaction Design
Davide Casali - Social Interaction Design
 
Francesco Fullone - Project Management 2.0
Francesco Fullone - Project Management 2.0Francesco Fullone - Project Management 2.0
Francesco Fullone - Project Management 2.0
 
Gianandrea Giacoma - Mo De Agganci
Gianandrea Giacoma - Mo De AgganciGianandrea Giacoma - Mo De Agganci
Gianandrea Giacoma - Mo De Agganci
 
Gianandrea Giacoma - Psicologia Dei Nuovi Media
Gianandrea Giacoma - Psicologia Dei Nuovi MediaGianandrea Giacoma - Psicologia Dei Nuovi Media
Gianandrea Giacoma - Psicologia Dei Nuovi Media
 
Livia Iacolare - Web e TV: Gli esperimenti di Current
Livia Iacolare - Web e TV: Gli esperimenti di CurrentLivia Iacolare - Web e TV: Gli esperimenti di Current
Livia Iacolare - Web e TV: Gli esperimenti di Current
 
Stefano Maffulli - Etica nella Società Digitale
Stefano Maffulli - Etica nella Società DigitaleStefano Maffulli - Etica nella Società Digitale
Stefano Maffulli - Etica nella Società Digitale
 
Alessandro Galetto - Mobile Web
Alessandro Galetto - Mobile WebAlessandro Galetto - Mobile Web
Alessandro Galetto - Mobile Web
 
Gabriele Niola - Cinema E Web
Gabriele Niola - Cinema E WebGabriele Niola - Cinema E Web
Gabriele Niola - Cinema E Web
 
Davide Turi - Moltomedia
Davide Turi - MoltomediaDavide Turi - Moltomedia
Davide Turi - Moltomedia
 
Dalla strategia alla delivery quotidiana
Dalla strategia alla delivery quotidianaDalla strategia alla delivery quotidiana
Dalla strategia alla delivery quotidiana
 
L'Innovazione non è un'autostrada
L'Innovazione non è un'autostradaL'Innovazione non è un'autostrada
L'Innovazione non è un'autostrada
 
Tomas Barazza - Log607
Tomas Barazza - Log607Tomas Barazza - Log607
Tomas Barazza - Log607
 
Game studies - Federico Fasce
Game studies - Federico FasceGame studies - Federico Fasce
Game studies - Federico Fasce
 
Gianluca Diegoli - Il nuovo marketing: 91 tesi
Gianluca Diegoli - Il nuovo marketing: 91 tesiGianluca Diegoli - Il nuovo marketing: 91 tesi
Gianluca Diegoli - Il nuovo marketing: 91 tesi
 
Social Media Branding - Maurizio Goetz
Social Media Branding - Maurizio GoetzSocial Media Branding - Maurizio Goetz
Social Media Branding - Maurizio Goetz
 
Vincenzo Cosenza - PR 2.0
Vincenzo Cosenza - PR 2.0Vincenzo Cosenza - PR 2.0
Vincenzo Cosenza - PR 2.0
 
Mauro Lupi - Marketing and Advertising 2.0
Mauro Lupi - Marketing and Advertising 2.0Mauro Lupi - Marketing and Advertising 2.0
Mauro Lupi - Marketing and Advertising 2.0
 
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
 

Último

descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptcarlottagalassi
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 

Último (19)

descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Confronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.pptConfronto tra Sparta e Atene classiche.ppt
Confronto tra Sparta e Atene classiche.ppt
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 

Riccardo Govoni - Search

  • 1. Search Corso di formazione d’Eccellenza in Web 2.0, online business e social media marketing Social Media Lab Universita’ IULM Govoni Riccardo - 28/Apr/2009
  • 2. Intro Di cosa si parla oggi?
  • 3. Intro • Il Web, la ricerca quantitativa e l’informazione strutturata • Fonti dati e disponibilita’ • Data & Text mining • Case studies ed esempi
  • 4. Web An internet firewall, as seen from www.warriorsofthe.net
  • 5. Breve storia del web • Da 3 terminali a 1.1B utenti • Arpanet e il TCP/IP • Cern e WWW • HTTP ed il modello page-by-page • HTML ed i linguaggi di markup • La crescita esponenziale, i motori di ricerca
  • 6. HTML • Linguaggio di markup piu’ popolare per contenuti web • prima apparizione nel 1991, formalizzato nel 1993 • E’ de-facto il mattone base del world-wide- web... • ma l’ultima revisione (HTML 4.01) risale al 1999 !
  • 7. HTML • Pro: • Semplicita’ • Portabilita’ • Contro: • Applicabilita’ limitata nella sua concezione originale • Commistione di presentazione e contenuto
  • 9. HTML • Perfetto per contenuti testuali • Pessimo per lo scambio dati • Un layer di presentazione di troppo successo Text Data Human Machine
  • 11. HTML (cont.) <td>1</td> <td> <span class=quot;flagiconquot;> <a href=quot;/wiki/File:Flag_of_Utah.svgquot; class=quot;imagequot; title=quot;Flag of Utah.svgquot;> <img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot; width=quot;22quot; height=quot;15quot; border=quot;0quot; class=quot;thumbborderquot; /> </a>&#160;</span> <a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a> </td> <td>2.50</td>
  • 12. Altri standard • Cascading Style Sheet (CSS) • Javascript • Flash • eXtensible Markup Language (XML) • Really Simple Syndication (RSS)
  • 13. Ricerca Quantitativa Dato, Misura, Ripetibilita’, Statistica, Esperimento 2-var normal gaussian distribution
  • 16. Obiettivo • dati, dati, dati • Hard numbers, quantita' verificabili, datasets, serie storiche. • Esistono sul web? Esistono in formati aperti a successive analisi?
  • 17. Come trovarli? • Ehi, ma il web e’ (quasi) tutto testo! • Identifichiamo le fonti dati disponibili • Preferiamo l’utilizzo di informazioni strutturate
  • 18. Searching... Dal testo ai dati
  • 19. Alcuni esempi • Google Insights for Search • Google Ad Planner
  • 21. Esempi • Seasonality • Brand recognition • Marketing response • Demographics • Sales Trends
  • 22.
  • 23.
  • 24.
  • 26. Demographics: Obesity • Google insights for search for obesity - weight loss • http://calorielab.com/news/wp-images/post-images/ fattest-states-2007.gif • http://www.google.com/insights/search/#cat=&q=Weight %20Loss&geo=US&date=&clp=&cmpt=geo
  • 28. Demographics: Swine Flu • Google insights for search for swine flu • http://en.wikipedia.org/wiki/ 2009_swine_flu_outbreak_in_the_United_States • http://www.google.com/insights/search/#q=swine %20flu&geo=US&date=today%207-d&cmpt=geo
  • 30.
  • 31. [Un]structured information Why structure matters Never tell a typographer that text is “just text”
  • 32. Perche’ e’ importante? • Importanza dell’informazione strutturata per l’analisi quantitativa • Gestire l’information overload • Facilitano l’elaborazione automatica • Ripetibilita’ del processo di analisi • Migliore interpretazione del dato: meno soggettivo, piu’ oggettivo.
  • 33. Text RSS Data Provisioning CSV Microformat Semantic Web API
  • 34. Microformats Embedding structured info under the hood An example of microchip art. Milhouse on a Sil154CT64 chip
  • 35. Cosa sono? “Designed for humans first and machines second, microformats are a set of simple, open data formats built upon existing and widely adopted standards.” http://microformats.org/
  • 36. Cosa sono? • Un sistema totalmente compatibile con gli standard esistenti (HTML, XHTML) per arricchire i contenuti web con metadati semantici • Un tentativo per risolvere la commistione tra presentazione e contenuto dell’ HTML. • Ad esempio: contact details, coordinate geografiche, eventi di calendario.
  • 37. Microformat:geo Informazioni geografiche: http://microformats.org/wiki/geo per l’utente N 37° 24.491 W 122° 08.313 per la macchina <div class=quot;geoquot;> <abbr class=quot;latitudequot; title=quot;37.408183quot;>N 37° 24.491</abbr> <abbr class=quot;longitudequot; title=quot;-122.13855quot;>W 122° 08.313</abbr> </div>
  • 38. Microformat:xfn Informazioni sociali: http://en.wikipedia.org/wiki/XHTML_Friends_Network per l’utente Riccardo Govoni per la macchina <a href=quot;http://www.battlehorse.net/quot; rel=quot;colleaguequot;> Riccardo Govoni </a>
  • 39. Search Engines • Yahoo Search Monkey http://developer.yahoo.net/blog/archives/2008/12/monkey_finds_microformats_and_rdf.html • Google Social Graph APIs http://code.google.com/apis/socialgraph/ http://microformats.org/wiki/search-engines
  • 40.
  • 42. Semantic Web “Semantic technologies include software standards and methodologies that are aimed at providing more explicit meaning for the information that's at our disposal” http://www.semantic-conference.com/primer.html • E’ un set di principi, standard e tecnologie volta a superare la limitazione del web odierno nel discernere presentazione da contenuto. • E’ una forma di fruizione dell’universo di informazioni presenti sul web orientata all’elaborazione da parte di una macchina.
  • 43. Cos’e’ una lista? E uno stato?
  • 44. Cos’e’ una lista? <td>1</td> <td> <span class=quot;flagiconquot;> <a href=quot;/wiki/File:Flag_of_Utah.svgquot; class=quot;imagequot; title=quot;Flag of Utah.svgquot;> <img alt=quot;quot; src=quot;http://.../22px-Flag_of_Utah.svg.pngquot; width=quot;22quot; height=quot;15quot; border=quot;0quot; class=quot;thumbborderquot; /> </a>&#160;</span> <a href=quot;/wiki/Utahquot; title=quot;Utahquot;>Utah</a> </td> <td>2.50</td>
  • 46. OWL • Ontologia: una rappresentazione formale di un set di concetti all’interno di un dominio definito e delle relazioni che li collegano • OWL (Web Ontology Language): Linguaggio per la definizione di ontologie.
  • 47. RDF • RDF (Resource Description Framework): un’insieme di specifiche per la descrizione e modellazione di ‘risorse’ in forma di triple “Soggetto - Predicato - Oggetto” • SPARQL: linguaggio di ricerca per risorse descritte tramite RDF.
  • 48. RDF: esempio <RDF:RDF xmlns:RDF=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:ANIMALS=quot;http://www.some-fictitious-zoo.com/rdf#quot;> <RDF:Seq about=quot;http://www.some-fictitious-zoo.com/all-animalsquot;> <RDF:li> <RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/lionquot;> <ANIMALS:name>Lion</ANIMALS:name> <ANIMALS:species>Panthera leo</ANIMALS:species> <ANIMALS:class>Mammal</ANIMALS:class> </RDF:Description> </RDF:li> <RDF:li> <RDF:Description about=quot;http://www.some-fictitious-zoo.com/arachnids/tarantulaquot;> <ANIMALS:name>Tarantula</ANIMALS:name> <ANIMALS:species>Avicularia avicularia</ANIMALS:species> <ANIMALS:class>Arachnid</ANIMALS:class> </RDF:Description> </RDF:li> <RDF:li> <RDF:Description about=quot;http://www.some-fictitious-zoo.com/mammals/hippopotamusquot;> <ANIMALS:name>Hippopotamus</ANIMALS:name> <ANIMALS:species>Hippopotamus amphibius</ANIMALS:species> <ANIMALS:class>Mammal</ANIMALS:class> </RDF:Description> </RDF:li> </RDF:Seq> </RDF:RDF>
  • 50. FOAF • FOAF (Friend of a Friend): E’ un’ ontologia rivolta alla descrizione di persone e reti sociali.
  • 51. FOAF example <rdf:RDF xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:rdfs=quot;http://www.w3.org/2000/01/rdf-schema#quot; xmlns:foaf=quot;http://xmlns.com/foaf/0.1/quot;> <foaf:Person> <foaf:name>Sam Ruby</foaf:name> <foaf:firstName>Sam</foaf:firstName> <foaf:surname>Ruby</foaf:surname> <foaf:nick>rubys</foaf:nick> <foaf:mbox_sha1sum>703471c6f39094d88665d24ce72c42fdc5f20585</foaf:mbox_sha1sum> <foaf:homepage rdf:resource=quot;http://www.intertwingly.net/quot;/> <foaf:depiction rdf:resource=quot;http://www.intertwingly.net/images/SamR_small.jpgquot;/> <foaf:workplaceHomepage rdf:resource=quot;http://www.ibm.com/quot;/> <foaf:schoolHomepage rdf:resource=quot;http://www.cnu.edu/quot;/> <!-- DJ Adams --> <foaf:knows> <foaf:Person rdf:ID=quot;djquot;> <foaf:givenName>DJ</foaf:givenName> <foaf:surname>Adams</foaf:surname> <foaf:mbox rdf:resource=quot;mailto:dj.adams@pobox.comquot;/> <rdfs:seeAlso rdf:resource=quot;http://www.pipetree.com/~dj/foaf.rdfquot;/> </foaf:Person> </foaf:knows> ...
  • 52. Case: Open Calais http://www.opencalais.com/ http://viewer.opencalais.com/ • Calais, un progetto Thomson Reuters, e’ un servizio online per la conversione di testo non strutturato in strutture semantiche, utilizzando tecniche di Natural language Processing e Machine Learning. • Esempio: Gnosis • Alternative: KIM - OntoText
  • 54. API Application Programming Interface Tektronix 556 dual beam spectrum analyzer
  • 55. API • Il modo migliore per avere accesso a dati strutturati. • Permettono all’utente (programmatore) l’accesso al dato saltando il layer di presentazione (HTML). • Sono ubiquitarie: ricerca, e- commerce, news, finance, reti sociali, photo, mapping, mobile, travel, music, ovunque. • Sono componibili (Mashups).
  • 56. API • Sono rivolte a “programmatori”, ma ... • Riducono la barriera di accesso all’informazione per chiunque • Rendono possibile l’accesso a sistemi che il singolo non sarebbe in grado di ottenere. • Sono espressione dell’idea di “open communication” come forma di auto- gestione del web. • Sono un esempio digitale di mutua simbiosi.
  • 57. Twitter API { quot;trendsquot;:{ quot;2009-04-27 22:10:19quot;:[ { quot;queryquot;:quot;quot;Swine Fluquot; OR Fluquot;, quot;namequot;:quot;Swine Fluquot; }, { quot;queryquot;:quot;#swinefluquot;, quot;namequot;:quot;#swinefluquot; }, { quot;queryquot;:quot;Mexicoquot;, quot;namequot;:quot;Mexicoquot; }, { quot;queryquot;:quot;#musicmondayquot;, quot;namequot;:quot;#musicmondayquot; }, { quot;queryquot;:quot;#savechuckquot;, quot;namequot;:quot;#savechuckquot; } http://search.twitter.com/trends/current.json ] }, quot;as_ofquot;:1240870219 }
  • 58. New York Times APIs http://developer.nytimes.com/docs
  • 59. NYT elastic lists Text http://moritz.stefaner.eu/projects/elastic-lists/NYT/
  • 61. Mashups • Applicazioni web che combinano dati provenienti da piu’ fonti in una singola funzionalita’ integrata. • Si basano quasi sempre sulle API rese disponibili dai singoli servizi • Offrono a non sviluppatori l’accesso a informazioni strutturate “pre-digerite” • Yahoo pipes (e.g.: Social Media Tracker) • Programmable Web
  • 63. Programmable Web • La risorsa di riferimento, dove aggiornarsi su API e Mashups disponibili
  • 64. Programmable Web • http://www.liveplasma.com/ • http://dev.benedictoneill.com/bbc/ • http://imagine-it.org/amazong/arbore.php? XMLFileName=0738204315.xml • http://imagine-it.org/amazong/ vissimweb.htm
  • 65. At the end, it’s all text... Introduzione al Text processing e Text mining Book of Kells, Trinity College, Dublino
  • 66. Data mining • Il problema dell’information overload • Data mining “is the process of extracting hidden patterns from data” • Il Data mining si divide in 2 rami: Discovery e Prediction • Il Data mining riguarda 4 classi di problemi: Classification, Clustering, Regression, Pattern Inference
  • 67. Text mining, Information Retrieval • ramo del Data Mining, focalizzato all’estrazione di dati a partire da corpora testuali. • Sottogruppi: text clustering, normalization, entity recognition, summarization, computational linguistics, natural language processing
  • 68. Zipf distribution Originally, Zipf's law stated that, “in a corpus of natural language utterances, the frequency of any word is roughly inversely proportional to its rank in the frequency table”. http://www.ohohlfeld.com/zipf.html
  • 69. tf-idf • Le basi della ricerca testuale: • All’interno di un corpo di testo, come distinguere i termini che danno un contributo significativo ad un documento, rispetto ai connettivi? • Valorizzare i termini che appaiono spesso in un documento • Penalizzare i termini che appaiono spesso nell’intero corpus
  • 70. tf-idf • tf-idf : Term Frequency / Inverse Document Freq. • Term weighting: aij = f(Lij,Gi,Nj) = Lij Gi Nj • Classic tf-idf: http://irthoughts.wordpress.com/2008/07/07/understanding-tfidf/
  • 71. Clustering • Identificare una struttura in un’insieme di dati non noti a priori. • Organizzare oggetti in gruppi i cui mmbri sono simili secondo una certa metrica. http://home.dei.polimi.it/matteucc/ Clustering/tutorial_html/index.html
  • 72. Graph Theory • the study of graphs: mathematical structures used to model pairwise relations between objects from a certain collection. • A quot;graphquot; in this context refers to a collection of vertices or 'nodes' and a collection of edges that connect pairs of vertices. A graph may be undirected, meaning that there is no distinction between the two vertices associated with each edge, or its edges may be directed from one vertex to another.
  • 74. Graph Theory e Clustering • Entrambe le teorie si basano sul concetto di metrica. Perche’ non sfruttarlo? • Esempio: identificare gruppi all’interno di un network sociale.
  • 76. Machine learning • Riguarda il disegno e lo sviluppo di algoritmi che permettono ad un computer di migliorare le proprie capacita’ nel tempo, sulla base dei dati a disposizione. • Include numerose discipline usate quotidianamente per gestire l’enorme mole di dati disponibile sul web.
  • 77. Case study: Enron • Enron ando’ in bancarotta il 2 Dicembre 2001, a seguito di scandali e illegalita’ finanziarie. • Per effetto delle indagini, un corpus di 200.000(*) email riguardanti 150 persone e’ diventato di dominio pubblico: il dataset Enron.
  • 78. L’analisi quantitativa • Utilizziamo i legami mittente-destinatario per creare grafi di relazioni, da cui estrarre informazioni sociali in base ai volumi di scambio: chi parla con chi? chi agisce da accentratore?
  • 79.
  • 80.
  • 81. Enron: riferimenti • http://www.cs.cmu.edu/~enron/ • http://jheer.org/enron/ • http://www.cs.umass.edu/~ronb/enron_dataset.html
  • 82. BayesFor Un caso di studio su Web crawling e Media monitoring www.bayesfor.eu
  • 83. BayesFor.eu • Un’associazione che si propone di promuovere e realizzare ricerche, studi o sperimentazioni in materia di analisi dei dati e utilizzo di tecniche statistiche • Ha l’obiettivo di fare spidering di fonti sul web con lo scopo di estrarre informazioni, come ad esempio: • Correlazione tra concetti semantici nel tempo • Associazioni tra concetti semantici e publisher • Media bias e relazioni tra informazioni e notizie • Interrelazione tra news, media e mercati finanziari
  • 84. Come funziona? • Lista di fonti (siti di quotidiani italiani ed esteri, agenzie di stampa, feed rss, etc...) • Lista di topics di interesse, incrementata dinamicamente in base alla popolarita’ • Un motore di crawling web • Un archivio dati con memoria storica dei contenuti analizzati fino ad oggi • Strumenti di analisi statistica e numerica
  • 85. Volumi • ca. 200 fonti : portali, news websites, feeds • 40000 termini lessicali tracciati giornalmente • 20M di termini identificati negli ultimi 5 mesi • ~ 50Mb di dati giornalieri : come 60 libri di 300 pagine l’uno • ~ 25Gb di dati accumulati da fine 2007, come una biblioteca di 40.000 volumi
  • 86. Il processo di estrazione Estrazione automatica dei contenuti delle pagine web di Crawling interesse. Archival Archiviazione storica per giorno e per fonte Rimozione della formattazione indesiderata. Pulizia del Cleaning codice HTML e della punteggiatura. Filtering Separazione delle stop-word per ogni lingua analizzata Stemming Identificazione delle radici lessicali e raggruppamento Pesatura dei termini in base a posizione e prominenza Weighting all’interno delle pagine web Indexing Analysis Indicizzazione, ricerca e analisi statistica
  • 87.
  • 88. Graph theory & News events
  • 89. Case: Primarie PD True Value Predicted Candidato True Value Predicted Veltroni 75.81% 68.95% Bindi 12.88% 15.47% Letta 11.07% 15.47% Bonazzi A., Brunori P., Govoni R., Lampronti G.I., and Zandi M. Italy 2008 Polls, Web Visibility and Election Results, EDem2008 E-Democracy Conference proceedings, Danube University Krems
  • 90. Zandi, Grippa, Bazarnick, Brunori, Frongia, Govoni, Bonazzi, Poster: Media Behavior During 2008 Electoral Campaign: a Web Content Analyis, SUNBELT Annual Conference, San Diego USA
  • 91. Case: 2008 US Presidential Campaign
  • 92. Web Datasets Dove stanno i dati sul web? Quali datasets sono disponibili? Oracle headquarters, California
  • 93. Datasets? • Wikipedia Dump: http://download.wikimedia.org/ • il caso Enron: http://www.cs.cmu.edu/~enron/ • Grouplens: http://www.grouplens.org/taxonomy/term/14 • swivel.com , many-eyes.com • http://www.gapminder.org/ • http://www.ted.com/index.php/talks/ hans_rosling_shows_the_best_stats_you_ve_ever_seen.html
  • 94. J. Minard map of Napoleon’s Russia campaign. ca 1861. Data Visualization Un’immagine vale piu’ di mille parole
  • 95. Data Visualization • Processing: • http://www.processing.org • http://www.openprocessing.org • Google Visualization APIs • http://code.google.com/apis/visualization/