SlideShare uma empresa Scribd logo
1 de 56
Baixar para ler offline
BigData

                                  Svet Ivantchev, eFaber
                                UniEE, 15 de marzo de 2011




miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
iMac 2000 vs iPhone 2010




miércoles 16 de marzo de 2011
http://www.washingtonpost.com/wp-dyn/content/article/2011/02/10/AR2011021004916.html
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
Tipo de información

                    • Información [no]estructurada
                    • Interna vs externa
                    • Encyclopedia Britannica vs Wikipedia


miércoles 16 de marzo de 2011
BigData


                         Cuando las viejas técnicas ya no nos valen


                       captura - almacenamiento - transformación -
                                   análisis - visualización



miércoles 16 de marzo de 2011
Con que “pagamos”

                    • Conceptos
                     • cambios en la infraestructura
                     • noSQL
                     • MapReduce
                     • mucho más ...

miércoles 16 de marzo de 2011
Infraestructura
                    • “El servidor” vs VMs de “usar y tirar”
                    • Backup: super-RAID+super-Backup
                            vs multiples copias
                    • Libertad de experimentar con nuevas
                            herramientas (macroscopes)
                    • Ancho de banda: HDD, Internet o Seur

miércoles 16 de marzo de 2011
Idea de MapReduce




                                      http://blog.jteam.nl/2009/08/04/introduction-to-hadoop/
miércoles 16 de marzo de 2011
BD Relacional                 MapReduce

                   Tamaño        Gigabytes (10^9)           Petabytes (10^15)

                     Acceso     Interactivo y Batch                 Batch

                                Rectura y escritura          Pocas escrituras,
          Actualizaciones
                                     múltiple                muchas lecturas

                 Estuctura           Estática                     Dinámica

                Integridad             Alta                          Baja

                   Escalado          Nolineal                       Lineal


                                                Hadoop:The Definitive Guide, O’Reilly, 2010
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
CouchDB/Couchbase



                                  http://www.couchbase.com/downloads




                                                   http://www.couchbase.com/downloads
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
Demo



miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
Google Books
                 • 129 000 000 libros publicados
                 • 15 000 000 libros escaneados (1700-2010)
                 • 5 000 000 analizados con sus metadatos



miércoles 16 de marzo de 2011
http://ngrams.googlelabs.com/
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
DIY

                    • Amazon EC2
                    • Amazon S3
                    • Apache Hadoop y Hive
                    • Amazon Elastic MapReduce

miércoles 16 de marzo de 2011
http://ngrams.googlelabs.com/datasets
miércoles 16 de marzo de 2011
miércoles 16 de marzo de 2011
Tendencias Siglo XX
       elastic-mapreduce --create --alive --hive-interactive --hive-versions 0.7

       elastic-mapreduce --list mi-flow-id
       elastic-mapreduce --ssh mi-flow-id




       $ hive
       hive> set
       hive.base.inputformat=org.apache.hadoop.hive.ql.io.HiveInputFormat;
       hive> set mapred.min.split.size=134217728;




                                        http://aws.amazon.com/articles/5249664154115844

miércoles 16 de marzo de 2011
CREATE EXTERNAL TABLE english_1grams (
          gram string,
          year int,
          occurrences bigint,
          pages bigint,
          books bigint
        )
        ROW FORMAT DELIMITED FIELDS TERMINATED BY 't'
        STORED AS SEQUENCEFILE
        LOCATION
          's3://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/';




miércoles 16 de marzo de 2011
CREATE TABLE normalized (
                                   gram string,
                                   year int,
                                   occurrences bigint
                                );

                                INSERT OVERWRITE TABLE normalized
                                SELECT
                                  lower(gram),
                                  year,
                                  occurrences
                                FROM
                                  english_1grams
                                WHERE
                                  year >= 1890 AND
                                  gram REGEXP "^[A-Za-z+'-]+$";




miércoles 16 de marzo de 2011
CREATE TABLE by_decade (
                          gram string,
                          decade int,
                          ratio double
                       );



                       INSERT OVERWRITE TABLE by_decade
                       SELECT
                          a.gram,
                          b.decade,
                          sum(a.occurrences) / b.total
                       FROM
                          normalized a
                       JOIN (
                          SELECT
                            substr(year, 0, 3) as decade,
                            sum(occurrences) as total
                          FROM
                            normalized
                          GROUP BY
                            substr(year, 0, 3)
                       ) b
                       ON
                          substr(a.year, 0, 3) = b.decade
                       GROUP BY
                          a.gram,
                          b.decade,
                          b.total;


miércoles 16 de marzo de 2011
SELECT
                          a.gram as gram,
                          a.decade as decade,
                          a.ratio as ratio,
                          a.ratio / b.ratio as increase
                       FROM
                          by_decade a
                       JOIN
                          by_decade b
                       ON
                          a.gram = b.gram and
                          a.decade - 1 = b.decade
                       WHERE
                          a.ratio > 0.000001 and
                          a.decade >= 190
                       DISTRIBUTE BY
                          decade
                       SORT BY
                          decade ASC,
                          increase DESC;




miércoles 16 de marzo de 2011
1900
       radium, ionization, automobiles, petrol, archivo, automobile, electrons, mukden,
      anopheles, marconi, botha, ladysmith, lhasa, boxers, suprema, aboord, rotor, turkes,
     wireless, conveyor, manchurian, erythrocytes, shoare, thirtie, kop, tuskegee, thorium,
                               audiencia, bvo, arteriosclerosis

                                                1910
     cowperwood, britling, boches, montessori, venizelos, bolsheviki, salvarsan, photoplay,
      pacifists, joffre, petrograd, pacifist, bolshevism, airmen, kerensky, foch, boche, serbia,
         serbian, hindenburg, madero, serbians, bombing, ameen, anaphylaxis, aviators,
                                  syndicalism, aviator, biplane, taxi

                                                   1920
           bacteriophage, fascist, mussolini, fascism, sablin, latvia, insulin, peyrol, volstead,
          czechoslovakia, iraq, vitamin, kenya, curricular, swaraj, reparations, broadcasting,
           slovakia, vitamins, gandhi, automotive, kemal, zoning, jazz, isotopes, isoelectric,
                              airscrew, shivaji, czechoslovak, stabilization

                                               1930
       dollfuss, goebbels, manchukuo, hitler, sudeten, hitler's, rearmament, nazis, wpa, nazi,
        nra, manchoukuo totalitarian, pwa, tva, stalin's, peiping, homeroom, kulaks, stalin,
            devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol,
                                   reichswehr, ussr, businessmen
miércoles 16 de marzo de 2011
1930
   dollfuss, goebbels, manchukuo, hitler, sudeten, hitler's, rearmament, nazis, wpa, nazi, nra,
         manchoukuo totalitarian, pwa, tva, stalin's, peiping, homeroom, kulaks, stalin,
    devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol, reichswehr,
                                      ussr, businessmen

                                               1940
    waveguide, luftwaffe, plutonium, streptomycin, darlan, gaulle, beachhead, lanny, jeeps,
   penicillin, alamein, radar, bandwidth, psia, thiamine, quisling, sulfathiazole, wpb, airborne,
    jeep, aftr, bdg, tobruk, pakistan, sulfonamides, evacuees, guadalcanal, airfields, unesco,
                                              rommel

                                          1950
         qumran, transistors, chlorpromazine, transistor, automation, terramycin,
     chloramphenicol, khrushchev, reserpine, pradesh, nasser, vietnamese, shri, uttar,
   madhya, vietnam, adenauer, aureomycin, nato, annexure, dna, edc, rna, biophys, pyarelal,
                       cortisone, semiconductors, rajasthan, minh

                                              1960
     tshombe, bhupesh, vietcong, lumumba, ribosomal, lasers, ribosomes, ieee, aerospace,
        malawi, thant, fortran, zambia, medicare, lysosomes, nlf, laser, tanzania, efta, oecd,
     astronaut, teilhard, goldwater, programed, uar, software, autoimmune, spacecraft, eec,
                                               nasa
miércoles 16 de marzo de 2011
1970
       biofeedback, sexist, sexism, multinationals, namibia, bangladesh, microprocessor,
     watergate, chicano, lifestyle, cytosol, medicaid, trh, chicanos, plasmid, jovanovich, ldcs,
        apg, pediatr, cyclase, isbn, immunotherapy, prostaglandin, opec, prostaglandins,
                    gentamicin, bangla, radioimmunoassay, epa, ophthalmol

                                                1980
   htlv, dbase, interleukin, spreadsheet, vlsi, videotex, calmodulin, sandinistas, contras, isdn,
          gorbachev's, sandinista, gorbachev, workstation, workstations, fsln, captopril,
       hybridoma, ifn, robotics, kda, fibronectin, khomeini, sql, robotic, oncogenes, rajiv,
                                     xiaoping, unix, microsoft

                                                 1990
     netscape, cyberspace, html, endothelin, toolbar, biodiversity, mpeg, tqm, harpercollins,
      applet, reengineering, nafta, http, c++, newsgroups, gallopade, belarus, internet, apec,
        url, yeltsin, adhd, apoptosis, integrin, usenet, hypermedia, globalisation, netware,
                                     africanamerican, myanmar

                                                2000
       bibliobazaar, itunes, cengage, qaeda, wsdl, aspx, xslt, actionscript, xpath, sharepoint,
      blogs, easyread, ipod, xhtml, blog, rfid, google, writeline, proteomics, bluetooth, voip,
            microarray, mysql, microarrays, putin, dreamweaver, dvds, ejb, xml, osama
miércoles 16 de marzo de 2011
Q &A




miércoles 16 de marzo de 2011

Mais conteúdo relacionado

Mais de Svet Ivantchev

Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Svet Ivantchev
 
Big Data: 
Some Questions in its Use in Applied Economics (2017)
Big Data: 
Some Questions in its Use in Applied Economics (2017)Big Data: 
Some Questions in its Use in Applied Economics (2017)
Big Data: 
Some Questions in its Use in Applied Economics (2017)Svet Ivantchev
 
Introducción a Elixir
Introducción a ElixirIntroducción a Elixir
Introducción a ElixirSvet Ivantchev
 
Gaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlGaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlSvet Ivantchev
 
Gaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataGaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataSvet Ivantchev
 
Gaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotGaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotSvet Ivantchev
 
Libros electrónicos III
Libros electrónicos IIILibros electrónicos III
Libros electrónicos IIISvet Ivantchev
 
Libros electrónicos II - ePub
Libros electrónicos II - ePubLibros electrónicos II - ePub
Libros electrónicos II - ePubSvet Ivantchev
 
Libros electrónicos I
Libros electrónicos ILibros electrónicos I
Libros electrónicos ISvet Ivantchev
 
Cloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsCloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsSvet Ivantchev
 
Los mitos de la innovación
Los mitos de la innovaciónLos mitos de la innovación
Los mitos de la innovaciónSvet Ivantchev
 
Lo que las empresas piden
Lo que las empresas pidenLo que las empresas piden
Lo que las empresas pidenSvet Ivantchev
 
Gobierno Abierto y Software Libre Irekia
Gobierno Abierto y Software Libre IrekiaGobierno Abierto y Software Libre Irekia
Gobierno Abierto y Software Libre IrekiaSvet Ivantchev
 

Mais de Svet Ivantchev (20)

Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).Machne Learning and Human Learning (2013).
Machne Learning and Human Learning (2013).
 
Big Data: 
Some Questions in its Use in Applied Economics (2017)
Big Data: 
Some Questions in its Use in Applied Economics (2017)Big Data: 
Some Questions in its Use in Applied Economics (2017)
Big Data: 
Some Questions in its Use in Applied Economics (2017)
 
Introducción a Elixir
Introducción a ElixirIntroducción a Elixir
Introducción a Elixir
 
Gaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot ControlGaztea Tech 2015: 4. GT Drawbot Control
Gaztea Tech 2015: 4. GT Drawbot Control
 
Gaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y FirmataGaztea Tech 2015: 3. Processing y Firmata
Gaztea Tech 2015: 3. Processing y Firmata
 
Gaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBotGaztea Tech 2015: 2. El GT DrawBot
Gaztea Tech 2015: 2. El GT DrawBot
 
Data Science
Data ScienceData Science
Data Science
 
Libros electrónicos III
Libros electrónicos IIILibros electrónicos III
Libros electrónicos III
 
Libros electrónicos II - ePub
Libros electrónicos II - ePubLibros electrónicos II - ePub
Libros electrónicos II - ePub
 
Libros electrónicos I
Libros electrónicos ILibros electrónicos I
Libros electrónicos I
 
Cloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'TsCloud Computing: What it is, DOs and DON'Ts
Cloud Computing: What it is, DOs and DON'Ts
 
Los mitos de la innovación
Los mitos de la innovaciónLos mitos de la innovación
Los mitos de la innovación
 
eFaber en 5 minutos
eFaber en 5 minutoseFaber en 5 minutos
eFaber en 5 minutos
 
RoR y eLearning 2.0
RoR y eLearning 2.0RoR y eLearning 2.0
RoR y eLearning 2.0
 
OpenIrekia
OpenIrekiaOpenIrekia
OpenIrekia
 
Interface de voz
Interface de vozInterface de voz
Interface de voz
 
Clusters Beowulf
Clusters BeowulfClusters Beowulf
Clusters Beowulf
 
Introducción al Ruby
Introducción al RubyIntroducción al Ruby
Introducción al Ruby
 
Lo que las empresas piden
Lo que las empresas pidenLo que las empresas piden
Lo que las empresas piden
 
Gobierno Abierto y Software Libre Irekia
Gobierno Abierto y Software Libre IrekiaGobierno Abierto y Software Libre Irekia
Gobierno Abierto y Software Libre Irekia
 

Último

tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 

Último (20)

tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 

BigData

  • 1. BigData Svet Ivantchev, eFaber UniEE, 15 de marzo de 2011 miércoles 16 de marzo de 2011
  • 2. miércoles 16 de marzo de 2011
  • 3. miércoles 16 de marzo de 2011
  • 4. miércoles 16 de marzo de 2011
  • 5. miércoles 16 de marzo de 2011
  • 6. iMac 2000 vs iPhone 2010 miércoles 16 de marzo de 2011
  • 8. miércoles 16 de marzo de 2011
  • 9. miércoles 16 de marzo de 2011
  • 10. Tipo de información • Información [no]estructurada • Interna vs externa • Encyclopedia Britannica vs Wikipedia miércoles 16 de marzo de 2011
  • 11. BigData Cuando las viejas técnicas ya no nos valen captura - almacenamiento - transformación - análisis - visualización miércoles 16 de marzo de 2011
  • 12. Con que “pagamos” • Conceptos • cambios en la infraestructura • noSQL • MapReduce • mucho más ... miércoles 16 de marzo de 2011
  • 13. Infraestructura • “El servidor” vs VMs de “usar y tirar” • Backup: super-RAID+super-Backup vs multiples copias • Libertad de experimentar con nuevas herramientas (macroscopes) • Ancho de banda: HDD, Internet o Seur miércoles 16 de marzo de 2011
  • 14. Idea de MapReduce http://blog.jteam.nl/2009/08/04/introduction-to-hadoop/ miércoles 16 de marzo de 2011
  • 15. BD Relacional MapReduce Tamaño Gigabytes (10^9) Petabytes (10^15) Acceso Interactivo y Batch Batch Rectura y escritura Pocas escrituras, Actualizaciones múltiple muchas lecturas Estuctura Estática Dinámica Integridad Alta Baja Escalado Nolineal Lineal Hadoop:The Definitive Guide, O’Reilly, 2010 miércoles 16 de marzo de 2011
  • 16. miércoles 16 de marzo de 2011
  • 17. miércoles 16 de marzo de 2011
  • 18. miércoles 16 de marzo de 2011
  • 19. miércoles 16 de marzo de 2011
  • 20. miércoles 16 de marzo de 2011
  • 21. miércoles 16 de marzo de 2011
  • 22. miércoles 16 de marzo de 2011
  • 23. miércoles 16 de marzo de 2011
  • 24. CouchDB/Couchbase http://www.couchbase.com/downloads http://www.couchbase.com/downloads miércoles 16 de marzo de 2011
  • 25. miércoles 16 de marzo de 2011
  • 26. Demo miércoles 16 de marzo de 2011
  • 27. miércoles 16 de marzo de 2011
  • 28. miércoles 16 de marzo de 2011
  • 29. miércoles 16 de marzo de 2011
  • 30. miércoles 16 de marzo de 2011
  • 31. miércoles 16 de marzo de 2011
  • 32. miércoles 16 de marzo de 2011
  • 33. miércoles 16 de marzo de 2011
  • 34. miércoles 16 de marzo de 2011
  • 35. miércoles 16 de marzo de 2011
  • 36. miércoles 16 de marzo de 2011
  • 37. miércoles 16 de marzo de 2011
  • 38. miércoles 16 de marzo de 2011
  • 39. miércoles 16 de marzo de 2011
  • 40. miércoles 16 de marzo de 2011
  • 41. Google Books • 129 000 000 libros publicados • 15 000 000 libros escaneados (1700-2010) • 5 000 000 analizados con sus metadatos miércoles 16 de marzo de 2011
  • 43. miércoles 16 de marzo de 2011
  • 44. miércoles 16 de marzo de 2011
  • 45. DIY • Amazon EC2 • Amazon S3 • Apache Hadoop y Hive • Amazon Elastic MapReduce miércoles 16 de marzo de 2011
  • 47. miércoles 16 de marzo de 2011
  • 48. Tendencias Siglo XX elastic-mapreduce --create --alive --hive-interactive --hive-versions 0.7 elastic-mapreduce --list mi-flow-id elastic-mapreduce --ssh mi-flow-id $ hive hive> set hive.base.inputformat=org.apache.hadoop.hive.ql.io.HiveInputFormat; hive> set mapred.min.split.size=134217728; http://aws.amazon.com/articles/5249664154115844 miércoles 16 de marzo de 2011
  • 49. CREATE EXTERNAL TABLE english_1grams ( gram string, year int, occurrences bigint, pages bigint, books bigint ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't' STORED AS SEQUENCEFILE LOCATION 's3://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/'; miércoles 16 de marzo de 2011
  • 50. CREATE TABLE normalized ( gram string, year int, occurrences bigint ); INSERT OVERWRITE TABLE normalized SELECT lower(gram), year, occurrences FROM english_1grams WHERE year >= 1890 AND gram REGEXP "^[A-Za-z+'-]+$"; miércoles 16 de marzo de 2011
  • 51. CREATE TABLE by_decade ( gram string, decade int, ratio double ); INSERT OVERWRITE TABLE by_decade SELECT a.gram, b.decade, sum(a.occurrences) / b.total FROM normalized a JOIN ( SELECT substr(year, 0, 3) as decade, sum(occurrences) as total FROM normalized GROUP BY substr(year, 0, 3) ) b ON substr(a.year, 0, 3) = b.decade GROUP BY a.gram, b.decade, b.total; miércoles 16 de marzo de 2011
  • 52. SELECT a.gram as gram, a.decade as decade, a.ratio as ratio, a.ratio / b.ratio as increase FROM by_decade a JOIN by_decade b ON a.gram = b.gram and a.decade - 1 = b.decade WHERE a.ratio > 0.000001 and a.decade >= 190 DISTRIBUTE BY decade SORT BY decade ASC, increase DESC; miércoles 16 de marzo de 2011
  • 53. 1900 radium, ionization, automobiles, petrol, archivo, automobile, electrons, mukden, anopheles, marconi, botha, ladysmith, lhasa, boxers, suprema, aboord, rotor, turkes, wireless, conveyor, manchurian, erythrocytes, shoare, thirtie, kop, tuskegee, thorium, audiencia, bvo, arteriosclerosis 1910 cowperwood, britling, boches, montessori, venizelos, bolsheviki, salvarsan, photoplay, pacifists, joffre, petrograd, pacifist, bolshevism, airmen, kerensky, foch, boche, serbia, serbian, hindenburg, madero, serbians, bombing, ameen, anaphylaxis, aviators, syndicalism, aviator, biplane, taxi 1920 bacteriophage, fascist, mussolini, fascism, sablin, latvia, insulin, peyrol, volstead, czechoslovakia, iraq, vitamin, kenya, curricular, swaraj, reparations, broadcasting, slovakia, vitamins, gandhi, automotive, kemal, zoning, jazz, isotopes, isoelectric, airscrew, shivaji, czechoslovak, stabilization 1930 dollfuss, goebbels, manchukuo, hitler, sudeten, hitler's, rearmament, nazis, wpa, nazi, nra, manchoukuo totalitarian, pwa, tva, stalin's, peiping, homeroom, kulaks, stalin, devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol, reichswehr, ussr, businessmen miércoles 16 de marzo de 2011
  • 54. 1930 dollfuss, goebbels, manchukuo, hitler, sudeten, hitler's, rearmament, nazis, wpa, nazi, nra, manchoukuo totalitarian, pwa, tva, stalin's, peiping, homeroom, kulaks, stalin, devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol, reichswehr, ussr, businessmen 1940 waveguide, luftwaffe, plutonium, streptomycin, darlan, gaulle, beachhead, lanny, jeeps, penicillin, alamein, radar, bandwidth, psia, thiamine, quisling, sulfathiazole, wpb, airborne, jeep, aftr, bdg, tobruk, pakistan, sulfonamides, evacuees, guadalcanal, airfields, unesco, rommel 1950 qumran, transistors, chlorpromazine, transistor, automation, terramycin, chloramphenicol, khrushchev, reserpine, pradesh, nasser, vietnamese, shri, uttar, madhya, vietnam, adenauer, aureomycin, nato, annexure, dna, edc, rna, biophys, pyarelal, cortisone, semiconductors, rajasthan, minh 1960 tshombe, bhupesh, vietcong, lumumba, ribosomal, lasers, ribosomes, ieee, aerospace, malawi, thant, fortran, zambia, medicare, lysosomes, nlf, laser, tanzania, efta, oecd, astronaut, teilhard, goldwater, programed, uar, software, autoimmune, spacecraft, eec, nasa miércoles 16 de marzo de 2011
  • 55. 1970 biofeedback, sexist, sexism, multinationals, namibia, bangladesh, microprocessor, watergate, chicano, lifestyle, cytosol, medicaid, trh, chicanos, plasmid, jovanovich, ldcs, apg, pediatr, cyclase, isbn, immunotherapy, prostaglandin, opec, prostaglandins, gentamicin, bangla, radioimmunoassay, epa, ophthalmol 1980 htlv, dbase, interleukin, spreadsheet, vlsi, videotex, calmodulin, sandinistas, contras, isdn, gorbachev's, sandinista, gorbachev, workstation, workstations, fsln, captopril, hybridoma, ifn, robotics, kda, fibronectin, khomeini, sql, robotic, oncogenes, rajiv, xiaoping, unix, microsoft 1990 netscape, cyberspace, html, endothelin, toolbar, biodiversity, mpeg, tqm, harpercollins, applet, reengineering, nafta, http, c++, newsgroups, gallopade, belarus, internet, apec, url, yeltsin, adhd, apoptosis, integrin, usenet, hypermedia, globalisation, netware, africanamerican, myanmar 2000 bibliobazaar, itunes, cengage, qaeda, wsdl, aspx, xslt, actionscript, xpath, sharepoint, blogs, easyread, ipod, xhtml, blog, rfid, google, writeline, proteomics, bluetooth, voip, microarray, mysql, microarrays, putin, dreamweaver, dvds, ejb, xml, osama miércoles 16 de marzo de 2011
  • 56. Q &A miércoles 16 de marzo de 2011