O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Data Science 
Carlos Toxtli Hernández 
Maestro en Innovación Empresarial y 
Tecnológica 
TPM 
Tu foto 
psykohack carlos.to...
Presentación 
Carlos Toxtli Hernández 
15 años de experiencia en TI 
Maestro en Innovación Empresarial y 
Tecnológica
CV
Introducción 
Esta plática pretende formar científicos de 
datos enseñando muchas de las herramientas 
empleadas y tutoria...
Data 
Datos: Representación simbólica (numérica, 
alfabética, algorítmica, espacial, etc) de un 
atributo o variable cuant...
Science 
Ciencia: Conjunto de conocimientos 
estructurados sistemáticamente. Conocimiento 
obtenido mediante la observació...
Data Science 
Conjunto de prácticas sobre almacenamiento, 
gestión y análisis de conjuntos de datos lo 
suficientemente gr...
Data Science 
Algunas de las áreas relacionadas son: 
Matemáticas, estadísticas, tecnologías de la 
información, proceso d...
Data Scientist 
Alguien que puede obtener, depurar, explorar, 
modelar e interpretar los datos.
Data Scientist 
En promedio $130,000 MXN al mes
Data Scientist
Implicaciones de Data Science 
Suele involucrar conocimientos de uno o más 
dominios (por ejemplo finanzas, medicina o 
ge...
Implicaciones de Data Science 
Los resultados deben ser confiables. 
Suele incluir el aprendizaje automatizado 
(machine l...
Big Data 
Término que hace referencia a una cantidad de 
datos tal que supera la capacidad del software 
habitual para ser...
Big Data 
Suele involucrar cómputo distribuido en 
múltiples servidores. 
Implica gestión y procesamiento de datos. 
Suele...
Big Data tools
Big Data resources 
http://www.slideshare.net/carlostoxtli/big-data-para- 
principiantes 
http://www.ibm.com/developerwork...
Los infaltables 
Es importante saber las siguientes tecnologías: 
R 
Python 
Java 
Matlab 
Octave 
C++, entre otros
Small Data 
Radica en mostrar la información suficiente 
para que los humanos la podamos 
comprender. Se utilizan técnicas...
Small Data resources 
Forget Big Data, Small Data is the Real 
Revolution 
What the “Small Data” Revolution Means for 
Mar...
High Quality data 
Se refiere a los procesos, técnicas, algoritmos 
y operaciones encaminados a mejorar la 
calidad de los...
Beneficios de la calidad de datos 
Evitando tener información duplicada. 
La normalización de archivos mejora el análisis ...
Data Quality tools 
Talend 
DQ Analyzer 
EasyDQ 
Gartner
Data Quality resources 
http://www.ocdqblog.com/home/alternatives-to-enterprise- 
data-quality-tools.html 
http://searchda...
Behavioral targeting 
Consiste en analizar el comportamiento que 
sigue un usuario al navegar por ejemplo entre 
sitios y ...
Behavioral targeting tools 
intlock 
btbuckets 
Personyze 
audiencescience 
brainsins
Behavioral targeting resources 
http://adsolutions.yp.com/small-business-marketing- 
center/integrated-marketing-articles/...
Machine Learning 
Rama de la inteligencia artificial cuyo objetivo 
es desarrollar técnicas que permitan a las 
computador...
Machine learning tools 
Weka 
Waffles 
PredictionIO 
scikit-learn 
accord 
shogun
Machine Learning resources 
http://scikit-learn. 
org/stable/tutorial/basic/tutorial.html 
http://jmlr.org/mloss/ 
http://...
Reality mining 
A través de equipos censados estudia la 
interacción de los humanos y detectar patrones 
de comportamiento...
Reality mining resources 
http://realitycommons.media.mit.edu/ 
http://www.forbes.com/forbes/2010/0830/e-gang- 
mit-sandy-...
Information Extraction (IE) 
Creación de conocimiento de datos 
estructurados (relational databases, XML) y no 
estructura...
IE tools 
LingPipe 
GATE 
Carrot2
IE resources 
http://www.dfki.de/~neumann/esslli04/reader/ov 
erview/IJCAI99.pdf 
http://www.ecmlpkdd2013.org/wp-content/ ...
Knowledge discovery 
Describe el proceso de automáticamente 
buscar en grandes volúmenes de datos para 
encontrar patrones...
Knowledge discovery tools 
keel 
rapidminer 
miningmart 
ELKI 
angoss 
blasoft 
knowledgeminer
Knowledge discovery resources 
http://www.tutorialspoint.com/data_mining/dm_ 
knowledge_discovery.htm 
https://www.linkedi...
Knowledge base 
Una Base de Conocimiento es un tipo especial 
de base de datos para la gestión del 
conocimiento. Provee l...
Knowledge base tools 
freebase 
dbpedia 
wikidata 
opencyc 
wolfram-alpha 
classora 
yago
Knowledge base resources 
http://semanticweb.org/wiki/Getting_data_from_ 
the_Semantic_Web 
http://rdflib.github.io/sparql...
Data Mining 
Intenta descubrir patrones en grandes 
volúmenes de conjuntos de datos. Utiliza los 
métodos de la inteligenc...
Data mining tools 
orange 
jhepwork 
knime 
rattle 
mahout 
mlflex 
databionic
Data mining resources 
http://www.tutorialspoint.com/data_mining/ 
http://www.autonlab.org/tutorials/ 
http://msdn.microso...
Ontologies 
Las ontologías son la formulación de un 
exhaustivo y riguroso esquema conceptual 
dentro de uno o varios domi...
Lenguajes de ontologías 
RDF 
OWL 
DAML 
OIL 
SKOS 
EARL 
GLD
Ontology-based IE 
Por medio de por lo menos una ontología, 
OBIE utiliza métodos para identificar 
conceptos, instancias ...
Ontology learning (OL) 
Forma automática de creación de ontologías a 
través de sus relaciones entre sus conceptos 
para s...
Ontology tools 
protégé 
oboedit 
opensemanticframework 
neontoolkit 
kaon 
hozo 
fluenteditor
Semantic Annotation (SA) 
Utiliza análisis semántico en la información 
machine-understandable y hace uso de 
Terminology ...
Semantic Annotation tools 
ehost 
domeo 
annozilla 
knoodl 
insemtives 
autometa
Semantic Annotation resources 
https://gate.ac.uk/sale/talks/gate-course-may10/ 
track-3/module-10- 
ontologies/ontologies...
Terminology extraction 
Su función principal es extraer los términos 
relevantes en el cuerpo de un texto. Esto 
ayuda a e...
Terminology extraction tools 
wordfast 
translated 
TerMine 
fivefilters 
keywordextraction 
maui 
vocabgrabber
Terminology extraction resources 
http://linguistech.ca/MultiTrans_Prism_TermExt 
ractor_E_TUTCERTT_I 
https://www.airpair...
Data Archaeology 
Es el arte y ciencia de recuperar datos 
codificados en formatos que ahora son 
obsoletos. Se ha dado el...
Data Archaeology tools 
ads 
opencontext 
intrasis
Data Archaeology resources 
https://www.youtube.com/watch?v=Ak9Mudwf0 
EU 
http://en.wikipedia.org/wiki/Computational_arch...
Semantic Web 
Tecnologías para publicar datos legibles por 
aplicaciones informáticas (máquinas en la 
terminología de la ...
Semantic Web tools 
semantic-measures-library 
hermit 
openlinksw 
mashql 
sparql2xquery 
kiwi 
internetbusinesslogic
Semantic Web resources 
http://www.w3.org/2001/sw/BestPractices/Tutor 
ials 
http://www.w3.org/People/Ivan/CorePresentatio...
Sentiment analysis 
Interpretación de la actitud por medio de un 
texto analizado, esto ayuda a medir la 
respuesta emocio...
Sentiment analysis tools 
sentiment-analysis-for-social-media 
semantria 
humanele 
sentiment-analisys-api 
predition-api ...
Sentiment analysis resources 
http://brnrd.me/social-sentiment-sentiment-analysis/ 
http://www.bitext.com/bitext-api-2/sen...
Opinion Extraction 
Es parte del análisis de sentimientos enfocado 
a dar seguimiento al proceso de recolectar 
opiniones....
Opinion Extraction tools 
opinion-extraction-tool 
TwitIE 
open-information-extraction
Opinion Extraction resources 
http://alaginrc.nict.go.jp/opinion/index_e.html 
http://www.cs.uic.edu/~liub/FBS/sentiment-a...
Opinion Mining 
Extrae el significado de la opinión y se se 
puede categorizar respecto a parámetros. Esto 
es muy usado p...
Opinion Mining tools 
sentic 
trackur 
repustate 
nlptools 
speech2topics 
sentiment 
textalytics
Opinion Mining references 
http://kmandcomputing.blogspot.mx/2008/06/op 
inion-mining-with-rapidminer-quick.html 
http://w...
Text Mining 
Área multidisciplinaria basada en la 
recuperación de información, minería de datos, 
aprendizaje automático,...
Text Mining tools 
skyttle 
plos 
kh-coder 
lpu 
lqda-miner 
tams 
cat
Text Mining resources 
http://www.predictiveanalyticstoday.com/top- 
11-free-software-for-text-analysistext-mining-text- 
...
Corpus linguistics 
Un corpus lingüístico es un conjunto, 
habitualmente muy amplio, de ejemplos reales 
de uso de una len...
Corpus linguistics tools 
corpus-of-contemporary-american-english 
american-corpus 
webcorp 
spanish-framenet 
spanish-ora...
Corpus linguistics resources 
http://www-nlp. 
stanford.edu/manning/courses/corpcourse.p 
s 
http://www.york.ac.uk/languag...
Computational Linguistics 
Rama interdisciplinaria que modela el lenguaje 
natural en términos computacionales. Reúne 
exp...
Computational Psycholinguistics 
Estudia la comprensión, producción, 
adquisición y representación del lenguaje 
humano po...
Computational Linguistics resource 
http://www.coli.uni-sb.de/~krenn/edu.html 
http://linguistlist.org/sp/GetWRListings.cf...
Natural language processing 
Campo de las ciencias de la computación, 
inteligencia artificial y lingüística que estudia 
...
NLP Tools 
NLTK 
OpenNLP 
clarabridge 
taste-analitycs 
corenlp 
sharpnlp 
classias
NLP resources 
https://www.youtube.com/playlist?list=PLEC36 
CC787EA50D7C 
http://vikparuchuri.com/blog/natural-language-p...
Automatic summarization 
Proceso de reducir un documento de texto con 
un programa de cómputo con el fin de obtener 
un re...
Automatic summarization tools 
SystemQ 
MEAD 
textteaser
Coreference resolution 
Estudia la correcta interpretación de un texto, 
la importancia de cada tema mencionado, la 
corre...
Coreference resolution tools 
dcoref 
reconcile 
cogcomp 
coref 
bart 
guitar
Discourse analysis 
Analiza lenguaje escrito, hablado, en señas o 
cualquier tipo de expresión. Se analiza la 
secuencia d...
Discourse analysis tools 
discourse-analisys
Machine translation 
La traducción automática es un área de la 
lingüística computacional que investiga el uso 
de softwar...
Machine translation tools 
moses 
phrasal 
joshua 
jane 
odec 
giza++
Data warehouse 
Entre otras cosas contempla los medios para 
obtener esos datos, para extraerlos, 
transformarlos y cargar...
Morphological segmentation 
Estudia la estructura interna de las palabras 
para delimitar, definir y clasificar sus unidad...
Morphological segmentation source 
http://perso.limsi.fr/anne/coursM2R/morphology 
.pdf
Deep Learning 
Conjunto de algoritmos en aprendizaje 
automático que intenta modelar abstracciones 
de alto nivel en datos...
Deep Learning tools 
ConvNetJS 
DL4J 
H2O 
Caffe
Deep Learning resources 
http://www.deeplearning.net/tutorial/ 
http://deeplearning.net/tutorial/deeplearning.pdf 
http://...
Signal processing 
Es la manipulación matemática de una señal 
de información para modificarla o mejorarla en 
algún senti...
Pattern recognition 
El reconocimiento de patrones es la ciencia 
que se ocupa de los procesos sobre ingeniería, 
computac...
Pattern recognition tools 
OpenPR 
prtools 
SVM 
pattern-recognition-toolbox 
wnd-charm 
simphile 
PRT
Pattern recognition resources 
http://www.cedar.buffalo.edu/~srihari/CSE555/ 
http://research.microsoft.com/pubs/67119/svm...
Stochastic 
Sistema cuyo comportamiento es 
intrínsecamente no determinista. Cualquier 
comportamiento que pueda ser anali...
Data processing 
"Validación" - Asegurar que los datos 
suministrados son "limpio, correcto y útil." 
Clasificación- "Orde...
Data processing 
Agregación - combinación de múltiples piezas 
de datos . 
" Análisis"- la "colección, organización , 
aná...
Data processing tools 
MDP 
datafloq 
pig 
ECL 
sqoop 
flume 
chukwa
Data processing resources 
http://en.wikipedia.org/wiki/Data_processing
Data management 
Modelado de datos, Administración de base de 
datos, Data warehousing, Migración de datos, 
Minería de da...
Data management 
infobright 
talend 
jaspersoft 
jedox 
pentaho 
actuate
Data management resources 
http://www.tutorialspoint.com/dbms/ 
https://www.youtube.com/watch?v=R5BN- 
1Llhcw 
http://www....
Latent Dirichlet Allocation 
Usando palabras en documentos, presupone 
que cada documento es una mezcla de un 
pequeño núm...
Latent Dirichlet Allocation tools 
lda 
pylda
Topic Modeling 
Técnica empleada en ML y PLN para descubrir 
temas contenidos en una colección de 
documentos. Analiza la ...
Topic modeling Tools 
Gensim 
mallet
Data visualization 
La visualización de datos no es solo una 
manera de presentar los datos, sino una 
manera de explorar ...
Data visualization tools 
d3js 
processing 
visual.ly 
gephi 
tableau 
qlik view 
scavis
Data visualization resources 
https://www.dashingd3js.com/table-of-contents 
https://www.processing.org/tutorials/ 
http:/...
Conclusión 
Lo importante no es saberlo todo, sino saber 
que utilizar en cada caso. Es importante que 
desarrolles proyec...
Para descargarla 
La presentación la subiré a mis redes sociales, 
cualquier duda estoy a sus órdenes en las 
mismas: 
htt...
Gracias 
Carlos Toxtli Hernández 
psykohack carlos.toxtli ctoxtli@gmail.com
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
Próximos SlideShares
Carregando em…5
×

Introducción a data science, la guía práctica para volverse data scientist

6.117 visualizações

Publicada em

La ciencia de datos es cada vez más indispensable, ya no solo necesitamos extraer información de los datos, sino ahora conocimiento. En esta guía mostraremos las areas que comprende la ciencia de datos, las herramientas más usadas y tutoriales para cada una de ellas.

Publicada em: Dados e análise
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • ACCESS that WEBSITE Over for All Ebooks (Unlimited) ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... DOWNLOAD FULL EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M }
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

Introducción a data science, la guía práctica para volverse data scientist

  1. 1. Data Science Carlos Toxtli Hernández Maestro en Innovación Empresarial y Tecnológica TPM Tu foto psykohack carlos.toxtli.com/url ctoxtl@gmail.com
  2. 2. Presentación Carlos Toxtli Hernández 15 años de experiencia en TI Maestro en Innovación Empresarial y Tecnológica
  3. 3. CV
  4. 4. Introducción Esta plática pretende formar científicos de datos enseñando muchas de las herramientas empleadas y tutoriales para poner en práctica cada técnica.
  5. 5. Data Datos: Representación simbólica (numérica, alfabética, algorítmica, espacial, etc) de un atributo o variable cuantitativa o cualitativa. Sólo cuando un conjunto de datos se examina conjuntamente a la luz de un enfoque, hipótesis o teoría se puede apreciar la información contenida en dichos datos.
  6. 6. Science Ciencia: Conjunto de conocimientos estructurados sistemáticamente. Conocimiento obtenido mediante la observación de patrones regulares, de razonamientos y de experimentación generando preguntas, se construyen hipótesis, se deducen principios y se elaboran leyes y sistemas organizados por medio de un método científico.
  7. 7. Data Science Conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y los recursos de almacenamiento. Su fin último es extraer conocimiento de los datos.
  8. 8. Data Science Algunas de las áreas relacionadas son: Matemáticas, estadísticas, tecnologías de la información, proceso de señales, probabilidad, aprendizaje máquina, aprendizaje estadístico, programación de computadoras, ingeniería de datos, reconocimiento de patrones, visualización, cómputo de alto desempeño, data warehousing, entre otras.
  9. 9. Data Scientist Alguien que puede obtener, depurar, explorar, modelar e interpretar los datos.
  10. 10. Data Scientist En promedio $130,000 MXN al mes
  11. 11. Data Scientist
  12. 12. Implicaciones de Data Science Suele involucrar conocimientos de uno o más dominios (por ejemplo finanzas, medicina o geología). Debe tomar en cuenta aspectos computacionales. Incluye prueba de hipótesis y la validación de resultados.
  13. 13. Implicaciones de Data Science Los resultados deben ser confiables. Suele incluir el aprendizaje automatizado (machine learning), inteligencia artificial o algoritmos de descubrimiento de conocimiento (knowledge discovery). Implicar la visualización y creación rápida de prototipos
  14. 14. Big Data Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad).
  15. 15. Big Data Suele involucrar cómputo distribuido en múltiples servidores. Implica gestión y procesamiento de datos. Suele ir más allá de las bases de datos relacionales y data warehouses. Mejora el tiempo de ejecución o latencia.
  16. 16. Big Data tools
  17. 17. Big Data resources http://www.slideshare.net/carlostoxtli/big-data-para- principiantes http://www.ibm.com/developerworks/ssa/data/li brary/techarticle/dm-1209hadoopbigdata/ http://searchstorage.techtarget.com/guides/Big-data- tutorial-Everything-you-need-to-know http://www.lynda.com/Big-Data-training-tutorials/ 2061-0.html
  18. 18. Los infaltables Es importante saber las siguientes tecnologías: R Python Java Matlab Octave C++, entre otros
  19. 19. Small Data Radica en mostrar la información suficiente para que los humanos la podamos comprender. Se utilizan técnicas visuales para mostrar sólo los insights que sean relevantes y sean sencillos de entender y aplicar en la vida cotidiana.
  20. 20. Small Data resources Forget Big Data, Small Data is the Real Revolution What the “Small Data” Revolution Means for Marketers In Praise of ‘Small Data': How Targeted Analytics— Are Transforming Education Today How To Create Incredible Customer Service Through The ‘Small Data’ Advantage
  21. 21. High Quality data Se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en empresas y organismos.
  22. 22. Beneficios de la calidad de datos Evitando tener información duplicada. La normalización de archivos mejora el análisis de datos y permite segmentaciones precisas. Optimizar la captación y la fidelización. Información focalizada y correcta. Identificación más rápidamente del usuario reduciendo los tiempos de espera.
  23. 23. Data Quality tools Talend DQ Analyzer EasyDQ Gartner
  24. 24. Data Quality resources http://www.ocdqblog.com/home/alternatives-to-enterprise- data-quality-tools.html http://searchdatamanagement.techtarget.com/n ews/2240025847/Buyers-Guide-Choosing-data- quality-tools-and-software
  25. 25. Behavioral targeting Consiste en analizar el comportamiento que sigue un usuario al navegar por ejemplo entre sitios y detectando patrones de conducta es posible asociar un perfil al mismo. Es muy usado para empresas de advertisement.
  26. 26. Behavioral targeting tools intlock btbuckets Personyze audiencescience brainsins
  27. 27. Behavioral targeting resources http://adsolutions.yp.com/small-business-marketing- center/integrated-marketing-articles/ best-behavioral-targeting-tools http://searchengineland.com/behavioral-targeting- is-easier-than-you-think-33840
  28. 28. Machine Learning Rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. Crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos.
  29. 29. Machine learning tools Weka Waffles PredictionIO scikit-learn accord shogun
  30. 30. Machine Learning resources http://scikit-learn. org/stable/tutorial/basic/tutorial.html http://jmlr.org/mloss/ http://sourceforge.net/directory/science-engineering/ ai/machinelearning/os:mac/freshne ss:recently-updated/
  31. 31. Reality mining A través de equipos censados estudia la interacción de los humanos y detectar patrones de comportamiento entre los individuos.
  32. 32. Reality mining resources http://realitycommons.media.mit.edu/ http://www.forbes.com/forbes/2010/0830/e-gang- mit-sandy-pentland-darpa-sociometers-mining- reality.html http://mitpress.mit.edu/books/reality-mining http://www.sciencechannel.com/video-topics/ gadgets-and-tech/brave-new-world-reality- mining.htm
  33. 33. Information Extraction (IE) Creación de conocimiento de datos estructurados (relational databases, XML) y no estructurados (text, documents, images). El conocimiento generado debe estar en un formato machine-readable y machine-interpretable para facilitar inferencia. El resultado debe estar en un formato de formal knowledge (identifiers o ontologies).
  34. 34. IE tools LingPipe GATE Carrot2
  35. 35. IE resources http://www.dfki.de/~neumann/esslli04/reader/ov erview/IJCAI99.pdf http://www.ecmlpkdd2013.org/wp-content/ uploads/2013/09/Web-Scale- Information-Extraction.pdf http://www.isweb.uni-koblenz. de/files/ssms09/SSMS_Slides/ciravegn a-IE%20text.pdf
  36. 36. Knowledge discovery Describe el proceso de automáticamente buscar en grandes volúmenes de datos para encontrar patrones que puedan ser considerados conocimiento. Esta rama engloba al Data Mining en la etapa de analisis.
  37. 37. Knowledge discovery tools keel rapidminer miningmart ELKI angoss blasoft knowledgeminer
  38. 38. Knowledge discovery resources http://www.tutorialspoint.com/data_mining/dm_ knowledge_discovery.htm https://www.linkedin.com/pulse/article/2014111 4094203-52688293-tutorials-from-knowledge-discovery- and-data-mining-2014
  39. 39. Knowledge base Una Base de Conocimiento es un tipo especial de base de datos para la gestión del conocimiento. Provee los medios para la recolección, organización y recuperación computarizada de conocimiento. Existen las comprensibles por máquinas y por humanos.
  40. 40. Knowledge base tools freebase dbpedia wikidata opencyc wolfram-alpha classora yago
  41. 41. Knowledge base resources http://semanticweb.org/wiki/Getting_data_from_ the_Semantic_Web http://rdflib.github.io/sparqlwrapper/ http://wiki.freebase.com/wiki/Python https://developers.google.com/freebase/ https://github.com/dbpedia-spotlight/dbpedia-spotlight/ wiki/User's-manual
  42. 42. Data Mining Intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.
  43. 43. Data mining tools orange jhepwork knime rattle mahout mlflex databionic
  44. 44. Data mining resources http://www.tutorialspoint.com/data_mining/ http://www.autonlab.org/tutorials/ http://msdn.microsoft.com/en-us/ library/ms167167.aspx http://www.rdatamining.com/ http://data-mining-tutorials.blogspot.mx/
  45. 45. Ontologies Las ontologías son la formulación de un exhaustivo y riguroso esquema conceptual dentro de uno o varios dominios dados; con la finalidad de facilitar la comunicación y el intercambio de información entre diferentes sistemas y entidades.
  46. 46. Lenguajes de ontologías RDF OWL DAML OIL SKOS EARL GLD
  47. 47. Ontology-based IE Por medio de por lo menos una ontología, OBIE utiliza métodos para identificar conceptos, instancias y relaciones entre las ontologías dando como salida una ontología.
  48. 48. Ontology learning (OL) Forma automática de creación de ontologías a través de sus relaciones entre sus conceptos para ser usado en lenguaje natural.
  49. 49. Ontology tools protégé oboedit opensemanticframework neontoolkit kaon hozo fluenteditor
  50. 50. Semantic Annotation (SA) Utiliza análisis semántico en la información machine-understandable y hace uso de Terminology extraction y entity linking. Esto se consigue por medio de metadata.
  51. 51. Semantic Annotation tools ehost domeo annozilla knoodl insemtives autometa
  52. 52. Semantic Annotation resources https://gate.ac.uk/sale/talks/gate-course-may10/ track-3/module-10- ontologies/ontologies.pdf https://gate.ac.uk/tutorials/iswc2014-social-media- tutorial.html http://teaching-wiki.sti2.at/uploads/5/55/05_SW-SemanticAnnotation. pdf
  53. 53. Terminology extraction Su función principal es extraer los términos relevantes en el cuerpo de un texto. Esto ayuda a entender el tema de que se esta hablando, todo esto gracias a procesadores lingüísticos que extraen a las palabras o frases candidatas.
  54. 54. Terminology extraction tools wordfast translated TerMine fivefilters keywordextraction maui vocabgrabber
  55. 55. Terminology extraction resources http://linguistech.ca/MultiTrans_Prism_TermExt ractor_E_TUTCERTT_I https://www.airpair.com/nlp/keyword-extraction-tutorial http://recremisi.blogspot.mx/p/online-term-extractors. html
  56. 56. Data Archaeology Es el arte y ciencia de recuperar datos codificados en formatos que ahora son obsoletos. Se ha dado el caso de recuperar información en cintas de los 60’s siendo importante esta área para poder entender la información almacenada.
  57. 57. Data Archaeology tools ads opencontext intrasis
  58. 58. Data Archaeology resources https://www.youtube.com/watch?v=Ak9Mudwf0 EU http://en.wikipedia.org/wiki/Computational_arch aeology
  59. 59. Semantic Web Tecnologías para publicar datos legibles por aplicaciones informáticas (máquinas en la terminología de la Web semántica). Se basa en la idea de añadir metadatos semánticos y ontológicos (describen el contenido, el significado y la relación) se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente.
  60. 60. Semantic Web tools semantic-measures-library hermit openlinksw mashql sparql2xquery kiwi internetbusinesslogic
  61. 61. Semantic Web resources http://www.w3.org/2001/sw/BestPractices/Tutor ials http://www.w3.org/People/Ivan/CorePresentatio ns/SWTutorial/ http://www.linkeddatatools.com/semantic-web-basics http://obitko.com/tutorials/ontologies-semantic-web/
  62. 62. Sentiment analysis Interpretación de la actitud por medio de un texto analizado, esto ayuda a medir la respuesta emocional de los usuarios que han interactuado.
  63. 63. Sentiment analysis tools sentiment-analysis-for-social-media semantria humanele sentiment-analisys-api predition-api sentiment-analisys-spanish tweetsentiments
  64. 64. Sentiment analysis resources http://brnrd.me/social-sentiment-sentiment-analysis/ http://www.bitext.com/bitext-api-2/sentiment-analysis- 2.html https://cloud.google.com/prediction/docs/sentim ent_analysis
  65. 65. Opinion Extraction Es parte del análisis de sentimientos enfocado a dar seguimiento al proceso de recolectar opiniones. Implica la extracción de una posible opinión en el cuerpo de un mensaje.
  66. 66. Opinion Extraction tools opinion-extraction-tool TwitIE open-information-extraction
  67. 67. Opinion Extraction resources http://alaginrc.nict.go.jp/opinion/index_e.html http://www.cs.uic.edu/~liub/FBS/sentiment-analysis. html http://citeseerx.ist.psu.edu/viewdoc/summary?d oi=10.1.1.130.2832 https://www.textrazor.com/tutorials#properties
  68. 68. Opinion Mining Extrae el significado de la opinión y se se puede categorizar respecto a parámetros. Esto es muy usado para medir su impacto en los medios sociales y obtener información relevante que nos indica si un contenido le gusta o qué no le gusta al usuario.
  69. 69. Opinion Mining tools sentic trackur repustate nlptools speech2topics sentiment textalytics
  70. 70. Opinion Mining references http://kmandcomputing.blogspot.mx/2008/06/op inion-mining-with-rapidminer-quick.html http://www.slideshare.net/KavitaGanesan/opini on-mining-kavitahyunduk00 http://jmgomezhidalgo.blogspot.mx/2009/04/opi nion-mining-tutorial-by-bing-liu-at.html
  71. 71. Text Mining Área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. La mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto. Gran desarrollo en la minería de textos multilingual.
  72. 72. Text Mining tools skyttle plos kh-coder lpu lqda-miner tams cat
  73. 73. Text Mining resources http://www.predictiveanalyticstoday.com/top- 11-free-software-for-text-analysistext-mining-text- analytics/ http://www.cis.upenn.edu/~ungar/KDD/text-mining. html http://sentimentmining.net/weka/ https://www.youtube.com/watch?v=ziBRRStPIt k
  74. 74. Corpus linguistics Un corpus lingüístico es un conjunto, habitualmente muy amplio, de ejemplos reales de uso de una lengua. Estos ejemplos pueden ser textos (lo más común) o muestras orales (generalmente transcritas). Tambien conocido como corpora.
  75. 75. Corpus linguistics tools corpus-of-contemporary-american-english american-corpus webcorp spanish-framenet spanish-oral-corpora british-national-corpus spanish-corpora
  76. 76. Corpus linguistics resources http://www-nlp. stanford.edu/manning/courses/corpcourse.p s http://www.york.ac.uk/language/current/resourc es/corpora/ http://www-01.sil.org/linguistics/etext.html http://radimrehurek.com/gensim/tutorial.html https://gate.ac.uk/demos/movies.html#section- 1.2.2.
  77. 77. Computational Linguistics Rama interdisciplinaria que modela el lenguaje natural en términos computacionales. Reúne expertos en lingüística, lenguaje, computer scientists, inteligencia, matemáticas, lógica, filosofía, ciencia cognitiva, psicología cognitiva, psicolingüística, antropólogos, neurociencia, por mencionar lo más involucrados.
  78. 78. Computational Psycholinguistics Estudia la comprensión, producción, adquisición y representación del lenguaje humano por medio de modelos computacionales resultados de experimentos psicolingüísticos y análisis del corpus.
  79. 79. Computational Linguistics resource http://www.coli.uni-sb.de/~krenn/edu.html http://linguistlist.org/sp/GetWRListings.cfm?WR Abbrev=Software
  80. 80. Natural language processing Campo de las ciencias de la computación, inteligencia artificial y lingüística que estudia las interacciones entre las computadoras y el lenguaje humano. El PLN se ocupa de mecanismos para la comunicación entre personas y máquinas por medio de lenguajes naturales. Programas que ejecutan o simulan la comunicación.
  81. 81. NLP Tools NLTK OpenNLP clarabridge taste-analitycs corenlp sharpnlp classias
  82. 82. NLP resources https://www.youtube.com/playlist?list=PLEC36 CC787EA50D7C http://vikparuchuri.com/blog/natural-language-processing- tutorial/ http://research.microsoft.com/apps/pubs/?id=21 7165 http://idibon.com/natural-language-processing-tutorial- with-ebert/
  83. 83. Automatic summarization Proceso de reducir un documento de texto con un programa de cómputo con el fin de obtener un resumen que conserve los puntos más importantes del documento original. Son tomadas en cuenta variables como longitud, estilo de escritura y sintaxis. Los 2 enfoques principales son extracción y abstracción.
  84. 84. Automatic summarization tools SystemQ MEAD textteaser
  85. 85. Coreference resolution Estudia la correcta interpretación de un texto, la importancia de cada tema mencionado, la correcta asociación de ideas individuos. Los resultados están representados en términos de porcentajes de correlación.
  86. 86. Coreference resolution tools dcoref reconcile cogcomp coref bart guitar
  87. 87. Discourse analysis Analiza lenguaje escrito, hablado, en señas o cualquier tipo de expresión. Se analiza la secuencia de oraciones coherentes, proposiciones, mensaje entre otras. Analiza también las características socio psicológicas del discurso. Es un área multidisciplinaria.
  88. 88. Discourse analysis tools discourse-analisys
  89. 89. Machine translation La traducción automática es un área de la lingüística computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. Permite un manejo más apropiado de las diferencias en la Tipología lingüística, el reconocimiento de frases, la traducción de expresiones idiomáticas y el aislamiento de anomalías.
  90. 90. Machine translation tools moses phrasal joshua jane odec giza++
  91. 91. Data warehouse Entre otras cosas contempla los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.
  92. 92. Morphological segmentation Estudia la estructura interna de las palabras para delimitar, definir y clasificar sus unidades. Un morfema se analiza en términos de lexemas y gramemas. Lexema: niños lexema: niñ Gramema: niños morfemas flexivos: -o, género masculino -s, número plural
  93. 93. Morphological segmentation source http://perso.limsi.fr/anne/coursM2R/morphology .pdf
  94. 94. Deep Learning Conjunto de algoritmos en aprendizaje automático que intenta modelar abstracciones de alto nivel en datos usando arquitecturas compuestas de transformaciones no-lineales múltiples. Una observación (por ejemplo, una imagen) puede ser representada en muchas formas (por ejemplo, un vector de píxeles).
  95. 95. Deep Learning tools ConvNetJS DL4J H2O Caffe
  96. 96. Deep Learning resources http://www.deeplearning.net/tutorial/ http://deeplearning.net/tutorial/deeplearning.pdf http://es.wikipedia.org/wiki/Aprendizaje_profund o http://ufldl.stanford.edu/wiki/index.php/UFLDL_ Tutorial https://github.com/lisa-lab/ DeepLearningTutorials
  97. 97. Signal processing Es la manipulación matemática de una señal de información para modificarla o mejorarla en algún sentido. Por medio del muestreo se toman muestras de una señal a una frecuencia o tasa de muestreo constante, para cuantificarlas posteriormente.
  98. 98. Pattern recognition El reconocimiento de patrones es la ciencia que se ocupa de los procesos sobre ingeniería, computación y matemáticas relacionados con objetos físicos o abstractos, con el propósito de extraer información que permita establecer propiedades de entre conjuntos de dichos objetos.
  99. 99. Pattern recognition tools OpenPR prtools SVM pattern-recognition-toolbox wnd-charm simphile PRT
  100. 100. Pattern recognition resources http://www.cedar.buffalo.edu/~srihari/CSE555/ http://research.microsoft.com/pubs/67119/svmt utorial.pdf http://homepages.inf.ed.ac.uk/rbf/IAPR/researc hers/PPRPAGES/pprtut.htm http://en.wikipedia.org/wiki/Pattern_recognition
  101. 101. Stochastic Sistema cuyo comportamiento es intrínsecamente no determinista. Cualquier comportamiento que pueda ser analizable en términos de probabilidad merece ser denominado como un proceso estocástico.
  102. 102. Data processing "Validación" - Asegurar que los datos suministrados son "limpio, correcto y útil." Clasificación- "Ordena elementos de cierta secuencia y / o en diferentes conjuntos." Recapitulación - reducir los detalles de los datos a sus principales puntos.
  103. 103. Data processing Agregación - combinación de múltiples piezas de datos . " Análisis"- la "colección, organización , análisis, interpretación y presentación de datos.". Información- lista detallada o resumen de los datos de información computarizada.
  104. 104. Data processing tools MDP datafloq pig ECL sqoop flume chukwa
  105. 105. Data processing resources http://en.wikipedia.org/wiki/Data_processing
  106. 106. Data management Modelado de datos, Administración de base de datos, Data warehousing, Migración de datos, Minería de datos, Calidad de datos, Seguridad de datos, Gestión de meta-datos (repositorios de datos, y su gestión) y Arquitectura de datos
  107. 107. Data management infobright talend jaspersoft jedox pentaho actuate
  108. 108. Data management resources http://www.tutorialspoint.com/dbms/ https://www.youtube.com/watch?v=R5BN- 1Llhcw http://www.sqlcourse.com/intro.html http://searchdatamanagement.techtarget.com/g uide/Master-data-management-tutorial
  109. 109. Latent Dirichlet Allocation Usando palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. LDA es un ejemplo de modelo de categorías y es un modelo en grafo para descubrir categorías
  110. 110. Latent Dirichlet Allocation tools lda pylda
  111. 111. Topic Modeling Técnica empleada en ML y PLN para descubrir temas contenidos en una colección de documentos. Analiza la concentración de una palabras ligadas a un tema por ejemplo si hay más palabras como “dog” o “bone” y menos como “cat” o “meow” entonces el documento está por ejemplo inclida 90% perro y 10% gato.
  112. 112. Topic modeling Tools Gensim mallet
  113. 113. Data visualization La visualización de datos no es solo una manera de presentar los datos, sino una manera de explorar y comprender los datos. Los elementos de la visualización como tamaño, forma, color, orden y encapsulamiento ayudan a mostrar de una forma más clara y comprensible.
  114. 114. Data visualization tools d3js processing visual.ly gephi tableau qlik view scavis
  115. 115. Data visualization resources https://www.dashingd3js.com/table-of-contents https://www.processing.org/tutorials/ http://www.lynda.com/Design-Infographics-tutorials/ Data-Visualization- Fundamentals/153776-2.html
  116. 116. Conclusión Lo importante no es saberlo todo, sino saber que utilizar en cada caso. Es importante que desarrolles proyectos con varias de estas tecnologías para comprobar tu experiencia como data scientist. También es buena práctica estructurar información para que sea accesible por la comunidad. Te invito a volverte un científico de datos.
  117. 117. Para descargarla La presentación la subiré a mis redes sociales, cualquier duda estoy a sus órdenes en las mismas: http://google.com/+CarlosToxtli http://facebook.com/carlos.toxtli
  118. 118. Gracias Carlos Toxtli Hernández psykohack carlos.toxtli ctoxtli@gmail.com

×