2. Quées el Data Mining TEORÍAGrandesempresastienenvaliosainformaciónoculta y almacenada en sus bases de datosproveniente de la acumulación de info a lo largo de suhistoria. CERTEZAS Esosdatos no pueden ser extraídospormétodosinformáticosconvencionalesniportécnicasestadísticastradicionales. Se requiere de algoritmos y técnicasmáscomplejasprovenientes del área de la Inteligencia Artificial y la MatemáticaCompleja, como ser RedesNeuronales, Árboles de Decisión, RegresiónLogística, AlgoritmosGenéticos y Análisis Fractal. VALOR Su valor radica, en que el descubrimiento de dichospatronespuedeconvertirse en el activomásimportanteparaunaempresa a la hora de toma de decisiones en susnegocios. Conociendo de estamanera con másdetalle a susclientes, la dinámica de susproductos en el mercado, realizandomodeloseficientes de predicción y determinando la influencia de las variables involucradas. SEGÚN EL MITPara el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.
3. Quées el Data Mining DEFINICIÓN La Minería de Datos, es un conjunto de técnicasprovenientes de la Inteligencia Artificial y la MatemáticaCompleja,cuyafinalidad, en el ambienteempresarial,es la de encontrar en grandes bases de datospatronesocultos, no triviales e imposibles de detectarmedianteotrosmecanismosestadísticos; paraluegoextraerdichainformación, la cualpuedeconvertirse en el activomásimportante de unaempresa a la hora de toma de decisiones y encararfuturasestrategias de negocios.
4. Tecnicas A. RedesNeuronales Características: - Sistema Artificial queemula el funcionamiento del cerebrohumano.- Son capaces de aprendermediantediferentesalgoritmos de entrenamiento. - Existendiferentestipos de RedesNeuronalesArtificiales. Su utilización y entrenamientodepende del problemaqueesténencomendadas a resolver. - Son flexibles y resistentes a errores. - Puedenprocesarse en tiempo real.- Susprincipalesusos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicablesporejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos. Neurona Humana Neurona Artificial Red Neuronal Artificial
5.
6. Tecnicas B. Árboles de Decisión Notas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años. Solución al problema anterior:Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis. EDAD > 38 28-38 18-27 P=0,65 P=0,61 NSE ALTO NSE MED NSE BAJO Profesional Tecnico/Analista NSE ALTO NSE MED NSE BAJO Emplado Estudiante P=0,81 P=0,51 P=0,42 P=0,29 P=0,37 P=0,12 P=0,76 P=0,67
7.
8.
9. Data Mining comoInteligencia de Negocios La Inteligencia de Negocios, disciplinamásconocidaporsunombre en ingléscomo Business Intelligence, tienelassiguientescaracterísticasfundamentales:Acceso a la InformaciónObtenerReportes de calidadApoyo en la toma de decisionesLas herramientasmásdestacadasparaconseguirdichospuntos son:Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAP El proceso de Data Mining, consta de variospasos, los mismosabarcan:Etapa de consultoría: Comprender el problema y determinar de lastécnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisisdeterminados en la primeraetapa (redesneuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.Portodo lo expresado en el presentedocumento, Data Mining es la herramientamáspotentequeacompaña a los responsables de unaempresa o cualquiertipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultadospresentes, pasados y aúnfuturos.
11. Como trabaja? Tipos de Algoritmos ProblemasNegocios Clustering = grouping Asociacion de segmentos y atributos. Ej: E-Commerce WebSite Clustering Algorithm Classification = predecir un valor especifico Gran volumen de datos, Hight-Quality Historical Data Decision Trees Naïve Bayes Neural Network Association = correlacion Ej: Vendedores de detalles ( Cervezas y Panales) Association Algorithm Regression = Prevision a un numero continuo Time Series Logistic Regression Sequences = Proceso y Rutas ( websites) Sequence Clustering Deviation = ValoresExtremos (fraudes, credit card) Decision Tree Clustering
12. Como trabaja? Case Tables FuenteDatos Lista de Valoresqueutilizara el algoritmo Nested Tables Informacionadicional Ejemplo: Customer Table 9 Algoritmos Mining Structures contienen Mining Models
13. Algoritmos 1. Association Rules 2. Clustering 3. Sequence Clustering 4. Decision Trees 5. Linear Regression 6. Time Series 7. Naive Bayes 8. Neural Network 9. Logistic Regression
14. Association Rules Algoritmo genera reglasindicandocomo los items debenaparecerjuntos. Ejemplo: Permitepredecircuando un clienteseleccionara un item, el clienteseleccionaratambienotrotipo de item.
16. Sequence Clustering El algoritmocombinaanalisis de secuencias con cluster paraanalizar la transicion o cambios entre estados. Ejemplo: La prediccion del cluster indicaracualtransiciones la queocurrira en base a patronespasados
17. Decision Trees Organiza los datos en un Arbol de Red en el cualcadanodorepresentauna decision acerca de unacaracteristica de la informacion. El algoritmosoporta la prediccion de los atributos o caracteristicas.
18. Linear Regression Es unaaplicacion particular del Decision Tree paracrear un arbol de decisiones con unaraizsencilla.
19. Time Series Analiza el tiemporelacionado con datosusandounaregresion lineal. Ejemplo: Predecirlasventasfuturas en base a lasventas en el pasado.
20. Naive Bayes Examina un atributo en el tiempoparaanalizarcomo el atributo se relaciona a otroatributopara ser predecido. Para ejecutarloesmuyfacilperoignora la influencia de la combinaciones de otrosatributos.
21. Neural Network Similar al sistemanerviosotrabajandoparaanalizarlasentradas(input) al sistema, cadanodo en la red tiene un peso paradeterminarlassalidas (output) del sistema de cadanodo
22. Logistic Regression Es unaaplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous