SlideShare uma empresa Scribd logo
1 de 9
Baixar para ler offline
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
WEKA: Programa que Permite una mayor Comprensión y
Acercamiento a la Minería de Datos
Sánchez, J.
1
Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela.
jculacio@gmail.com.
Resumen
El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre
otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los
costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso
al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la
tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia
Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla
en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva
asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la
DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e
implementado en Java.
Palabras clave: WebApps, KDD, Minería de Datos, WEKA.
WEKA: program that allows to a greater understanding and
approach to the Mining of Data
Summary
WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among
others), with which users have the possibility of accelerating their learning. In addition, it diminishes the
costs of reproduction, publication and distribution of the printed material, another adventage is the
access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of
the KDD (Knowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is
so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet
“Introduction to the Artificial Intelligence and Expert Systems”, or to be a new subjet of this degree
course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the
University of Waikato, New Zealand, under license GNU and implemented in Java.
Index terms: WebApps, KDD, Data Mining, WEKA.
Introducción
La reflexión planteada por Nichols (1995)
permite comprender la sobrecarga de
información a la que somos sometido
actualmente: “Una edición semanal del New
York Times contiene más información de lo que
la persona promedio podría encontrar en toda su
vida en la Inglaterra del siglo XVII. Se ha
producido más información en los últimos 30
años que en los previos 5000 años. Cerca de
1000 libros se publican internacionalmente cada
día, y el total del conocimiento impreso se dobla
cada ocho años”.
Gracias a los avances tecnológicos y en
especial a la revolución digital, ha posibilitado
que la captura de los datos sea fácil, además, el
almacenamiento de los mismos posee un costo
casi nulo. Con el desarrollo de software y
hardware, grandes cantidades de datos son
recogidas y almacenadas en base de datos. Por
tanto, el análisis de estos datos a través de las
herramientas tradicionales de gestión de datos o
con técnicas estadísticas, no son adecuadas.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Por otra parte, con el advenimiento del
Internet, la información presenta una ubicuidad
sin precedente y crece de una manera
acelerada, para verificar esto sólo basta usar un
buscador como google e introducir la palabra
información, cuyo resultado son 368000000
sitios posibles, si se pudiera examinar cada uno
de los sitios anteriores en sólo un minuto el
resultado serían 6133333 horas, en otras
palabras tomaría 255555 días, el tiempo
potencial total necesario: más de 700 años. Esto
es imposible, y por lo tanto, existe una clara
necesidad de disponer de tecnologías que
efectúen procesos de búsquedas y aún más, de
tecnologías que ayuden a comprender su
contenido.
Debido al ya mencionado agigantado
avance en el hardware y la mayor comprensión
del software ha derivado la redefinición y
actualización de conceptos fundamentales, entre
ellos el de información, además, de su
clasificación llamada “espectro de información”,
el cual está formado por: datos, información,
conocimiento y sabiduría.
Figura 1. Espectro de Información.
Un dato es un conjunto discreto de factores
objetivos de un hecho real. El concepto de dato
es definido por como un registro de
transacciones. Un dato no dice nada sobre el
porqué de las cosas, y por si mismo tiene poca o
ninguna relevancia o propósito. A pesar de todo,
los datos son importantes para las
organizaciones, ya que son la base para la
creación de la información.
Los investigadores que han estudiado el
concepto de información, lo describen como un
mensaje. Como cualquier mensaje tiene un
emisor y un receptor. La información es capaz
de cambiar la forma en que el receptor percibe
algo, y de impactar sobre sus juicios de valor y
comportamiento. La palabra informar
originalmente significa “dar forma a”, y es
estrictamente el receptor quien decide si el
mensaje que ha recibido es realmente
información, es decir, si realmente le informa. Un
informe lleno de tablas inconexas, puede ser
considerado información por el que la escribe,
pero a su vez puede ser juzgado como ruido por
el que la recibe. A diferencia de los datos, la
información tiene significado (relevancia y
propósito). Los datos se convierten en
información cuando su creador les añade
significado.
Para Davenport y Prusak (1998) el
conocimiento es una mezcla de experiencias,
valores, información y saber hacer con la
incorporación de nuevas experiencias e
información y útil para la acción. El conocimiento
es originado y aplicado en la mente de los
expertos; lo que queda inmediatamente claro es
que el conocimiento no es simple, es una mezcla
de varios elementos. Es un flujo que tiene una
estructura formalizada, es intuitivo y difícil de
captar en palabras o de entender plenamente en
forma lógica. El conocimiento existe dentro de
las personas, como parte de la complejidad
humana y de nuestra impredecibilidad.
La sabiduría que no es más que el
procesamiento de conocimiento el cual a su vez
produce nuevo conocimiento, no puede ser
tratada o usada actualmente ya que no se
poseen los recursos o herramientas
computacionales para ello.
En la actualidad, la mayoría de los
programas, aplicaciones, sistemas de
información, es decir, el software existente se ha
construido para procesar datos o información.
Sólo la Inteligencia Artificial se ha dado a la
tarea del tratamiento y uso del conocimiento.
Pero son las organizaciones quienes hacen
un uso intensivo del software para el control y
mantenimiento de las mismas, además, son
estas quienes invierten en el desarrollo e
investigación de los sistemas.
No es de extrañar que las organizaciones
den diferentes niveles de uso a sus datos. Entre
estos: a) Nivel operacional: se utilizan sistemas
de información que monitorean las actividades y
transacciones elementales. b) Nivel de
administración: realiza las operaciones de
captura masiva de datos y servicios básicos de
tratamiento de datos, con tareas predefinidas. c)
Nivel de conocimiento: realiza las actividades de
análisis, seguimiento, control y toma de
decisiones, realiza la consulta sobre información
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
almacenada. d) Nivel estratégico: realiza las
actividades de planificación a largo plazo, tanto
del nivel de administración como de los objetivos
que la empresa posee. Mira el futuro.
Ante todo lo anterior, los datos existen y
además se les dan diferentes niveles de uso,
pero estos son almacenados en las base de
datos, estas últimas son una colección ordenada
de datos organizada de tal forma que puede
consultarse y actualizarse de manera eficiente.
Sobre el uso dado a los datos en el tiempo
nace el OLTP (On-Line Transaction Processing,
Procesamiento de Transacciones en Línea),
dedicadas a la captura y almacenamiento de
transacciones; y el OLAP (On-Line Analytical
Processing, Procesamiento Analítico en Línea)
permiten el análisis y navegación de los datos.
Conocido el nivel de uso en el tiempo de los
datos, es entendible porque a las bases de datos
se les puede extraer conocimiento de diversas
formas como: a) Conocimiento evidente:
fácilmente recuperable con SQL. b)
Conocimiento multidimensional: considera los
datos con cierta estructura y relevancia, se usa
el OLAP. c) Conocimiento oculto: información
evidente oculta a priori y potencialmente útil sólo
se descubre con DM. d) Conocimiento profundo:
información almacenada en la base de datos,
pero que resulta imposible recuperar a menos
que se disponga de alguna clave que oriente la
búsqueda.
Figura 2. Conocimiento en la Base de Datos.
Son Fayyad, Piatesky y Smyth (1996)
quienes definen el KDD (Knowledge Discovery in
Databases, Descubrimiento de Conocimiento en
Base de Datos) como el proceso no trivial de
identificar patrones válidos, novedosos,
potencialmente útiles y, en última instancia,
comprensible a partir de los datos.
El KDD es un conjunto de pasos interactivos
e iterativos. Es interactivo porque el usuario es
quien decide, supervisa y controla cada una de
las fases del proceso, además, es iterativo
debido a que se puede acceder desde y hacia
cualquier fase en todo momento.
El KDD es un proceso complejo que incluye
las siguientes fases: a) Integración y
recopilación, b) Selección, limpieza y
transformación, c) Minería de Datos, d)
Evaluación e interpretación y e) Difusión y uso.
Observar las fases clarifica la conexión
entre el KDD y la Minería de Datos; el KDD es el
proceso global de descubrir conocimiento útil
desde las bases de datos mientras la Minería de
Datos se refiere a la obtención de patrones o
modelos.
Figura 3. Fases del KDD.
Figura 4. Esfuerzo requerido en Fases del KDD.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Siguiendo el mismo orden de las fases del
KDD, se requerirá de esfuerzo: 15%, 60%, 20%
y 5% (que agrupa la fase 4 y 5) respectivamente
de dedicación para su culminación, esto se
aprecia en la Figura 4.
La Minería de Datos es un área de cuyo
objetivo es predecir resultados y/o descubrir
relaciones en los datos. La Minería de Datos
puede ser descriptiva (descubrir patrones que
describen los datos), o predictivos (para
pronosticar el comportamiento del modelo
basado en los datos disponibles). Por tanto,
permite entre muchas otras cosas: a) Explorar
grandes cantidades de datos (generalmente
relacionado al mercadeo o a los negocios), b)
Búsqueda de modelos consistentes y/o
relaciones sistemáticas entre las variables y c)
Validar los resultados aplicando los modelos
descubiertos a los nuevos subconjuntos de
datos.
Las partes en las que se divide la Minería
de Datos son: a) Fuente de datos, b) Pre-
procesamiento, c) Exploración y Transformación,
d) Reconocimiento de Patrones y e) Evaluación
e Integración.
Figura 5. Partes de la Minería de Datos.
Las técnicas en las que se fundamenta la
Minería de Datos son: a) Predicción: permite la
obtención de tendencias y comportamientos en
bases de datos (donde se utiliza: Regresión y
Clasificación) y b) Descubrimiento de
conocimiento: permite filtrar los datos contenidos
en la bases de datos y con esto la identificación
de patrones previamente desconocidos
(básicamente comprende: Detección de
desviaciones, Clustering, Reglas de asociación y
Visualización). Esto se observa en la figura 6.
Figura 6. Técnicas de la Minería de Datos.
La integración de las técnicas de Minería de
Datos en las actividades diarias se ha convertido
en algo habitual, para ello sólo bastara con leer
los siguientes ámbitos de aplicación que indican
Ferri, C., Hernández, J. y Ramírez, M. (2004): a)
En la banca y finanzas, b) Análisis de mercado,
distribución y cualquier otro elemento
constituyente del comercio, c) Salud pública y
privada así como los diferentes tipos de seguros,
d) Educación, e) Procesos de manufactura,
servicios e industriales, f) Medicina, g) Biología y
bioingeniería, h) Telecomunicaciones, i) Correo
electrónico y agendas personales, j) Recursos
humanos, k) Web, l) Turismo, m) Trafico, n)
Hacienda, ñ) Policiales y de seguridad
ciudadana, o) Deportes, p) Políticas, entre
muchísimo otros.
Se nota la gran diversidad de aplicaciones
de uso para la Minería de Datos, de allí que en
la actualidad existan diferentes suites y
herramientas especificas tanto bajo licencia de
software privativo (SPSS Clementine, Kepler,
Oracle Data Mining Suite, DBMiner, DB2
Intelligent Miner, SAS Enterprise Miner,
STATISTICA Data Miner, sólo por nombrar
algunas) como de software libre (WEKA, YALE,
TariyKDD, JavaNNS); que permiten el
preprocesado de los datos, varios modelo de
análisis, facilidad para el diseño de las
soluciones y de experimentos debido al soporte
grafico amigable con que se presentan los
resultados.
WEKA (Waikato Environment for Knowledge
Analysis) fue desarrollada y es mantenida por un
grupo de investigadores de la Universidad de
Waikato (Nueva Zelanda).
Las cuatro (4) opciones de interfaz de
trabajo con el programa son:
Explorer: es la opción que permite ejecutar
los algoritmos de análisis y comparar resultados
sobre un único conjunto de datos.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Experimenter: es la opción que permite
definir experimentos complejos y almacenar
resultados.
Knowledge Flow: es la opción que permite
llevar a cabo las mismas operaciones que
Experimenter pero representado como un grafo
dirigido.
Simple Cli: es “Command-Line Interfaz” es
una ventana de comandos java para ejecutar las
clases WEKA.
Al ahondar sobre la interfaz de trabajo
Explorer se encuentran los siguientes seis (6)
subentornos de ejecución:
Preprocess: permite el uso de las
herramientas y filtros para cargar y manipular los
datos.
Classify: permite el acceso a las técnicas de
clasificación y regresión.
Cluster: permite integrar varios métodos de
agrupamiento.
Associate: permite incluir las reglas de
asociación.
Select Attributes: permite aplicar las
técnicas de reducción de atributos.
Visualize: permite visualizar el
comportamiento de los datos.
Además, los datos se pueden importar en
varios formatos: ARFF, CVS, C.45, binarios, o
pueden provenir desde un URL o de una base
de datos (usando JDBC).
Al importar el ejemplo iris.arff en la interfaz
de trabajo Explorer el subentorno de ejecución
Preprocess en la opción Open File el programa
nos mostrara la siguiente ventana:
Figura 7. Preprocess de iris.arff.
El WEKA permite hacer diferente
tratamiento con los datos: a) Supervisados, que
consideran la información de la clase y b) No
supervisados: no consideran la información de la
clase.
Al seleccionar el atributo class resulta:
Figura 8. Selección atributo class de iris.arff.
Si sobre la opción Filter se pulsa sobre el
boton choose y luego en el menú unsupervised
y en el submenú attribute la opción Discretize y
luego sobre el botón Filter resultara la siguiente
ventana:
Figura 9. Menú unsupervised de iris.arff.
Discretize, permite transformar los atributos
continuos a atributos nominales, es decir, la
conversión de un tipo numérico a uno nominal
que representa rangos. Ejemplo: Calificaciones
entre el rango 0 a 10 que adquieren el
significado de reprobado, muy deficiente,
deficiente, regular, excelente.
Al pulsar sobre el botón Apply se mostrara:
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Figura 10. Resultado de aplicar Discretize.
Al revisar el segundo subentorno de
ejecución el Clasify, presenta cuatro (4)
opciones en el Test Options:
Use trainig set: la muestra es usada para
entrenar y probar al mismo tiempo. Los
resultados obtenidos no corresponden con la
realidad.
Supplied test set: los atributos de los datos
son escritos en un nuevo archivo de formato
ARFF sobre el cual se efectuará la clasificación.
Cross-validation: permite dividir la muestra
en k partes, sobre estas se procede a entrenar el
clasificador con las k-1 partes y evaluar con la
parte k actual.
Percentage split: indica el porcentaje de la
muestra que empleara para probar el
clasificador.
Además, el WEKA ofrece ocho opciones
para clasificar:
Bayes: métodos basados en el aprendizaje
de Bayes.
Functions: métodos matemáticos.
Lazy: métodos basados en el aprendizaje
del perezoso.
Meta: métodos que resultan de la
combinación de diferentes métodos de
aprendizaje.
Mi: métodos que aprenden mediante la
variación de la densidad de los algoritmos.
Misc: métodos que aprenden como si
leyeran los datos.
Trees: métodos que aprenden mediante
arboles de decisión.
Rules: métodos que aprenden y esto se
puede expresar como reglas.
Se pueden observar las ocho (8) opciones
en la figura 11.
Figura 11. Opciones del subentorno Classify.
El tercer subentorno de ejecución el Cluster
presenta nueve (9) algoritmos para agrupar
datos.
CobWeb: utiliza el algoritmo CobWeb.
DBScan: utiliza el algoritmo DBScan.
EM: utiliza el algoritmo EM.
FarthestFirst: utiliza el algoritmo
FarthestFirst.
FilteredCluster: agrupa los datos
arbitrariamente y luego son pasados por un filtro
arbitrario.
MakeDensityBasedClusterer: los datos son
envueltos en clases y devuelven su distribución
y densidad.
OPTICS: utiliza el algoritmo OPTICS.
SimpleKMeans: utiliza el algoritmo de k-
medias.
XMeans: utiliza el algoritmo de x-medias.
Esto se puede apreciar en la siguiente
figura:
Figura 12. Opciones del subentorno Cluster.
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
El cuarto subentorno de ejecución el
Associate y ofrece cinco (5) algoritmos para
asociar datos:
Apriori: utiliza el algoritmo Apriori.
FilteredAssociator: utiliza el algoritmo que
asocia los datos arbitrariamente además de
filtrarlos arbitrariamente también.
GeneralizedSequentialPatterns: utiliza el
algoritmo GSP.
PredictiveApriori: utiliza el algoritmo Apriori
para hacer reglas de asociación.
Tertius: utiliza el algoritmo de Tertius.
Figura 13. Opciones del subentorno Associate.
La segunda interfaz de trabajo Experimenter
posee tres (3) subentornos de ejecución.
Setup: permite la carga de los archivos así
como la creación de los mismos.
Run: permite ejecutar el archivo con los
algoritmos indicados en Setup.
Analyse: permite configurar las pruebas
sobre los datos.
Figura 14. Opciones de Experimenter.
La tercera interfaz de trabajo Knowledge
Flow consta de ocho (8) subentornos de
ejecución:
DataSources: permite leer los datos en los
diferentes tipos de archivos: ARFF, C45, CVS,
LIBSVM, XRFF.
DataSkin: permite guardar los datos en los
diferentes tipos de archivos: ARFF, C45, CVS,
LIBSVM, XRFF.
Filters: permite efectuar el pre-
procesamiento de los datos, se dividen
supervisados y no supervisados.
Classifiers: permite efectuar la clasificación
de los datos, se dividen en: bayes, functions,
lazy, meta, mi, misc, trees y rules.
Clusterers: permite aplicar las técnicas de
agrupamiento de datos.
Associations: permite aplicar las técnicas de
asociación de los datos.
Evaluation: permite evaluar o designar el
conjunto de datos para el entrenamiento.
Visualization: permite visualizar ya sea
como texto o grafico el resultado de los
algoritmos.
En la figura 15 se pueden observar los ocho
(8) subentornos de ejecución presentes en la
interfaz de trabajo.
Figura 15. Opciones de Knowledge Flow.
La última interfaz de trabajo SimpleCLI está
compuesta por siete comandos posibles:
java <classname> <args>.
break.
kill.
cls.
history.
exit.
help <command>
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
Figura 16. Opciones de SimpleCLI.
No es más que un breve paseo de las
posibilidades que ofrece el WEKA, este hace
uso de las técnicas de la Minería de Datos,
como valor agregado por estar implementado en
Java, no presenta problemas de portabilidad (el
sistema operativo debe disponer de la máquina
virtual apropiada para su funcionamiento).
Resultados
Las asignaturas de las carreras de la UNA,
muy específicamente Introducción a la
Inteligencia Artificial y Sistemas Expertos (347),
no escapan de la carencia y poca disponibilidad
de medios instruccionales orientados a potenciar
las destrezas adquiridas y en especial los
referidos al KDD del cual la Minería de Datos,
constituye una fase muy importante, y de este
modo responder a las exigencias del entorno
laboral actual.
Es tan trascendental el tema que la llamada
Inteligencia de los Negocios (Business
Intelligence) que es el proceso de analizar los
bienes de todo tipo (especialmente los datos)
acumulados en la empresa y extraer de ellos
conocimiento apoyándose justamente en las
técnicas que suministra la Minería de Datos.
Pentaho BI aprovecha la arquitectura, soporte,
estándares, funcionalidad e innovación del
software libre dispersas en diferentes áreas y
entrelazándolas para obtener una plataforma de
BI cuyos componentes son: Reportes (Pentaho
Reporting Engine), servidor OLAP (Mondrian),
integración de datos (Kettle), Minería de Datos
(WEKA), y suite de BI.
En este sentido, WEKA por ser un sistema
multiplataforma con arquitectura basada en
componentes independientes, con una interfaz
grafica amigable donde intuitivamente el usuario
puede usar cualquiera de los tres (3) interfaz de
trabajo: Explorer, Experimenter y Knowledge
Flow, así como sus respectivos subentornos de
ejecución, por tanto son de fácil uso y
comprensión; esta suite de Minería de Datos
permite la inclusión de contenidos que sin
software, quedarían sólo como una lectura y, en
consecuencia, la adquisición de un conocimiento
más completo y tangible en forma más didáctica,
atractiva y sencilla.
Conclusiones
El KDD está compuesto por cinco (5) fases
en las cuales curiosamente no es necesaria la
misma dedicación. La segunda fase: Selección,
limpieza y transformación abarca el 60% del
tiempo total, esto es debido a su complejidad ya
que garantiza la mayor corrección, exactitud y
calidad de los datos, y elimina los datos
erróneos (Outliers) o faltantes (missing values).
Si los datos no cumplen las condiciones que
garantizan su veracidad los patrones generados
por la tercera fase: Minería de Datos no son
confiables.
El WEKA es una colección de algoritmos
para resolver los problemas planteados por las
organizaciones a la Minería de Datos. Se
presenta bajo licencia GNU GPL (General Public
License) permitiendo que el software sea usado,
copiado y redistribuido libremente, además el
código fuente puede ser estudiado y modificado
sin restricción alguna, este tipo de licencia posee
las siguientes ventajas: a) Reducir costos, b)
Flexibilidad en la adaptación de los
componentes, c) El emprender un proyecto a
bajos costos y permitiendo una alta escalabilidad
y d) El desarrollo y mantenimiento del programa,
así como, los repositorios provienen de
diferentes fuentes. En la página web
http://www.cs.waikato.ac.nz/~ml/weka/index.html
puede descargarse las diferentes versiones:
estable (última versión 3.6.0), libro (última
versión 3.4.14) y para desarrolladores (última
versión 3.7.0) en los siguientes sistemas
operativos: Windows, Mac OS X y Linux, así
como la documentación y los requisitos para la
instalación. También en la página web se
pueden descargar más de una docena de base
de datos de diversos repositorios, por otra parte
al menos cincuenta proyectos activos
(WekaWiki) de diversas áreas de conocimiento.
Lo anterior garantiza el continuo
mejoramiento, actualización y evolución del
I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133
WEKA, por otra parte, la Constitución Nacional
de la República Bolivariana de Venezuela en su
artículo 110 y el decreto 3.390, indica que la
Administración Pública Nacional empleará
prioritariamente las herramientas de código
abierto.
Agradecimientos
Este trabajo ha sido realizado parcialmente
gracias al apoyo de la Universidad Nacional
Abierta.
Referencias bibliográficas
Berthold, M. y Hand, D. (2003). Intelligent Data
Analysis: An Introduction. Berlin: Springer.
Davenport, T. y Prusak, L. (1998). Working
Knowledge: How organizations manage what
they know. Boston: Hardvard Business Scholl
Press.
Fayyad, U., Piatesky-Shapiro, G. y Smyth, P.
(1996). From Data Mining for Knowlegde
Discovery: An Overview. Menlo Park:
American Association for Artificial Intelligence
(AAAI/MIT).
Ferri, C., Hernández, J. y Ramírez, M. (2004).
Introducción a la Minería de Datos. Madrid:
Pearson Prentice Hall.
Nichols, J. (1995). Using Future Trends to Inform
Planning/Marketing. Library Trends, 43(03),
349-366.
Pérez, C. y Santín, D. (2006). Data Mining
Soluciones con Enterprise Miner. México D.F:
Alfaomega Grupo Editor.
White, C. (1999). IBM Enterprise Analytics for
the Intelligent e-Business. Morgan Hill: IBM
Press.
Reseña curricular
J. Sánchez: Profesor de la Universidad
Nacional Abierta, Venezuela. Ingeniero de
Sistemas. Asesor Académico. Principal área de
interés: Inteligencia Artificial.

Mais conteúdo relacionado

Mais procurados

Datos de investigación: reflexiones sobre su acceso abierto
Datos de investigación: reflexiones sobre su acceso abiertoDatos de investigación: reflexiones sobre su acceso abierto
Datos de investigación: reflexiones sobre su acceso abiertoSocialBiblio
 
Text mining para historiadores de arte
Text mining para historiadores de arteText mining para historiadores de arte
Text mining para historiadores de artePepe
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Boletín Interoute nº20
Boletín Interoute nº20Boletín Interoute nº20
Boletín Interoute nº20davizls
 
Gestion documental
Gestion documentalGestion documental
Gestion documentalbbrti
 

Mais procurados (8)

Datos de investigación: reflexiones sobre su acceso abierto
Datos de investigación: reflexiones sobre su acceso abiertoDatos de investigación: reflexiones sobre su acceso abierto
Datos de investigación: reflexiones sobre su acceso abierto
 
Text mining para historiadores de arte
Text mining para historiadores de arteText mining para historiadores de arte
Text mining para historiadores de arte
 
Inteligencia articial
Inteligencia articialInteligencia articial
Inteligencia articial
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Boletín Interoute nº20
Boletín Interoute nº20Boletín Interoute nº20
Boletín Interoute nº20
 
La world wide web
La world wide webLa world wide web
La world wide web
 
Gestion documental
Gestion documentalGestion documental
Gestion documental
 
La información
La informaciónLa información
La información
 

Semelhante a Articulo ICIEI

Minería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y TendenciasMinería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y Tendenciastravon1
 
Taller integral de internet45
Taller integral de internet45Taller integral de internet45
Taller integral de internet45KARO KARINA
 
Exposición Recursos Informáticos Unidad IV
Exposición Recursos Informáticos Unidad IVExposición Recursos Informáticos Unidad IV
Exposición Recursos Informáticos Unidad IVdigigaro
 
Tratamiento y gestión de información
Tratamiento y gestión de informaciónTratamiento y gestión de información
Tratamiento y gestión de informaciónOlman Salazar
 
Gestión de Documentos Electronicos
Gestión de Documentos ElectronicosGestión de Documentos Electronicos
Gestión de Documentos ElectronicosLaura Leiva
 
Informatica. GUIA IV. UAPA
Informatica. GUIA IV. UAPAInformatica. GUIA IV. UAPA
Informatica. GUIA IV. UAPAAraly Lazala
 
Open Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezOpen Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezLEARN Project
 
Intoduccion de sistemas, planificación de proyecto de software
Intoduccion de sistemas, planificación de proyecto de softwareIntoduccion de sistemas, planificación de proyecto de software
Intoduccion de sistemas, planificación de proyecto de softwareAlexandroDiluciano
 
Unidad 3 y 4 INTERNET Y TIC
Unidad 3 y 4 INTERNET Y TICUnidad 3 y 4 INTERNET Y TIC
Unidad 3 y 4 INTERNET Y TICSofia Calop
 
Actividad de aprendizaje 1.1
Actividad de aprendizaje 1.1Actividad de aprendizaje 1.1
Actividad de aprendizaje 1.1Alejandra Salcedo
 
Norma especializacion 2014
Norma especializacion 2014Norma especializacion 2014
Norma especializacion 2014normatorlaschi
 
Norma especializacion 2014
Norma especializacion 2014Norma especializacion 2014
Norma especializacion 2014Rebeca Garcia
 
Lila especializacion 2014
Lila especializacion 2014Lila especializacion 2014
Lila especializacion 2014Rebeca Garcia
 

Semelhante a Articulo ICIEI (20)

Minería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y TendenciasMinería de Datos: Conceptos y Tendencias
Minería de Datos: Conceptos y Tendencias
 
Taller integral de internet45
Taller integral de internet45Taller integral de internet45
Taller integral de internet45
 
Diapositivasss
DiapositivasssDiapositivasss
Diapositivasss
 
Exposición Recursos Informáticos Unidad IV
Exposición Recursos Informáticos Unidad IVExposición Recursos Informáticos Unidad IV
Exposición Recursos Informáticos Unidad IV
 
Tratamiento y gestión de información
Tratamiento y gestión de informaciónTratamiento y gestión de información
Tratamiento y gestión de información
 
Diapositivasss
DiapositivasssDiapositivasss
Diapositivasss
 
Gestión de Documentos Electronicos
Gestión de Documentos ElectronicosGestión de Documentos Electronicos
Gestión de Documentos Electronicos
 
Informatica. GUIA IV. UAPA
Informatica. GUIA IV. UAPAInformatica. GUIA IV. UAPA
Informatica. GUIA IV. UAPA
 
Open Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio GutiérrezOpen Data in the world of Science” by Dr. Claudio Gutiérrez
Open Data in the world of Science” by Dr. Claudio Gutiérrez
 
Intoduccion de sistemas, planificación de proyecto de software
Intoduccion de sistemas, planificación de proyecto de softwareIntoduccion de sistemas, planificación de proyecto de software
Intoduccion de sistemas, planificación de proyecto de software
 
Unidad 3 y 4 INTERNET Y TIC
Unidad 3 y 4 INTERNET Y TICUnidad 3 y 4 INTERNET Y TIC
Unidad 3 y 4 INTERNET Y TIC
 
Actividad de aprendizaje 1.1
Actividad de aprendizaje 1.1Actividad de aprendizaje 1.1
Actividad de aprendizaje 1.1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Norma especializacion 2014
Norma especializacion 2014Norma especializacion 2014
Norma especializacion 2014
 
Norma especializacion 2014
Norma especializacion 2014Norma especializacion 2014
Norma especializacion 2014
 
Lila especializacion 2014
Lila especializacion 2014Lila especializacion 2014
Lila especializacion 2014
 
Presentacion final tics
Presentacion final ticsPresentacion final tics
Presentacion final tics
 
Presentacion final tics
Presentacion final ticsPresentacion final tics
Presentacion final tics
 
Presentacion final tics
Presentacion final ticsPresentacion final tics
Presentacion final tics
 
Primero e
Primero ePrimero e
Primero e
 

Mais de Jean Sanchez

Mais de Jean Sanchez (20)

Jean realidadaumentada
Jean realidadaumentadaJean realidadaumentada
Jean realidadaumentada
 
Weka
WekaWeka
Weka
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
Koala
KoalaKoala
Koala
 
Yog leaflet spanish
Yog leaflet spanishYog leaflet spanish
Yog leaflet spanish
 
Panda
PandaPanda
Panda
 
Gorila
GorilaGorila
Gorila
 
Amazonalive web2
Amazonalive web2Amazonalive web2
Amazonalive web2
 
Grupo sslj-805
Grupo sslj-805Grupo sslj-805
Grupo sslj-805
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Weka completo
Weka completoWeka completo
Weka completo
 
Memorias IIICVEI
Memorias IIICVEIMemorias IIICVEI
Memorias IIICVEI
 
Jornadas una
Jornadas unaJornadas una
Jornadas una
 
Jean sancheziiicvei extenso
Jean sancheziiicvei extensoJean sancheziiicvei extenso
Jean sancheziiicvei extenso
 
IIICVEI
IIICVEIIIICVEI
IIICVEI
 
Programa final cvei
Programa final cveiPrograma final cvei
Programa final cvei
 
Program final cveiii
Program final cveiiiProgram final cveiii
Program final cveiii
 
Ingenieria pedagogica
Ingenieria pedagogicaIngenieria pedagogica
Ingenieria pedagogica
 

Articulo ICIEI

  • 1. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería de Datos Sánchez, J. 1 Ingeniería de Sistemas, Área de Ingeniería. Universidad Nacional Abierta. Araure-Venezuela. jculacio@gmail.com. Resumen El WebApps permite a la Ingeniería Web el uso de diferentes medios (audio, video, multimedia entre otros), con el cual los usuarios tienen la posibilidad de acelerar su aprendizaje. Además, disminuye los costos de reproducción, publicación y distribución del material impreso, otra ventaja es que el acceso al contenido de este material, se hace en forma oportuna y confiable. La Minería de Datos (DM) es la tercera fase del KDD (Knowledge Discovery in Databases), que es una rama de la Inteligencia Artificial; la DM es tan amplia y novedosa que la Universidad Nacional Abierta (UNA) debería incluirla en la asignatura “Introducción a la Inteligencia Artificial y Sistemas Expertos”, o ser una nueva asignatura de la carrera. WEKA, es uno de los programas que permite comprender y acercarse a la DM, fue desarrollado en la Universidad de Waikato, Nueva Zelanda, bajo licencia GNU e implementado en Java. Palabras clave: WebApps, KDD, Minería de Datos, WEKA. WEKA: program that allows to a greater understanding and approach to the Mining of Data Summary WebApps allows Engineering Web to use a lot of different means (audio, video, multimedia, among others), with which users have the possibility of accelerating their learning. In addition, it diminishes the costs of reproduction, publication and distribution of the printed material, another adventage is the access to content of this material is very opportune and reliable. Data Mining (DM) is the third phase of the KDD (Knowledge Discovery in Databases), that is a branch of the Artificial Intelligence; the DM is so ample and novel that the Universidad Nacional Abierta (UNA) would have to include it in the subjet “Introduction to the Artificial Intelligence and Expert Systems”, or to be a new subjet of this degree course. WEKA, is a software that allow to understand and to approach to DM, it was developed in the University of Waikato, New Zealand, under license GNU and implemented in Java. Index terms: WebApps, KDD, Data Mining, WEKA. Introducción La reflexión planteada por Nichols (1995) permite comprender la sobrecarga de información a la que somos sometido actualmente: “Una edición semanal del New York Times contiene más información de lo que la persona promedio podría encontrar en toda su vida en la Inglaterra del siglo XVII. Se ha producido más información en los últimos 30 años que en los previos 5000 años. Cerca de 1000 libros se publican internacionalmente cada día, y el total del conocimiento impreso se dobla cada ocho años”. Gracias a los avances tecnológicos y en especial a la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo de software y hardware, grandes cantidades de datos son recogidas y almacenadas en base de datos. Por tanto, el análisis de estos datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas.
  • 2. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 Por otra parte, con el advenimiento del Internet, la información presenta una ubicuidad sin precedente y crece de una manera acelerada, para verificar esto sólo basta usar un buscador como google e introducir la palabra información, cuyo resultado son 368000000 sitios posibles, si se pudiera examinar cada uno de los sitios anteriores en sólo un minuto el resultado serían 6133333 horas, en otras palabras tomaría 255555 días, el tiempo potencial total necesario: más de 700 años. Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que efectúen procesos de búsquedas y aún más, de tecnologías que ayuden a comprender su contenido. Debido al ya mencionado agigantado avance en el hardware y la mayor comprensión del software ha derivado la redefinición y actualización de conceptos fundamentales, entre ellos el de información, además, de su clasificación llamada “espectro de información”, el cual está formado por: datos, información, conocimiento y sabiduría. Figura 1. Espectro de Información. Un dato es un conjunto discreto de factores objetivos de un hecho real. El concepto de dato es definido por como un registro de transacciones. Un dato no dice nada sobre el porqué de las cosas, y por si mismo tiene poca o ninguna relevancia o propósito. A pesar de todo, los datos son importantes para las organizaciones, ya que son la base para la creación de la información. Los investigadores que han estudiado el concepto de información, lo describen como un mensaje. Como cualquier mensaje tiene un emisor y un receptor. La información es capaz de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y comportamiento. La palabra informar originalmente significa “dar forma a”, y es estrictamente el receptor quien decide si el mensaje que ha recibido es realmente información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que la escribe, pero a su vez puede ser juzgado como ruido por el que la recibe. A diferencia de los datos, la información tiene significado (relevancia y propósito). Los datos se convierten en información cuando su creador les añade significado. Para Davenport y Prusak (1998) el conocimiento es una mezcla de experiencias, valores, información y saber hacer con la incorporación de nuevas experiencias e información y útil para la acción. El conocimiento es originado y aplicado en la mente de los expertos; lo que queda inmediatamente claro es que el conocimiento no es simple, es una mezcla de varios elementos. Es un flujo que tiene una estructura formalizada, es intuitivo y difícil de captar en palabras o de entender plenamente en forma lógica. El conocimiento existe dentro de las personas, como parte de la complejidad humana y de nuestra impredecibilidad. La sabiduría que no es más que el procesamiento de conocimiento el cual a su vez produce nuevo conocimiento, no puede ser tratada o usada actualmente ya que no se poseen los recursos o herramientas computacionales para ello. En la actualidad, la mayoría de los programas, aplicaciones, sistemas de información, es decir, el software existente se ha construido para procesar datos o información. Sólo la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento. Pero son las organizaciones quienes hacen un uso intensivo del software para el control y mantenimiento de las mismas, además, son estas quienes invierten en el desarrollo e investigación de los sistemas. No es de extrañar que las organizaciones den diferentes niveles de uso a sus datos. Entre estos: a) Nivel operacional: se utilizan sistemas de información que monitorean las actividades y transacciones elementales. b) Nivel de administración: realiza las operaciones de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. c) Nivel de conocimiento: realiza las actividades de análisis, seguimiento, control y toma de decisiones, realiza la consulta sobre información
  • 3. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 almacenada. d) Nivel estratégico: realiza las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro. Ante todo lo anterior, los datos existen y además se les dan diferentes niveles de uso, pero estos son almacenados en las base de datos, estas últimas son una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse de manera eficiente. Sobre el uso dado a los datos en el tiempo nace el OLTP (On-Line Transaction Processing, Procesamiento de Transacciones en Línea), dedicadas a la captura y almacenamiento de transacciones; y el OLAP (On-Line Analytical Processing, Procesamiento Analítico en Línea) permiten el análisis y navegación de los datos. Conocido el nivel de uso en el tiempo de los datos, es entendible porque a las bases de datos se les puede extraer conocimiento de diversas formas como: a) Conocimiento evidente: fácilmente recuperable con SQL. b) Conocimiento multidimensional: considera los datos con cierta estructura y relevancia, se usa el OLAP. c) Conocimiento oculto: información evidente oculta a priori y potencialmente útil sólo se descubre con DM. d) Conocimiento profundo: información almacenada en la base de datos, pero que resulta imposible recuperar a menos que se disponga de alguna clave que oriente la búsqueda. Figura 2. Conocimiento en la Base de Datos. Son Fayyad, Piatesky y Smyth (1996) quienes definen el KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimiento en Base de Datos) como el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensible a partir de los datos. El KDD es un conjunto de pasos interactivos e iterativos. Es interactivo porque el usuario es quien decide, supervisa y controla cada una de las fases del proceso, además, es iterativo debido a que se puede acceder desde y hacia cualquier fase en todo momento. El KDD es un proceso complejo que incluye las siguientes fases: a) Integración y recopilación, b) Selección, limpieza y transformación, c) Minería de Datos, d) Evaluación e interpretación y e) Difusión y uso. Observar las fases clarifica la conexión entre el KDD y la Minería de Datos; el KDD es el proceso global de descubrir conocimiento útil desde las bases de datos mientras la Minería de Datos se refiere a la obtención de patrones o modelos. Figura 3. Fases del KDD. Figura 4. Esfuerzo requerido en Fases del KDD.
  • 4. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 Siguiendo el mismo orden de las fases del KDD, se requerirá de esfuerzo: 15%, 60%, 20% y 5% (que agrupa la fase 4 y 5) respectivamente de dedicación para su culminación, esto se aprecia en la Figura 4. La Minería de Datos es un área de cuyo objetivo es predecir resultados y/o descubrir relaciones en los datos. La Minería de Datos puede ser descriptiva (descubrir patrones que describen los datos), o predictivos (para pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto, permite entre muchas otras cosas: a) Explorar grandes cantidades de datos (generalmente relacionado al mercadeo o a los negocios), b) Búsqueda de modelos consistentes y/o relaciones sistemáticas entre las variables y c) Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de datos. Las partes en las que se divide la Minería de Datos son: a) Fuente de datos, b) Pre- procesamiento, c) Exploración y Transformación, d) Reconocimiento de Patrones y e) Evaluación e Integración. Figura 5. Partes de la Minería de Datos. Las técnicas en las que se fundamenta la Minería de Datos son: a) Predicción: permite la obtención de tendencias y comportamientos en bases de datos (donde se utiliza: Regresión y Clasificación) y b) Descubrimiento de conocimiento: permite filtrar los datos contenidos en la bases de datos y con esto la identificación de patrones previamente desconocidos (básicamente comprende: Detección de desviaciones, Clustering, Reglas de asociación y Visualización). Esto se observa en la figura 6. Figura 6. Técnicas de la Minería de Datos. La integración de las técnicas de Minería de Datos en las actividades diarias se ha convertido en algo habitual, para ello sólo bastara con leer los siguientes ámbitos de aplicación que indican Ferri, C., Hernández, J. y Ramírez, M. (2004): a) En la banca y finanzas, b) Análisis de mercado, distribución y cualquier otro elemento constituyente del comercio, c) Salud pública y privada así como los diferentes tipos de seguros, d) Educación, e) Procesos de manufactura, servicios e industriales, f) Medicina, g) Biología y bioingeniería, h) Telecomunicaciones, i) Correo electrónico y agendas personales, j) Recursos humanos, k) Web, l) Turismo, m) Trafico, n) Hacienda, ñ) Policiales y de seguridad ciudadana, o) Deportes, p) Políticas, entre muchísimo otros. Se nota la gran diversidad de aplicaciones de uso para la Minería de Datos, de allí que en la actualidad existan diferentes suites y herramientas especificas tanto bajo licencia de software privativo (SPSS Clementine, Kepler, Oracle Data Mining Suite, DBMiner, DB2 Intelligent Miner, SAS Enterprise Miner, STATISTICA Data Miner, sólo por nombrar algunas) como de software libre (WEKA, YALE, TariyKDD, JavaNNS); que permiten el preprocesado de los datos, varios modelo de análisis, facilidad para el diseño de las soluciones y de experimentos debido al soporte grafico amigable con que se presentan los resultados. WEKA (Waikato Environment for Knowledge Analysis) fue desarrollada y es mantenida por un grupo de investigadores de la Universidad de Waikato (Nueva Zelanda). Las cuatro (4) opciones de interfaz de trabajo con el programa son: Explorer: es la opción que permite ejecutar los algoritmos de análisis y comparar resultados sobre un único conjunto de datos.
  • 5. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 Experimenter: es la opción que permite definir experimentos complejos y almacenar resultados. Knowledge Flow: es la opción que permite llevar a cabo las mismas operaciones que Experimenter pero representado como un grafo dirigido. Simple Cli: es “Command-Line Interfaz” es una ventana de comandos java para ejecutar las clases WEKA. Al ahondar sobre la interfaz de trabajo Explorer se encuentran los siguientes seis (6) subentornos de ejecución: Preprocess: permite el uso de las herramientas y filtros para cargar y manipular los datos. Classify: permite el acceso a las técnicas de clasificación y regresión. Cluster: permite integrar varios métodos de agrupamiento. Associate: permite incluir las reglas de asociación. Select Attributes: permite aplicar las técnicas de reducción de atributos. Visualize: permite visualizar el comportamiento de los datos. Además, los datos se pueden importar en varios formatos: ARFF, CVS, C.45, binarios, o pueden provenir desde un URL o de una base de datos (usando JDBC). Al importar el ejemplo iris.arff en la interfaz de trabajo Explorer el subentorno de ejecución Preprocess en la opción Open File el programa nos mostrara la siguiente ventana: Figura 7. Preprocess de iris.arff. El WEKA permite hacer diferente tratamiento con los datos: a) Supervisados, que consideran la información de la clase y b) No supervisados: no consideran la información de la clase. Al seleccionar el atributo class resulta: Figura 8. Selección atributo class de iris.arff. Si sobre la opción Filter se pulsa sobre el boton choose y luego en el menú unsupervised y en el submenú attribute la opción Discretize y luego sobre el botón Filter resultara la siguiente ventana: Figura 9. Menú unsupervised de iris.arff. Discretize, permite transformar los atributos continuos a atributos nominales, es decir, la conversión de un tipo numérico a uno nominal que representa rangos. Ejemplo: Calificaciones entre el rango 0 a 10 que adquieren el significado de reprobado, muy deficiente, deficiente, regular, excelente. Al pulsar sobre el botón Apply se mostrara:
  • 6. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 Figura 10. Resultado de aplicar Discretize. Al revisar el segundo subentorno de ejecución el Clasify, presenta cuatro (4) opciones en el Test Options: Use trainig set: la muestra es usada para entrenar y probar al mismo tiempo. Los resultados obtenidos no corresponden con la realidad. Supplied test set: los atributos de los datos son escritos en un nuevo archivo de formato ARFF sobre el cual se efectuará la clasificación. Cross-validation: permite dividir la muestra en k partes, sobre estas se procede a entrenar el clasificador con las k-1 partes y evaluar con la parte k actual. Percentage split: indica el porcentaje de la muestra que empleara para probar el clasificador. Además, el WEKA ofrece ocho opciones para clasificar: Bayes: métodos basados en el aprendizaje de Bayes. Functions: métodos matemáticos. Lazy: métodos basados en el aprendizaje del perezoso. Meta: métodos que resultan de la combinación de diferentes métodos de aprendizaje. Mi: métodos que aprenden mediante la variación de la densidad de los algoritmos. Misc: métodos que aprenden como si leyeran los datos. Trees: métodos que aprenden mediante arboles de decisión. Rules: métodos que aprenden y esto se puede expresar como reglas. Se pueden observar las ocho (8) opciones en la figura 11. Figura 11. Opciones del subentorno Classify. El tercer subentorno de ejecución el Cluster presenta nueve (9) algoritmos para agrupar datos. CobWeb: utiliza el algoritmo CobWeb. DBScan: utiliza el algoritmo DBScan. EM: utiliza el algoritmo EM. FarthestFirst: utiliza el algoritmo FarthestFirst. FilteredCluster: agrupa los datos arbitrariamente y luego son pasados por un filtro arbitrario. MakeDensityBasedClusterer: los datos son envueltos en clases y devuelven su distribución y densidad. OPTICS: utiliza el algoritmo OPTICS. SimpleKMeans: utiliza el algoritmo de k- medias. XMeans: utiliza el algoritmo de x-medias. Esto se puede apreciar en la siguiente figura: Figura 12. Opciones del subentorno Cluster.
  • 7. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 El cuarto subentorno de ejecución el Associate y ofrece cinco (5) algoritmos para asociar datos: Apriori: utiliza el algoritmo Apriori. FilteredAssociator: utiliza el algoritmo que asocia los datos arbitrariamente además de filtrarlos arbitrariamente también. GeneralizedSequentialPatterns: utiliza el algoritmo GSP. PredictiveApriori: utiliza el algoritmo Apriori para hacer reglas de asociación. Tertius: utiliza el algoritmo de Tertius. Figura 13. Opciones del subentorno Associate. La segunda interfaz de trabajo Experimenter posee tres (3) subentornos de ejecución. Setup: permite la carga de los archivos así como la creación de los mismos. Run: permite ejecutar el archivo con los algoritmos indicados en Setup. Analyse: permite configurar las pruebas sobre los datos. Figura 14. Opciones de Experimenter. La tercera interfaz de trabajo Knowledge Flow consta de ocho (8) subentornos de ejecución: DataSources: permite leer los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF. DataSkin: permite guardar los datos en los diferentes tipos de archivos: ARFF, C45, CVS, LIBSVM, XRFF. Filters: permite efectuar el pre- procesamiento de los datos, se dividen supervisados y no supervisados. Classifiers: permite efectuar la clasificación de los datos, se dividen en: bayes, functions, lazy, meta, mi, misc, trees y rules. Clusterers: permite aplicar las técnicas de agrupamiento de datos. Associations: permite aplicar las técnicas de asociación de los datos. Evaluation: permite evaluar o designar el conjunto de datos para el entrenamiento. Visualization: permite visualizar ya sea como texto o grafico el resultado de los algoritmos. En la figura 15 se pueden observar los ocho (8) subentornos de ejecución presentes en la interfaz de trabajo. Figura 15. Opciones de Knowledge Flow. La última interfaz de trabajo SimpleCLI está compuesta por siete comandos posibles: java <classname> <args>. break. kill. cls. history. exit. help <command>
  • 8. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 Figura 16. Opciones de SimpleCLI. No es más que un breve paseo de las posibilidades que ofrece el WEKA, este hace uso de las técnicas de la Minería de Datos, como valor agregado por estar implementado en Java, no presenta problemas de portabilidad (el sistema operativo debe disponer de la máquina virtual apropiada para su funcionamiento). Resultados Las asignaturas de las carreras de la UNA, muy específicamente Introducción a la Inteligencia Artificial y Sistemas Expertos (347), no escapan de la carencia y poca disponibilidad de medios instruccionales orientados a potenciar las destrezas adquiridas y en especial los referidos al KDD del cual la Minería de Datos, constituye una fase muy importante, y de este modo responder a las exigencias del entorno laboral actual. Es tan trascendental el tema que la llamada Inteligencia de los Negocios (Business Intelligence) que es el proceso de analizar los bienes de todo tipo (especialmente los datos) acumulados en la empresa y extraer de ellos conocimiento apoyándose justamente en las técnicas que suministra la Minería de Datos. Pentaho BI aprovecha la arquitectura, soporte, estándares, funcionalidad e innovación del software libre dispersas en diferentes áreas y entrelazándolas para obtener una plataforma de BI cuyos componentes son: Reportes (Pentaho Reporting Engine), servidor OLAP (Mondrian), integración de datos (Kettle), Minería de Datos (WEKA), y suite de BI. En este sentido, WEKA por ser un sistema multiplataforma con arquitectura basada en componentes independientes, con una interfaz grafica amigable donde intuitivamente el usuario puede usar cualquiera de los tres (3) interfaz de trabajo: Explorer, Experimenter y Knowledge Flow, así como sus respectivos subentornos de ejecución, por tanto son de fácil uso y comprensión; esta suite de Minería de Datos permite la inclusión de contenidos que sin software, quedarían sólo como una lectura y, en consecuencia, la adquisición de un conocimiento más completo y tangible en forma más didáctica, atractiva y sencilla. Conclusiones El KDD está compuesto por cinco (5) fases en las cuales curiosamente no es necesaria la misma dedicación. La segunda fase: Selección, limpieza y transformación abarca el 60% del tiempo total, esto es debido a su complejidad ya que garantiza la mayor corrección, exactitud y calidad de los datos, y elimina los datos erróneos (Outliers) o faltantes (missing values). Si los datos no cumplen las condiciones que garantizan su veracidad los patrones generados por la tercera fase: Minería de Datos no son confiables. El WEKA es una colección de algoritmos para resolver los problemas planteados por las organizaciones a la Minería de Datos. Se presenta bajo licencia GNU GPL (General Public License) permitiendo que el software sea usado, copiado y redistribuido libremente, además el código fuente puede ser estudiado y modificado sin restricción alguna, este tipo de licencia posee las siguientes ventajas: a) Reducir costos, b) Flexibilidad en la adaptación de los componentes, c) El emprender un proyecto a bajos costos y permitiendo una alta escalabilidad y d) El desarrollo y mantenimiento del programa, así como, los repositorios provienen de diferentes fuentes. En la página web http://www.cs.waikato.ac.nz/~ml/weka/index.html puede descargarse las diferentes versiones: estable (última versión 3.6.0), libro (última versión 3.4.14) y para desarrolladores (última versión 3.7.0) en los siguientes sistemas operativos: Windows, Mac OS X y Linux, así como la documentación y los requisitos para la instalación. También en la página web se pueden descargar más de una docena de base de datos de diversos repositorios, por otra parte al menos cincuenta proyectos activos (WekaWiki) de diversas áreas de conocimiento. Lo anterior garantiza el continuo mejoramiento, actualización y evolución del
  • 9. I Congreso Iberoamericano de Enseñanza de la Ingeniería CIEI-133 WEKA, por otra parte, la Constitución Nacional de la República Bolivariana de Venezuela en su artículo 110 y el decreto 3.390, indica que la Administración Pública Nacional empleará prioritariamente las herramientas de código abierto. Agradecimientos Este trabajo ha sido realizado parcialmente gracias al apoyo de la Universidad Nacional Abierta. Referencias bibliográficas Berthold, M. y Hand, D. (2003). Intelligent Data Analysis: An Introduction. Berlin: Springer. Davenport, T. y Prusak, L. (1998). Working Knowledge: How organizations manage what they know. Boston: Hardvard Business Scholl Press. Fayyad, U., Piatesky-Shapiro, G. y Smyth, P. (1996). From Data Mining for Knowlegde Discovery: An Overview. Menlo Park: American Association for Artificial Intelligence (AAAI/MIT). Ferri, C., Hernández, J. y Ramírez, M. (2004). Introducción a la Minería de Datos. Madrid: Pearson Prentice Hall. Nichols, J. (1995). Using Future Trends to Inform Planning/Marketing. Library Trends, 43(03), 349-366. Pérez, C. y Santín, D. (2006). Data Mining Soluciones con Enterprise Miner. México D.F: Alfaomega Grupo Editor. White, C. (1999). IBM Enterprise Analytics for the Intelligent e-Business. Morgan Hill: IBM Press. Reseña curricular J. Sánchez: Profesor de la Universidad Nacional Abierta, Venezuela. Ingeniero de Sistemas. Asesor Académico. Principal área de interés: Inteligencia Artificial.