SlideShare una empresa de Scribd logo
1 de 8
Descargar para leer sin conexión
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

                            Roberth Paúl Bravo Castro
                            María Esther Ruilova Rojas

       ÁRBOLES DE CLASIFICACIÓN (INTELIGENCIA ARTIFICIAL
                          AVANZADA)


                                 INTRODUCCIÓN

Los árboles de clasificación son uno de los más utilizados en el tema de aprendizaje
automático. Su rapidez a la hora de la clasificación, su fácil implementación, etc. son
factores que influyen en su propagación.

Entran dentro de los métodos de clasificación supervisada, formados por una variable
dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El
modelo así obtenido puede servir para clasificar casos cuyas clases se desconozcan o,
simplemente, para comprender mejor la información de la que disponemos.

Se abarca un poco el tema de los algoritmos más conocidos que se aplican en el tema
como son el algoritmo CART que basa su criterio por defecto en el Gini index para la
clasificación, el IDE3 que realiza divisiones sobre los posibles valores de la clase
predoctora y usa un criterio de ganancia en información como función de división, otro
algoritmo es el C4.5 que es el sucesos del IDE3, el J4.8 que es una implementación del
C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificación
según han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los
mismos.

                                               características en regiones mutuamente
DESARROLLO DE CONTENIDOS                       excluyentes, de tal forma que cada
                                               región esté asociada a una clase y, dado
Patrón: Es una unidad de información,          un patrón particular, decidir a que clase
integrada de tal forma que capture la          de las disponibles pertenece.
esencia descriptiva de un objeto,
teniendo como meta principal la                Aprendizaje        supervisado:     Estas
representación de cualquier entidad del        técnicas disponen para su ejecución, de
mundo real a la que se le pueda dar un         un conjunto de patrones, integrado en lo
nombre y sea descriptible.                     que se conoce como muestra de
Puede ser representativo de caracteres         entrenamiento o conjunto de datos de
escritos, símbolos, imágenes, firmas,          entrenamiento (CE). Este conjunto de
huellas dactilares, espectrogramas, etc.       datos es recolectado por un experto
                                               humano en el campo de estudio y
Patrón ruidoso: Es aquel patrón que            agrupa en clases o categorías, de
puede confundir al clasificador debido a       acuerdo a las propiedades que cada uno
que guarda cierto parecido con objetos         posee, los casos resueltos previamente.
de otras clases.                               El clasificador es entrenado con este CE
                                               y realiza la identificación de la clase
Clasificación: Se puede interpretar            correspondiente para nuevos patrones,
como la partición del espacio de               empleando       el    conocimiento     ya


                                                                                      1
adquirido y tratando de realizar esa        verdadero valor de otra Y (clase a la que
identificación con el menor error           pertenece el ejemplo).
posible.

Clasificador: función d(x) definida en
es espacio de clasificación X, que
relaciona a cada patrón o ejemplo x del
espacio de clasificación con una sola       ÁRBOLES DE CLASIFICACIÓN
clase del conjunto de posibles valores a
los que puede pertenecer Cm (m=1, … ,       Todo árbol de clasificación comienza
M).                                         con un nodo al que pertenecen todos los
                                            casos de la muestra que se quiere
Clase o categoría: Grupo de patrones        clasificar (nodo raíz), el resto de nodos
que guardan un alto grado de similitud      se dividen en nodos intermedios y
entre sí y un alto grado de disimilitud     nodos terminales.
entre los patrones de otros grupos.
Generalmente las clases representan la      A la hora de clasificar cada patrón, el
(s) solución (es) en que se divide el       punto de partida es el nodo raíz y,
problema.                                   dependiendo de los valores de la clase
                                            predoctora por la que se pregunta, los
Conjunto de entrenamiento: Conjunto         casos se van distribuyendo por los
de objetos previamente etiquetados y        nodos hijo. El proceso se repite en cada
separados en clases utilizados durante el   nodo hasta llegar a los nodos hoja.
proceso de aprendizaje supervisado.
                                            Al número de nodos hoja que tiene un
Sobreajuste: El modelo está demasiado       árbol se le suele denominar complejidad
ajustado    a    las   instancias    de     de árbol.
entrenamiento,     y    no     funciona
adecuadamente      con    las    nuevas
instancias. Producido por fronteras de
decisión muy complejas.

Entropía: Medida del grado de
incertidumbre      asociado   a una
distribución de probabilidad.



pk: probabilidad de que un ejemplo esté
en la clase k:



con nk = número de ejemplos en la
clase k.

Ganancia de Información: Medida de
cuanto ayuda el conocer el valor de una     Se puede decir que los árboles de
variable aleatoria X (atributo de un        clasificación, además de clasificar, son
ejemplo dado) para conocer el               capaces de extraer una estructura que



                                                                                   2
representa, en cierta medida, el            entrenamiento,     generalmente    son
concepto o el patrón de comportamiento      eliminados     debido     a   que   las
que hay asociado a la muestra sobre la      coincidencias suelen no estar presentes
que se ha inducido.                         en el conjunto de validación.

Para su construcción se definen tres        Existen varias razones para la poda de
procedimientos:                             los árboles: la sobre-generalización, la
                                            evaluación      de     variables    poco
   •   ¿cómo se realiza la selección de     importantes o significativas y el gran
       divisiones?                          tamaño del árbol obtenido. En el primer
   •   ¿cómo se toma la decisión de de      caso, un árbol puede haber sido
       declarar    un    nodo     como      construido a partir de ejemplos con
       intermedio o como hoja?              ruido, con lo cual algunas ramas del
   •   ¿cómo se asigna la pertenencia       árbol pueden ser engañosas; en cuanto a
       de cada nodo hoja a las posibles     la evaluación de variables no relevantes,
       clases?                              éstas deben podarse ya que sólo agregan
                                            niveles en el árbol y no contribuyen a la
A los árboles de clasificación se les       ganancia de información. Por último, si
aplica un procedimiento que los hace        el árbol obtenido es demasiado
parsimoniosos que se denomina poda.         profundo o demasiado frondoso se
                                            dificulta la interpretación por parte del
La poda consiste en eliminar todo el        usuario, con lo cual hubiera sido lo
subárbol que tiene como raíz el nodo en     mismo utilizar un método de caja negra.
cuestión, convirtiéndolo así en una hoja,
cuya clase corresponde a valor mas          Existen dos enfoques para podar los
común de los ejemplares asociados a         árboles: la pre-poda (preprunning) y la
ese nodo.                                   post-poda (postprunning). En el primer
                                            caso se detiene el crecimiento del árbol
Un nodo solo es eliminado si el árbol       cuando la ganancia de información
podado que resulta de ello, no presenta     producida al dividir un conjunto no
un desempeño peor que el árbol original     supera un umbral determinado; en la
sobre el conjunto de validación. El         postpoda se podan algunas ramas una
efecto de esto, es que los nodos que se     vez que se ha terminado de construir el
han colocado en el árbol por                árbol.
coincidencias fortuitas en los datos del

Algoritmo Básico




                                                                                   3
La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se
correspondan con una determinada rama del árbol de clasificación no pertenezcan a una
misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea
la más informativa o la más idónea con respecto de un criterio previamente establecido.
La elección de esta variable sirve para expandir el árbol en tantas ramas como posibles
valores toma dicha variable.

Finalmente, se expresa el árbol de clasificación por medio de un conjunto de reglas.


ÁLGORITMOS

Algoritmo ID3

Introducido por Quinlan (1986). El algoritmo ID3 genera árboles de decisión a partir de
a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El
tan sólo utilizaba atributos binarios y tenía heurísticas para decidir qué atributo escoger.
La terminología usada en este contexto para denominar a la cantidad de información
mutua es la de ganancia en información.

El algoritmo de ID3 es el siguiente:




                                                                                          4
1. Seleccionar el atributo Ai que maximice la ganancia, e.d, el que tenga menor
      entropia.
   2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga.
   3. Introducir los ejemplos en los sucesores según el valor que tenga el atributo Ai.
   4. Por cada sucesor:

       SI sólo hay ejemplos de una clase ck.
       Entonces etiquetarlo con ck.
       SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo,
       eliminando la columna del atributo Ai.

ID3 intenta encontrar el árbol más sencillo que separa mejor los ejemplos. Para ello
utiliza la entropía para elegir o tomar decisiones.

Algoritmo C4.5

Es una mejora del IDE3. Se basa en la utilización del criterio ratio de ganancia. De esta
manera se consigue evitar que las variables con mayor número de posibles valores
salgan beneficiadas en la selección. Además el algoritmo C4.5 incorpora una poda del
árbol de clasificación una vez que éste ha sido inducido. La poda está basada en la
aplicación de un test de hipótesis que trata de responder a la pregunta de si merece la
pena expandir o no una determinada rama.




                                                                                       5
Algoritmo CART

Utiliza el criterio basado en Gini index para el caso de la clasificación. Cuando se
pretende construir un árbol de regresión, los criterios se basan en la mínima suma de las
desviaciones cuadráticas. Para realizar la post-poda realiza una estimación del error,
bien mediante un conjunto de datos diferente del que se ha utilizado para construir el
árbol, o bien aplicando una metodología de validación cruzada.

Algoritmo J4.8

Implementación del C4.5. Permite establecer ciertos parámetros, como obligar a realizar
divisiones binarias sobre variables discretas, o cambiar el método de post-poda que
utiliza el C4.5 por un método basado en la reducción de error.

Algoritmo CHAID

No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la
misma fase de construcción del árbol cuando se decide parar.
Sólo es capaz de tratar con variables predoctoras discretas.

                                                AVANCES EN LA TOMA DE
ÁREAS DE APLICACIÓN DE LOS                      DECISIONES EN PROYECTOS DE
ÁRBOLES DE CLASIFICACIÓN                        DESARROLLO DE SOFTWARE.

Estos son los temas de algunas tesis            Autor: Javier Aroba Páez
previas la obtención del Título de Ing.         Universidad de Sevilla.
en Sistemas.                                    Uso de técnicas de aprendizaje
                                                supervisado (algoritmo C4.5) para la
                                                obtención de reglas de gestión para la


                                                                                       6
estimación de costes en el desarrollo de     Tomando un conjunto de bases de datos
software.                                    las cuales las cuales ayudaron a
                                             determinar las posibles causas de
El conocimiento de estas reglas de           algunas enfermedades.
gestión sirve de ayuda en la toma de
decisiones          para           estimar   DESARROLLO    DE   SISTEMAS
automáticamente       los       resultados   INTELIGENTES           PARA
deseados por el responsable del              CLASIFICACIÓN Y DIAGNÓSTICO
proyecto (coste, tiempo de entrega,          EN MEDICINA.
calidad, productividad, etc.). Además, la
obtención de reglas de gestión permite       Autor: Suhail Musa Issa Odeh.
al director del proyecto analizar cuáles     Universidad de Granada
son las políticas de gestión más
significativas para conseguir los            Este trabajo se centra en el desarrollo de
objetivos del Proyecto Software.             esquemas de diagnóstico automático y
                                             flexible. Para ello se exploran distintas
Además el uso de aprendizaje no              alternativas    capaces     de     utilizar
supervisado, aplicación de redes             eficientemente la información de un
neuronales, red neuronal modular.            grupo de casos “etiquetados” para el
                                             diagnóstico de otros casos nuevos.
CONFRONTACIÓN      DE   DOS                  La clasificación es la atribución de una
TÉCNICAS DE MINERÍAS DE                      clase específica a un objeto, la cual
DATOS    APLICADAS    A  UN                  necesita un cierto grado de abstracción
DOMINIO ESPECÍFICO                           para poder extraer generalidades a partir
                                             de los ejemplos disponibles.
Autor: Mario Galvis, Fabricio Martínez.
Pontificia Universidad Javeriana.            Aplicado a aplicaciones biomédicas
                                             genéricas y diagnóstico de cáncer en la
Pretende mostrar las principales             piel.
diferencias entre dos técnicas de
minerías de datos, árboles de decisión y
reglas de asociación.                        CONCLUSIONES

El uso de la herramienta WEKA para           Los árboles de clasificación se aplican a
hacer un análisis entre los algoritmos y     varias ramas de estudio junto con los
determinar cuales son más óptimos            algoritmos de decisión y las redes
tomando en cuenta aspectos como:             neuronales y redes bayesianas, su
velocidad de ejecución, precisión para       estudio ayuda a poder obtener
clasificación de datos de origen,            resultados     más       acertados     de
precisión para predicción de datos           clasificación dependiendo del aspectos
futuros, escalabilidad, robustez.            o aspectos a clasificar.

OPTIMIZACIÓN    DE    REDES                  Como aspecto fundamental aplica el
BAYESIANAS    BASADO     EN                  proceso de poda: pre-poda y post-poda
TÉCNICAS DE APRENDIZAJE POR                  para obtener árboles parsimoniosos.
INDUCCIÓN.
                                             Es importante establecer su aplicación
Autor: Pablo Felgaer                         en algunos proyectos de tesis aplicados
Universidad de Buenos Aires.                 a desarrollo de software, minería de
                                             datos, medicina.


                                                                                      7
Gracias al aprendizaje supervisado,
podemos construir patrones que nos
ayuden a establecer soluciones para
problemas complejos y para los cuales
se aplica el conocimiento de la
Inteligencia Artificial.


BIBLIOGRAFIA

http://www.spss.com/es/classification_tr
ees/analysis.htm
http://www.sc.ehu.es/ccwbayes/docenci
a/mmcc/docs/t10arboles.pdf
http://isa.umh.es/asignaturas/iarp/transp
arencias/criterios_seleccion_modelos.pd
f
http://www.gsi.dit.upm.es/~gfer/ssii/arb
oles.pdf
http://www.ucm.es/BUCM/cee/doc/04-
009/04009.pdf




                                            8

Más contenido relacionado

Destacado (20)

sistemas expertos
sistemas expertossistemas expertos
sistemas expertos
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Formato ieee
Formato ieeeFormato ieee
Formato ieee
 
Weka
WekaWeka
Weka
 
Formato articulos ieee- hpm
Formato articulos ieee- hpmFormato articulos ieee- hpm
Formato articulos ieee- hpm
 
Algoritmia
AlgoritmiaAlgoritmia
Algoritmia
 
Árboles de Decisión en Weka
Árboles de Decisión en WekaÁrboles de Decisión en Weka
Árboles de Decisión en Weka
 
Coef Contingencia
Coef ContingenciaCoef Contingencia
Coef Contingencia
 
Algoritmos con ciclos repetitivos
Algoritmos con ciclos repetitivosAlgoritmos con ciclos repetitivos
Algoritmos con ciclos repetitivos
 
Como Hacer Ciencia
Como Hacer CienciaComo Hacer Ciencia
Como Hacer Ciencia
 
Condicionales
CondicionalesCondicionales
Condicionales
 
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de DatosData Mining. Extracción de Conocimiento en Grandes Bases de Datos
Data Mining. Extracción de Conocimiento en Grandes Bases de Datos
 
Articulo de revisión
Articulo de revisiónArticulo de revisión
Articulo de revisión
 
Algoritmo cualitativos
Algoritmo cualitativosAlgoritmo cualitativos
Algoritmo cualitativos
 
Estructura articulo de revision
Estructura articulo de revisionEstructura articulo de revision
Estructura articulo de revision
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos IGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
 
libro Tipler de fisica volumen 1
libro Tipler de fisica volumen 1libro Tipler de fisica volumen 1
libro Tipler de fisica volumen 1
 
Algoritmo Repetitivo
Algoritmo RepetitivoAlgoritmo Repetitivo
Algoritmo Repetitivo
 
Algoritmo Secuenciales
Algoritmo SecuencialesAlgoritmo Secuenciales
Algoritmo Secuenciales
 
Algorítmos - Conceptos básicos
Algorítmos - Conceptos básicosAlgorítmos - Conceptos básicos
Algorítmos - Conceptos básicos
 

Similar a Árboles clasificación algoritmos ID3 C4.5 J48

Métricas orientadas a la clase
Métricas orientadas a la claseMétricas orientadas a la clase
Métricas orientadas a la claseDavid Leon Sicilia
 
Ia2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadIa2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadCarlos Román
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1vinod
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquicoguest265dfe86
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosALONSO UCHIHA
 
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfGerard Alba
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
 
Estrategias de lectura
Estrategias de lecturaEstrategias de lectura
Estrategias de lecturatempo16
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosDavidAcurio2
 
Modelo basado en clases
Modelo basado en clasesModelo basado en clases
Modelo basado en clasesJesús Cedeño
 
Modelo basado en clases
Modelo basado en clasesModelo basado en clases
Modelo basado en clasesJesús Cedeño
 
Vecinos Proximos
Vecinos ProximosVecinos Proximos
Vecinos Proximosgeoc_hhga
 
Maquinas de vectores
Maquinas de vectoresMaquinas de vectores
Maquinas de vectoresJose Sanchez
 
Función de transferencia compet
Función de transferencia competFunción de transferencia compet
Función de transferencia competRichar León
 
Unidad 2 poo_clases_y_objetos
Unidad 2 poo_clases_y_objetosUnidad 2 poo_clases_y_objetos
Unidad 2 poo_clases_y_objetosRulox Quiñones
 
Poda Arboles
Poda ArbolesPoda Arboles
Poda Arbolesalexace84
 

Similar a Árboles clasificación algoritmos ID3 C4.5 J48 (20)

Métricas orientadas a la clase
Métricas orientadas a la claseMétricas orientadas a la clase
Métricas orientadas a la clase
 
Ia2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadIa2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion Vecindad
 
Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
Cluster No Jerarquico
Cluster No JerarquicoCluster No Jerarquico
Cluster No Jerarquico
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos Evolutivos
 
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
Estrategias de lectura
Estrategias de lecturaEstrategias de lectura
Estrategias de lectura
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Modelo basado en clases
Modelo basado en clasesModelo basado en clases
Modelo basado en clases
 
Modelo basado en clases
Modelo basado en clasesModelo basado en clases
Modelo basado en clases
 
Modelo basado en clases
Modelo basado en clasesModelo basado en clases
Modelo basado en clases
 
Lp13
Lp13Lp13
Lp13
 
Vecinos Proximos
Vecinos ProximosVecinos Proximos
Vecinos Proximos
 
Maquinas de vectores
Maquinas de vectoresMaquinas de vectores
Maquinas de vectores
 
Función de transferencia compet
Función de transferencia competFunción de transferencia compet
Función de transferencia compet
 
metodos de clases
metodos de clasesmetodos de clases
metodos de clases
 
Unidad 2 poo_clases_y_objetos
Unidad 2 poo_clases_y_objetosUnidad 2 poo_clases_y_objetos
Unidad 2 poo_clases_y_objetos
 
T1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdfT1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdf
 
Poda Arboles
Poda ArbolesPoda Arboles
Poda Arboles
 

Último

Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..RobertoGumucio2
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 

Último (20)

Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..Plan Sarmiento - Netbook del GCBA 2019..
Plan Sarmiento - Netbook del GCBA 2019..
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 

Árboles clasificación algoritmos ID3 C4.5 J48

  • 1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA Roberth Paúl Bravo Castro María Esther Ruilova Rojas ÁRBOLES DE CLASIFICACIÓN (INTELIGENCIA ARTIFICIAL AVANZADA) INTRODUCCIÓN Los árboles de clasificación son uno de los más utilizados en el tema de aprendizaje automático. Su rapidez a la hora de la clasificación, su fácil implementación, etc. son factores que influyen en su propagación. Entran dentro de los métodos de clasificación supervisada, formados por una variable dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El modelo así obtenido puede servir para clasificar casos cuyas clases se desconozcan o, simplemente, para comprender mejor la información de la que disponemos. Se abarca un poco el tema de los algoritmos más conocidos que se aplican en el tema como son el algoritmo CART que basa su criterio por defecto en el Gini index para la clasificación, el IDE3 que realiza divisiones sobre los posibles valores de la clase predoctora y usa un criterio de ganancia en información como función de división, otro algoritmo es el C4.5 que es el sucesos del IDE3, el J4.8 que es una implementación del C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificación según han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los mismos. características en regiones mutuamente DESARROLLO DE CONTENIDOS excluyentes, de tal forma que cada región esté asociada a una clase y, dado Patrón: Es una unidad de información, un patrón particular, decidir a que clase integrada de tal forma que capture la de las disponibles pertenece. esencia descriptiva de un objeto, teniendo como meta principal la Aprendizaje supervisado: Estas representación de cualquier entidad del técnicas disponen para su ejecución, de mundo real a la que se le pueda dar un un conjunto de patrones, integrado en lo nombre y sea descriptible. que se conoce como muestra de Puede ser representativo de caracteres entrenamiento o conjunto de datos de escritos, símbolos, imágenes, firmas, entrenamiento (CE). Este conjunto de huellas dactilares, espectrogramas, etc. datos es recolectado por un experto humano en el campo de estudio y Patrón ruidoso: Es aquel patrón que agrupa en clases o categorías, de puede confundir al clasificador debido a acuerdo a las propiedades que cada uno que guarda cierto parecido con objetos posee, los casos resueltos previamente. de otras clases. El clasificador es entrenado con este CE y realiza la identificación de la clase Clasificación: Se puede interpretar correspondiente para nuevos patrones, como la partición del espacio de empleando el conocimiento ya 1
  • 2. adquirido y tratando de realizar esa verdadero valor de otra Y (clase a la que identificación con el menor error pertenece el ejemplo). posible. Clasificador: función d(x) definida en es espacio de clasificación X, que relaciona a cada patrón o ejemplo x del espacio de clasificación con una sola ÁRBOLES DE CLASIFICACIÓN clase del conjunto de posibles valores a los que puede pertenecer Cm (m=1, … , Todo árbol de clasificación comienza M). con un nodo al que pertenecen todos los casos de la muestra que se quiere Clase o categoría: Grupo de patrones clasificar (nodo raíz), el resto de nodos que guardan un alto grado de similitud se dividen en nodos intermedios y entre sí y un alto grado de disimilitud nodos terminales. entre los patrones de otros grupos. Generalmente las clases representan la A la hora de clasificar cada patrón, el (s) solución (es) en que se divide el punto de partida es el nodo raíz y, problema. dependiendo de los valores de la clase predoctora por la que se pregunta, los Conjunto de entrenamiento: Conjunto casos se van distribuyendo por los de objetos previamente etiquetados y nodos hijo. El proceso se repite en cada separados en clases utilizados durante el nodo hasta llegar a los nodos hoja. proceso de aprendizaje supervisado. Al número de nodos hoja que tiene un Sobreajuste: El modelo está demasiado árbol se le suele denominar complejidad ajustado a las instancias de de árbol. entrenamiento, y no funciona adecuadamente con las nuevas instancias. Producido por fronteras de decisión muy complejas. Entropía: Medida del grado de incertidumbre asociado a una distribución de probabilidad. pk: probabilidad de que un ejemplo esté en la clase k: con nk = número de ejemplos en la clase k. Ganancia de Información: Medida de cuanto ayuda el conocer el valor de una Se puede decir que los árboles de variable aleatoria X (atributo de un clasificación, además de clasificar, son ejemplo dado) para conocer el capaces de extraer una estructura que 2
  • 3. representa, en cierta medida, el entrenamiento, generalmente son concepto o el patrón de comportamiento eliminados debido a que las que hay asociado a la muestra sobre la coincidencias suelen no estar presentes que se ha inducido. en el conjunto de validación. Para su construcción se definen tres Existen varias razones para la poda de procedimientos: los árboles: la sobre-generalización, la evaluación de variables poco • ¿cómo se realiza la selección de importantes o significativas y el gran divisiones? tamaño del árbol obtenido. En el primer • ¿cómo se toma la decisión de de caso, un árbol puede haber sido declarar un nodo como construido a partir de ejemplos con intermedio o como hoja? ruido, con lo cual algunas ramas del • ¿cómo se asigna la pertenencia árbol pueden ser engañosas; en cuanto a de cada nodo hoja a las posibles la evaluación de variables no relevantes, clases? éstas deben podarse ya que sólo agregan niveles en el árbol y no contribuyen a la A los árboles de clasificación se les ganancia de información. Por último, si aplica un procedimiento que los hace el árbol obtenido es demasiado parsimoniosos que se denomina poda. profundo o demasiado frondoso se dificulta la interpretación por parte del La poda consiste en eliminar todo el usuario, con lo cual hubiera sido lo subárbol que tiene como raíz el nodo en mismo utilizar un método de caja negra. cuestión, convirtiéndolo así en una hoja, cuya clase corresponde a valor mas Existen dos enfoques para podar los común de los ejemplares asociados a árboles: la pre-poda (preprunning) y la ese nodo. post-poda (postprunning). En el primer caso se detiene el crecimiento del árbol Un nodo solo es eliminado si el árbol cuando la ganancia de información podado que resulta de ello, no presenta producida al dividir un conjunto no un desempeño peor que el árbol original supera un umbral determinado; en la sobre el conjunto de validación. El postpoda se podan algunas ramas una efecto de esto, es que los nodos que se vez que se ha terminado de construir el han colocado en el árbol por árbol. coincidencias fortuitas en los datos del Algoritmo Básico 3
  • 4. La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se correspondan con una determinada rama del árbol de clasificación no pertenezcan a una misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea la más informativa o la más idónea con respecto de un criterio previamente establecido. La elección de esta variable sirve para expandir el árbol en tantas ramas como posibles valores toma dicha variable. Finalmente, se expresa el árbol de clasificación por medio de un conjunto de reglas. ÁLGORITMOS Algoritmo ID3 Introducido por Quinlan (1986). El algoritmo ID3 genera árboles de decisión a partir de a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El tan sólo utilizaba atributos binarios y tenía heurísticas para decidir qué atributo escoger. La terminología usada en este contexto para denominar a la cantidad de información mutua es la de ganancia en información. El algoritmo de ID3 es el siguiente: 4
  • 5. 1. Seleccionar el atributo Ai que maximice la ganancia, e.d, el que tenga menor entropia. 2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga. 3. Introducir los ejemplos en los sucesores según el valor que tenga el atributo Ai. 4. Por cada sucesor: SI sólo hay ejemplos de una clase ck. Entonces etiquetarlo con ck. SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo Ai. ID3 intenta encontrar el árbol más sencillo que separa mejor los ejemplos. Para ello utiliza la entropía para elegir o tomar decisiones. Algoritmo C4.5 Es una mejora del IDE3. Se basa en la utilización del criterio ratio de ganancia. De esta manera se consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. Además el algoritmo C4.5 incorpora una poda del árbol de clasificación una vez que éste ha sido inducido. La poda está basada en la aplicación de un test de hipótesis que trata de responder a la pregunta de si merece la pena expandir o no una determinada rama. 5
  • 6. Algoritmo CART Utiliza el criterio basado en Gini index para el caso de la clasificación. Cuando se pretende construir un árbol de regresión, los criterios se basan en la mínima suma de las desviaciones cuadráticas. Para realizar la post-poda realiza una estimación del error, bien mediante un conjunto de datos diferente del que se ha utilizado para construir el árbol, o bien aplicando una metodología de validación cruzada. Algoritmo J4.8 Implementación del C4.5. Permite establecer ciertos parámetros, como obligar a realizar divisiones binarias sobre variables discretas, o cambiar el método de post-poda que utiliza el C4.5 por un método basado en la reducción de error. Algoritmo CHAID No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la misma fase de construcción del árbol cuando se decide parar. Sólo es capaz de tratar con variables predoctoras discretas. AVANCES EN LA TOMA DE ÁREAS DE APLICACIÓN DE LOS DECISIONES EN PROYECTOS DE ÁRBOLES DE CLASIFICACIÓN DESARROLLO DE SOFTWARE. Estos son los temas de algunas tesis Autor: Javier Aroba Páez previas la obtención del Título de Ing. Universidad de Sevilla. en Sistemas. Uso de técnicas de aprendizaje supervisado (algoritmo C4.5) para la obtención de reglas de gestión para la 6
  • 7. estimación de costes en el desarrollo de Tomando un conjunto de bases de datos software. las cuales las cuales ayudaron a determinar las posibles causas de El conocimiento de estas reglas de algunas enfermedades. gestión sirve de ayuda en la toma de decisiones para estimar DESARROLLO DE SISTEMAS automáticamente los resultados INTELIGENTES PARA deseados por el responsable del CLASIFICACIÓN Y DIAGNÓSTICO proyecto (coste, tiempo de entrega, EN MEDICINA. calidad, productividad, etc.). Además, la obtención de reglas de gestión permite Autor: Suhail Musa Issa Odeh. al director del proyecto analizar cuáles Universidad de Granada son las políticas de gestión más significativas para conseguir los Este trabajo se centra en el desarrollo de objetivos del Proyecto Software. esquemas de diagnóstico automático y flexible. Para ello se exploran distintas Además el uso de aprendizaje no alternativas capaces de utilizar supervisado, aplicación de redes eficientemente la información de un neuronales, red neuronal modular. grupo de casos “etiquetados” para el diagnóstico de otros casos nuevos. CONFRONTACIÓN DE DOS La clasificación es la atribución de una TÉCNICAS DE MINERÍAS DE clase específica a un objeto, la cual DATOS APLICADAS A UN necesita un cierto grado de abstracción DOMINIO ESPECÍFICO para poder extraer generalidades a partir de los ejemplos disponibles. Autor: Mario Galvis, Fabricio Martínez. Pontificia Universidad Javeriana. Aplicado a aplicaciones biomédicas genéricas y diagnóstico de cáncer en la Pretende mostrar las principales piel. diferencias entre dos técnicas de minerías de datos, árboles de decisión y reglas de asociación. CONCLUSIONES El uso de la herramienta WEKA para Los árboles de clasificación se aplican a hacer un análisis entre los algoritmos y varias ramas de estudio junto con los determinar cuales son más óptimos algoritmos de decisión y las redes tomando en cuenta aspectos como: neuronales y redes bayesianas, su velocidad de ejecución, precisión para estudio ayuda a poder obtener clasificación de datos de origen, resultados más acertados de precisión para predicción de datos clasificación dependiendo del aspectos futuros, escalabilidad, robustez. o aspectos a clasificar. OPTIMIZACIÓN DE REDES Como aspecto fundamental aplica el BAYESIANAS BASADO EN proceso de poda: pre-poda y post-poda TÉCNICAS DE APRENDIZAJE POR para obtener árboles parsimoniosos. INDUCCIÓN. Es importante establecer su aplicación Autor: Pablo Felgaer en algunos proyectos de tesis aplicados Universidad de Buenos Aires. a desarrollo de software, minería de datos, medicina. 7
  • 8. Gracias al aprendizaje supervisado, podemos construir patrones que nos ayuden a establecer soluciones para problemas complejos y para los cuales se aplica el conocimiento de la Inteligencia Artificial. BIBLIOGRAFIA http://www.spss.com/es/classification_tr ees/analysis.htm http://www.sc.ehu.es/ccwbayes/docenci a/mmcc/docs/t10arboles.pdf http://isa.umh.es/asignaturas/iarp/transp arencias/criterios_seleccion_modelos.pd f http://www.gsi.dit.upm.es/~gfer/ssii/arb oles.pdf http://www.ucm.es/BUCM/cee/doc/04- 009/04009.pdf 8