Este documento presenta información sobre árboles de clasificación, que son métodos de aprendizaje automático supervisado utilizados para clasificar datos. Explica conceptos clave como patrones, clasificación, clasificador, clase, conjunto de entrenamiento, sobreajuste y entropía. También describe algoritmos comunes como ID3, C4.5, CART y J4.8 y sus procesos de construcción de árboles de clasificación. Finalmente, presenta ejemplos de aplicaciones como diagnóstico médico y estimación de costos de pro
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Árboles clasificación algoritmos ID3 C4.5 J48
1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Roberth Paúl Bravo Castro
María Esther Ruilova Rojas
ÁRBOLES DE CLASIFICACIÓN (INTELIGENCIA ARTIFICIAL
AVANZADA)
INTRODUCCIÓN
Los árboles de clasificación son uno de los más utilizados en el tema de aprendizaje
automático. Su rapidez a la hora de la clasificación, su fácil implementación, etc. son
factores que influyen en su propagación.
Entran dentro de los métodos de clasificación supervisada, formados por una variable
dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El
modelo así obtenido puede servir para clasificar casos cuyas clases se desconozcan o,
simplemente, para comprender mejor la información de la que disponemos.
Se abarca un poco el tema de los algoritmos más conocidos que se aplican en el tema
como son el algoritmo CART que basa su criterio por defecto en el Gini index para la
clasificación, el IDE3 que realiza divisiones sobre los posibles valores de la clase
predoctora y usa un criterio de ganancia en información como función de división, otro
algoritmo es el C4.5 que es el sucesos del IDE3, el J4.8 que es una implementación del
C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificación
según han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los
mismos.
características en regiones mutuamente
DESARROLLO DE CONTENIDOS excluyentes, de tal forma que cada
región esté asociada a una clase y, dado
Patrón: Es una unidad de información, un patrón particular, decidir a que clase
integrada de tal forma que capture la de las disponibles pertenece.
esencia descriptiva de un objeto,
teniendo como meta principal la Aprendizaje supervisado: Estas
representación de cualquier entidad del técnicas disponen para su ejecución, de
mundo real a la que se le pueda dar un un conjunto de patrones, integrado en lo
nombre y sea descriptible. que se conoce como muestra de
Puede ser representativo de caracteres entrenamiento o conjunto de datos de
escritos, símbolos, imágenes, firmas, entrenamiento (CE). Este conjunto de
huellas dactilares, espectrogramas, etc. datos es recolectado por un experto
humano en el campo de estudio y
Patrón ruidoso: Es aquel patrón que agrupa en clases o categorías, de
puede confundir al clasificador debido a acuerdo a las propiedades que cada uno
que guarda cierto parecido con objetos posee, los casos resueltos previamente.
de otras clases. El clasificador es entrenado con este CE
y realiza la identificación de la clase
Clasificación: Se puede interpretar correspondiente para nuevos patrones,
como la partición del espacio de empleando el conocimiento ya
1
2. adquirido y tratando de realizar esa verdadero valor de otra Y (clase a la que
identificación con el menor error pertenece el ejemplo).
posible.
Clasificador: función d(x) definida en
es espacio de clasificación X, que
relaciona a cada patrón o ejemplo x del
espacio de clasificación con una sola ÁRBOLES DE CLASIFICACIÓN
clase del conjunto de posibles valores a
los que puede pertenecer Cm (m=1, … , Todo árbol de clasificación comienza
M). con un nodo al que pertenecen todos los
casos de la muestra que se quiere
Clase o categoría: Grupo de patrones clasificar (nodo raíz), el resto de nodos
que guardan un alto grado de similitud se dividen en nodos intermedios y
entre sí y un alto grado de disimilitud nodos terminales.
entre los patrones de otros grupos.
Generalmente las clases representan la A la hora de clasificar cada patrón, el
(s) solución (es) en que se divide el punto de partida es el nodo raíz y,
problema. dependiendo de los valores de la clase
predoctora por la que se pregunta, los
Conjunto de entrenamiento: Conjunto casos se van distribuyendo por los
de objetos previamente etiquetados y nodos hijo. El proceso se repite en cada
separados en clases utilizados durante el nodo hasta llegar a los nodos hoja.
proceso de aprendizaje supervisado.
Al número de nodos hoja que tiene un
Sobreajuste: El modelo está demasiado árbol se le suele denominar complejidad
ajustado a las instancias de de árbol.
entrenamiento, y no funciona
adecuadamente con las nuevas
instancias. Producido por fronteras de
decisión muy complejas.
Entropía: Medida del grado de
incertidumbre asociado a una
distribución de probabilidad.
pk: probabilidad de que un ejemplo esté
en la clase k:
con nk = número de ejemplos en la
clase k.
Ganancia de Información: Medida de
cuanto ayuda el conocer el valor de una Se puede decir que los árboles de
variable aleatoria X (atributo de un clasificación, además de clasificar, son
ejemplo dado) para conocer el capaces de extraer una estructura que
2
3. representa, en cierta medida, el entrenamiento, generalmente son
concepto o el patrón de comportamiento eliminados debido a que las
que hay asociado a la muestra sobre la coincidencias suelen no estar presentes
que se ha inducido. en el conjunto de validación.
Para su construcción se definen tres Existen varias razones para la poda de
procedimientos: los árboles: la sobre-generalización, la
evaluación de variables poco
• ¿cómo se realiza la selección de importantes o significativas y el gran
divisiones? tamaño del árbol obtenido. En el primer
• ¿cómo se toma la decisión de de caso, un árbol puede haber sido
declarar un nodo como construido a partir de ejemplos con
intermedio o como hoja? ruido, con lo cual algunas ramas del
• ¿cómo se asigna la pertenencia árbol pueden ser engañosas; en cuanto a
de cada nodo hoja a las posibles la evaluación de variables no relevantes,
clases? éstas deben podarse ya que sólo agregan
niveles en el árbol y no contribuyen a la
A los árboles de clasificación se les ganancia de información. Por último, si
aplica un procedimiento que los hace el árbol obtenido es demasiado
parsimoniosos que se denomina poda. profundo o demasiado frondoso se
dificulta la interpretación por parte del
La poda consiste en eliminar todo el usuario, con lo cual hubiera sido lo
subárbol que tiene como raíz el nodo en mismo utilizar un método de caja negra.
cuestión, convirtiéndolo así en una hoja,
cuya clase corresponde a valor mas Existen dos enfoques para podar los
común de los ejemplares asociados a árboles: la pre-poda (preprunning) y la
ese nodo. post-poda (postprunning). En el primer
caso se detiene el crecimiento del árbol
Un nodo solo es eliminado si el árbol cuando la ganancia de información
podado que resulta de ello, no presenta producida al dividir un conjunto no
un desempeño peor que el árbol original supera un umbral determinado; en la
sobre el conjunto de validación. El postpoda se podan algunas ramas una
efecto de esto, es que los nodos que se vez que se ha terminado de construir el
han colocado en el árbol por árbol.
coincidencias fortuitas en los datos del
Algoritmo Básico
3
4. La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se
correspondan con una determinada rama del árbol de clasificación no pertenezcan a una
misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea
la más informativa o la más idónea con respecto de un criterio previamente establecido.
La elección de esta variable sirve para expandir el árbol en tantas ramas como posibles
valores toma dicha variable.
Finalmente, se expresa el árbol de clasificación por medio de un conjunto de reglas.
ÁLGORITMOS
Algoritmo ID3
Introducido por Quinlan (1986). El algoritmo ID3 genera árboles de decisión a partir de
a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El
tan sólo utilizaba atributos binarios y tenía heurísticas para decidir qué atributo escoger.
La terminología usada en este contexto para denominar a la cantidad de información
mutua es la de ganancia en información.
El algoritmo de ID3 es el siguiente:
4
5. 1. Seleccionar el atributo Ai que maximice la ganancia, e.d, el que tenga menor
entropia.
2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga.
3. Introducir los ejemplos en los sucesores según el valor que tenga el atributo Ai.
4. Por cada sucesor:
SI sólo hay ejemplos de una clase ck.
Entonces etiquetarlo con ck.
SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo,
eliminando la columna del atributo Ai.
ID3 intenta encontrar el árbol más sencillo que separa mejor los ejemplos. Para ello
utiliza la entropía para elegir o tomar decisiones.
Algoritmo C4.5
Es una mejora del IDE3. Se basa en la utilización del criterio ratio de ganancia. De esta
manera se consigue evitar que las variables con mayor número de posibles valores
salgan beneficiadas en la selección. Además el algoritmo C4.5 incorpora una poda del
árbol de clasificación una vez que éste ha sido inducido. La poda está basada en la
aplicación de un test de hipótesis que trata de responder a la pregunta de si merece la
pena expandir o no una determinada rama.
5
6. Algoritmo CART
Utiliza el criterio basado en Gini index para el caso de la clasificación. Cuando se
pretende construir un árbol de regresión, los criterios se basan en la mínima suma de las
desviaciones cuadráticas. Para realizar la post-poda realiza una estimación del error,
bien mediante un conjunto de datos diferente del que se ha utilizado para construir el
árbol, o bien aplicando una metodología de validación cruzada.
Algoritmo J4.8
Implementación del C4.5. Permite establecer ciertos parámetros, como obligar a realizar
divisiones binarias sobre variables discretas, o cambiar el método de post-poda que
utiliza el C4.5 por un método basado en la reducción de error.
Algoritmo CHAID
No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la
misma fase de construcción del árbol cuando se decide parar.
Sólo es capaz de tratar con variables predoctoras discretas.
AVANCES EN LA TOMA DE
ÁREAS DE APLICACIÓN DE LOS DECISIONES EN PROYECTOS DE
ÁRBOLES DE CLASIFICACIÓN DESARROLLO DE SOFTWARE.
Estos son los temas de algunas tesis Autor: Javier Aroba Páez
previas la obtención del Título de Ing. Universidad de Sevilla.
en Sistemas. Uso de técnicas de aprendizaje
supervisado (algoritmo C4.5) para la
obtención de reglas de gestión para la
6
7. estimación de costes en el desarrollo de Tomando un conjunto de bases de datos
software. las cuales las cuales ayudaron a
determinar las posibles causas de
El conocimiento de estas reglas de algunas enfermedades.
gestión sirve de ayuda en la toma de
decisiones para estimar DESARROLLO DE SISTEMAS
automáticamente los resultados INTELIGENTES PARA
deseados por el responsable del CLASIFICACIÓN Y DIAGNÓSTICO
proyecto (coste, tiempo de entrega, EN MEDICINA.
calidad, productividad, etc.). Además, la
obtención de reglas de gestión permite Autor: Suhail Musa Issa Odeh.
al director del proyecto analizar cuáles Universidad de Granada
son las políticas de gestión más
significativas para conseguir los Este trabajo se centra en el desarrollo de
objetivos del Proyecto Software. esquemas de diagnóstico automático y
flexible. Para ello se exploran distintas
Además el uso de aprendizaje no alternativas capaces de utilizar
supervisado, aplicación de redes eficientemente la información de un
neuronales, red neuronal modular. grupo de casos “etiquetados” para el
diagnóstico de otros casos nuevos.
CONFRONTACIÓN DE DOS La clasificación es la atribución de una
TÉCNICAS DE MINERÍAS DE clase específica a un objeto, la cual
DATOS APLICADAS A UN necesita un cierto grado de abstracción
DOMINIO ESPECÍFICO para poder extraer generalidades a partir
de los ejemplos disponibles.
Autor: Mario Galvis, Fabricio Martínez.
Pontificia Universidad Javeriana. Aplicado a aplicaciones biomédicas
genéricas y diagnóstico de cáncer en la
Pretende mostrar las principales piel.
diferencias entre dos técnicas de
minerías de datos, árboles de decisión y
reglas de asociación. CONCLUSIONES
El uso de la herramienta WEKA para Los árboles de clasificación se aplican a
hacer un análisis entre los algoritmos y varias ramas de estudio junto con los
determinar cuales son más óptimos algoritmos de decisión y las redes
tomando en cuenta aspectos como: neuronales y redes bayesianas, su
velocidad de ejecución, precisión para estudio ayuda a poder obtener
clasificación de datos de origen, resultados más acertados de
precisión para predicción de datos clasificación dependiendo del aspectos
futuros, escalabilidad, robustez. o aspectos a clasificar.
OPTIMIZACIÓN DE REDES Como aspecto fundamental aplica el
BAYESIANAS BASADO EN proceso de poda: pre-poda y post-poda
TÉCNICAS DE APRENDIZAJE POR para obtener árboles parsimoniosos.
INDUCCIÓN.
Es importante establecer su aplicación
Autor: Pablo Felgaer en algunos proyectos de tesis aplicados
Universidad de Buenos Aires. a desarrollo de software, minería de
datos, medicina.
7
8. Gracias al aprendizaje supervisado,
podemos construir patrones que nos
ayuden a establecer soluciones para
problemas complejos y para los cuales
se aplica el conocimiento de la
Inteligencia Artificial.
BIBLIOGRAFIA
http://www.spss.com/es/classification_tr
ees/analysis.htm
http://www.sc.ehu.es/ccwbayes/docenci
a/mmcc/docs/t10arboles.pdf
http://isa.umh.es/asignaturas/iarp/transp
arencias/criterios_seleccion_modelos.pd
f
http://www.gsi.dit.upm.es/~gfer/ssii/arb
oles.pdf
http://www.ucm.es/BUCM/cee/doc/04-
009/04009.pdf
8