SlideShare uma empresa Scribd logo
1 de 8
Baixar para ler offline
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                             1




      Algoritmos de Clasificación: Comparación del
     Algoritmo Naive Bayes con Otras Metodologías
     Para la Clasificación de Correo Electrónico No
                        Deseado
                                          Pablo Antonio Alvarado Ruiz paalvarador@gmail.com



   Abstract—En la actualidad el correo electrónico se ha conver-    Esto es muy perjudicial para los usuarios, ya que sus buzones
tido en una de las herramientas mas importantes y utilizadas        de entrada comienzan a llenarse de información que ellos no
para enviar y recibir información, tanto para las empresas como     han solicitado y pierden mucho tiempo en tratar de identificar
para los usuario comunes. Lamentablemente al correo electrónico
también se lo ha utilizado para enviar información que no es        si los correos que les llegan son legitimos o correo spam.
del interes de muchos usuarios, información que es conocida            Por esta razón dentro del campo de la Inteligencia Artificial,
como correo basura o correo electrónico no deseado. Es por          se han tomado medidas para poder analizar dicho contenido
esto, que en este artículo se presenta una introducción a lo que    de los mensajes aplicando técnicas de aprendizaje automático
se conoce como correo electrónico no deseado y algunos conceptos    y de esta manera clasificarlos como correo legítimo o correo
de aprendizaje automático, además se presenta las técnicas que
han sido aplicadas en el campo de la inteligencia artificial para    no deseado.
evitar el problema del correo electrónico no deseado. También          Para solucionar el problema del correo electrónico no de-
se propone una solución utilizando el clasificador Naive Bayes,      seado se pueden utilizar una gran variedad de algoritmos de
y se presenta una comparación con las demás técnicas. Además        clasificación. Como se menciona en [15], los algoritmos de
se presentan algunos trabajos relacionados que han ayudado a        aprendizaje son usados en numerosos ambitos y las métricas
la clasificación del correo electrónico para diferenciar el correo
electrónico legítimo del correo electrónico no deseado.
                                                                    de rendimiento son apropiadas para cada dominio. En esta
                                                                    investigación se utilizará el algoritmo de clasificación Naive
  Index Terms—Red Bayesiana, Aprendizaje Automático, Spam,          Bayes que esta enmarcado dentro de los metodos bayesianos.
Clasificador Naive Bayes, Clasificador J48, Clasificador IBk,
                                                                       Los métodos bayesianos son de gran importancia porque
Clasificador ADTree
                                                                    no solamente ofrecen un análisis cualitativo de los atributos
                                                                    y valores que pueden intervenir en el problema, sino porque
                         I. I NTRODUCCIÓN                           dan gran importancia al análisis cuantivativo de esos atributos.
      OMO se menciono, en la actualidad el correo electrónico       Como se menciona en [12], entre las caracteristicas que poseen
C     se ha convertido en uno de los canales de comunicación
más importantes tanto para las empresas como para los usuar-
                                                                    los métodos bayesianos en tareas de aprendizaje se pueden
                                                                    resaltar las siguientes
ios comunes, y es por esto que es muy utilizado para el                • Cada ejemplo observado va a modificar la probabilidad

negocio electrónico publicitario. Como se dice en [1], el correo          de que la hipótesis formulada sea correcta ya sea aumen-
electrónico es un medio de comunicación eficiente y cada vez               tandola o disminuyendola. Es decir, una hipótesis que no
más popular. Al ser extremadamente económico y facil de                   concuerda con un conjunto de ejemplos más o menos
enviar, es tambien un negocio para el comercio electronico.               grande no es desechada por completo sino que lo que
   Por esta razón, la mayoria de empresas ha utilizado el correo          harán será disminuir esa probabilidad estimada para la
electrónico para enviar información de sus productos que                  hipótesis.
                                                                       • Estos métodos son robustos al posible ruido presentes en
generalmente no es del interes de la mayoria de los usuarios.
Esta información es conocida como correo electronico no                   los ejemplos de entrenamiento y a la posibilidad de tener
deseado o spam.                                                           entre esos ejemplos de entrenamiento datos incompletos
   Como se dice en [2], spam es el termino que se emplea                  o posiblemente erróneos.
                                                                       • Los métodos bayesianos permiten tener en cuenta en
comúnmente para designar el correo electrónico no solicitado
que se envia a través de internet. La información que se envia            la predicción de la hipótesis el conocimiento a priori
através de este tipo de correo generalmente es para ofrecer               o el conocimiento del dominio en forma de probabili-
productos o promociones, además de contenido pornográfico.                 dades. El problema puede surgir al tener que estimar ese
Como se menciona en [3], el contenido de un mensaje spam                  conocimiento estadístico sin disponer de datos suficientes.
es variopinto, pero siempre dentro de los mismos márgenes:                             II. E STADO DEL ARTE
ofertas de cualquier tipo de producto, ofertas para hacerse
                                                                    A. Redes Bayesiana
ricos en poco tiempo, y sobre todo, conteido pornográfico.
                                                                       Las redes bayesianas formalemente son gráficos acíclicos
  Your name is with xyz Department. . .                             dirigidos, cuyos nodos representan variables y los arcos que
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                              2



los unen representan dependencias entre las variables. La           conocimiento que es capaz de capturar esta información sobre
estructura de una red Bayesiana provee información sobre            las dependencias entre las variables son las redes bayesianas.
las relaciones de dependencia e independencia condicional
existentes entre las variables. Estas relaciones simplifican la      C. Clasificador Naive Bayes
representación de la función de probabilidad conjunta como             El clasificador de Naive Bayes es un clasificador probabilís-
el producto de las funciones de probabilidad condicional de         tico basado en el teorema de Bayes. Desde la perspectiva del
cada variable [16].                                                 aprendizaje automático, el problema del correo electrónico no
   Por tanto, el proceso de estimación de una red Bayesiana         deseado puede ser tratado como un problema de clasificación
consiste de una etapa de aprendizaje estructural y una etapa        binaria, es decir cuando el correo electrónico es clasificado
de aprendizaje paramétrico[17]. La primera etapa consiste en        como legítimo, es considerado como una instancia negativa (-
obtener la estructura de una red y la segunda etapa consiste        ) y cuando el correo eletrónico es clasificado como spam o no
en estimar los parámetros de las funciones de probabilidad          deseado, es considerado como una instancia positiva (+) [10].
condicional.                                                           A continuación se presenta el teorema de Bayes en la
                                                                    ecuación 1 [11].
B. Aprendizaje Automático
                                                                                                     P (D|h)P (h)
   El aprendizaje automático se refiere a la capacidad que se                           P (h|D) =                                 (1)
les da a las computadoras de poder resolver problemas por si                                            P (D)
solas y poder conseguir los mismos o mejores resultados que            Donde:
si lo haria un operador humano. Segun [4], para conseguir esto         • P (h) es la probabilidad a priori de la hipotesis h.
primero debemos ser capaces de indicarle al computador de              • P (D)es la probabilidad de observar el conjunto de en-
donde debe aprender, cual es el objetivo que tiene que cumplir,          trenamiento D, cuando es usado para clasificar.
y que tipo de resultado esperamos que nos ofrezca. Por lo              • P (D|h) es la probabilidad de observar el conjunto de
tanto esto nos lleva a decir que el aprendizaje automático es            entrenamiento D en un universo donde se verifica la
un proceso de inducción y deducción y el proceso se lo realiza           hipótesis h.
como se muestra en la figura 1.                                         • P (h|D) es la probabilidad a posteriori de h, cuando se
                                                                         ha observado el conjunto de entrenamiento D.
                                                                    Se puede apreciar en la formulación del teorema que:
                                                                       • La probabilidad a posteriori de h, que en el caso del
                                                                         problema del correo electrónico seria la probabilidad de
                                                                         clasificar un nuevo correo como legítmo o spam, obser-
                                                                         vando el conjunto de entrenamiento D, es directamente
                                                                         proporcional a la probabilidad de que se de h (P (h)).
                                                                       • La probabilidad a posteriori de h es también directamente
                                                                         proporcional a la probabilidad de que se de el conjunto
                                                                         de entrenamiento D, siendo correcta (P (D|h)).
                                                                    El aprendizaje bayesiano puede verse como el proceso de
                                                                    encontrar la hipótesis más probable, dado un conjunto de
                                                                    ejemplos de entrenamiento D y un conocimiento a priori sobre
                                                                    la probabilidad de cada hipótesis [12]. En la ecuación 2 se
                                                                    muestra el cálculo de la hipótesis con mayor probabilidad a
                                                                    posteriori.
Figure 1.   Proceso de inducción y deducción. [4]
                                                                                                        P (D|h) P (h)
   Como podemos observar en la Figura 1, el primer paso                         hM AP = argmaxh         H                         (2)
                                                                                                             P (D)
a seguir dentro de este modelo es entrenar a la maquina
                                                                       En donde D son los datos de entrenamiento y h cada una
mediante ejemplos y para esto se deben aplicar los algorit-
                                                                    de las hipótesis, en este caso correos electrónicos que se tiene
mos de aprendizaje automático para obtener un modelo de
                                                                    que clasificar. El subindice MAP es el Maximo Posteriori. Es
clasificación y optimización. Finalmente los nuevos casos,
                                                                    decir, se clasifica la instancia como aquella que tiene máxima
son comparados con el modelo resultante y deacuerdo a eso
                                                                    probabilidad a posteriori.
se los van clasificando en una categoria específica según
                                                                       Lamentablemente el cálculo de esta ecuación no se la puede
corresponda.
                                                                    tomar para un número suficientemente grande de ejemplos, por
   Un aspecto importante en el aprendizaje inductivo es el de
                                                                    lo que es necesario simplificar la ecuación como se muestra
obtener un modelo que represente el dominio de conocimiento
                                                                    en la ecuación 3.
y que sea acceible para el usuario, en particular, resulta impor-
tante obtener la información de dependencia entre las variables
                                                                                 P (a1 , a2 , .....an |vj ) = Πi P (ai |vj )     (3)
involucradas en el fenómeno, en los sistemas en donde se
desea predecir el comportamiento de algunas variables de-             Donde vj , son cada una de las clases que se queire clasificar
sconocidas basados en otras conocidas; una representación del       y ai son los valores de los datos con lo que se clasificará.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                            3



D. Clasificador J48                                                todos los caminos para los cuales los nodos de decisión son
   El algoritmo J48, es una versión del algoritmo de árboles de   verdaderos y sumando todos los nodos de predicción que se
decisión C4.5. Los árboles de decisión estan ubicados dentro      reconocen. Esto es diferente de los árboles de clasificación
de los métodos de clasificación supervisada, es decir, se tiene    binarios como CART o C4.5, en los cuales una instancia sigue
una variable dependiente o clase, y el objetivo del clasificador   solo un camino a través del árbol.
es determinar el valor de dicha clase para casos nuevos.             Las entradas para el algoritmo de decisión alterna son:
   El proceso de construcción del árbol comienza por el nodo         • Un conjunto de entradas (x1 , y1 ) , ......, (xm , ym )donde
raiz, el que tiene asociados todos los ejemplos o casos de             xi es un vector de atributos y yi es -1 ó 1. Las entradas
entrenamiento. Lo primero es seleccionar la variable o atributo        son también llamadas instancias.
a partir de la cual se va a dividir la muestra de entrenamiento      • Un conjunto de pesos correspondientes a cada instancia.
original (nodo raíz), buscando que en los subconjuntos gen-
erados haya una mínima variabilidad respecto a la clase. Este                           III. M OTIVACIÓN
proceso es recursivo, es decir, una vez que se haya determinado      La creciente demanda de usuarios de correo electrónico y
la variable con la que se obtiene la mayor homogeneidad           el envio masivo de estos por parte de las empresas me motiva
respecto a la clase en los nodos hijo, se vuelve a realizar       para realizar esta investigación, ya que es posible aplicar la
el análisis para cada uno de los nodos hijos. Aunque en el        Inteligenciar Artificial, especificamente las técnicas de apren-
límite este proceso se detendría cuando todos los nodos hojas     dizaje automático para mitigar este problema. Cabe indicar,
contuvieran casos de una misma clase, no siempre se desea         que la clasificación de correos electrónicos no siempre tendrá
llegar a este extremo, para lo cual se implementan métodos        una precisión del 100% y por esta razón los clasificadores de
de prepoda y post-poda de los árboles.                            correo electrónico que existen en la actualidad en la mayor
   El algoritmo J48 amplia las funcionalidades del C4.5, tales    parte de los clientes de correo electrónico como hotmail,
como permitir la realización del proceso de post-poda del         yahoo, etc., estan siempre sujetos a errores y a clasificar
árbol mediante un método basado en la reducción del error         correos legítimos como no desaeados o viceversa.
(reducedErrorPruning) o que las divisiones sobre las vari-
ables discretas sean siempre binarias (binarySplits). Algunas                    IV. T RABAJOS R ELACIONADOS
propiedades concretas de la implementación son las siguientes:
                                                                     A continuación se presentan algunas investigaciones rela-
   • Admite atributos simbólicos y numéricos, aunque la clase
                                                                  cionadas con este articulo. Cabe indicar que en algunos
      debe ser simbólica.                                         trabajos se proponen distintas técnicas de clasificación para
   • Se permiten ejemplos con valores desconocidos.
                                                                  el problema del correo electrónico no deseado.
   • El criterio de división está basado en la entropía y la
                                                                     1) [5] En este artículo se propone encontrar un metodo de
      ganancia de información.
                                                                        filtrado de spam eficiente usando una ontología adapta-
                                                                        tiva. Además se hacen comparaciones de la clasificación
E. Clasificador IBk                                                      de emails utilizando redes neuronales, máquinas de vec-
   En weka algoritmo IBk es el algoritmo KNN basado en                  tor soporte, el clasificador de naive bayes y finalmente
el algoritmo del vecino más cercano. KNN es un método                   el clasificador J48. A continuación los cuatro métodos
de clasificación supervisada, que es utilizado para estimar la           de clasificación fueron evaluados en diferentes datasets
función de densidad F (x|Cj )de las predictoras xpor cada               con diferentes atributos. Finalmente el mejor método
clase Cj . Por medio de esta regla, la clase asignada a un              de clasificación se obtuvo de los conjuntos de datos
nuevo caso x será la clae más votada entre los K vecinos más            de entrenameitno. 4500 emails fueron usados como
próximos del conjunto de entrenamiento. Como se menciona                entrenamiento, de los cuales el 38.1% del dataset son
en [4] la principal ventaja de la regla KNN con respecto a la           spam y el 61.9% son correo legitimo.
regla NN radica en que, al utilizar varios vecinos en lugar de       2) [6] En este artículo se trata el problema del aprendizaje
uno sólo para la clasificación de un nuevo caso, se aprovecha            para la clasificación de textos, explotando la información
de una forma más eficiente la información que se puede extraer           derivada a través de datos de entrenamiento y pruebas.
del conjunto de entrenamiento.                                          Para realizar esto se utiliza clustering como un paso para
                                                                        la clasificación y que es aplicada para el conjunto de
                                                                        entreamiento y el conjunto de pruebas.
F. Clasificador ADTree                                                3) [7] En este articulo se sugiere soluciones para la uti-
   ADTree (Alternating Decision Tree) que significa árbol de             lización de técnicas automatizadas de clasificación para
decisión alternativo; es un método de aprendizaje automático            filtrar el correo electrónico personal. Además también
utilizado para clasificación. Las estructuras de datos y el              se presenta un sistema de filtrado llamado “ifile”, que es
algoritmo son una generalización de los árboles de decisión.            efectivo y eficiente, y el cual ha sido adaptado para ser
   ADTree consiste en nodos de decisión y predicción. Nodos             utilizado por un popular cliente de correo electrónico.
de Decisión especifican una condición determinante. Nodos de             Además se presentan los resultados de una serie de
predicción contienen un número único. Los árboles de decisión           experimentos y de esta manera demostrar que un sistema
alterna siempre tienen nodos de predicción como las raices              de filtrado como “ifile” podria convertirse en una parte
y hojas. Una instancia se clasifica por un ADTree siguiendo              útil y valioso de cualquier cliente de correo electrónico.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                            4



  4) [8] En este articulo se propone una estrategia de gráfico           alphanumeric characters bounded by non-alphanumeric
     basado en la minería para la clasificación de correo                characters or end-of-string.
     electrónico. El enfoque de este articulo se basa en que         • 6     continuous real [0,100] attributes of type
     se pueden extraer patrones recurrentes de una carpeta              char_freq_CHAR = percentage of characters in the
     de correos pre-clasificados y los mismos pueden ser                 e-mail that match CHAR, i.e. 100 * (number of CHAR
     usados efectivamente para clasificar los mensajes de                occurences) / total characters in e-mail.
     correo entrantes. Además se compará este enfoque con            • 1 continuous real [1,...] attribute of type capi-
     el clasificador de Naive Bayes.                                     tal_run_length_average = average length of uninterrupted
  5) [9] En este articulo se investiga la actuación de dos              sequences of capital letters.
     algoritmos de aprendizaje automático en el contexto de          • 1 continuous integer [1,...] attribute of type capi-
     filtrado antispam. Los algoritmos de clasificación uti-              tal_run_length_longest = length of longest uninterrupted
     lizados para la investigación son el de Naive Bayes para           sequence of capital letters.
     calcular la probabilidad de que un email se clasifique           • 1 continuous integer [1,...] attribute of type capi-
     como legitimo o spam y un algoritmo de clasificación                tal_run_length_total = sum of length of uninterrupted
     basado en memoria, en el cual la caracteristica principal          sequences of capital letters = total number of capital
     es que almacena todas las instancias de entrenamiento              letters in the e-mail.
     en una estructura de memoria y se la utiliza directamente       • 1 nominal {0,1} class attribute of type spam = denotes
     para la clasificación.                                              whether the e-mail was considered spam (1) or not (0),
  6) [14] En este articulo se investiga la aplicación de los            i.e. unsolicited commercial e-mail.
     algoritmos de clasificación de aprendizaje automático,        A continuación se presenta una muestra de 10 instancias del
     en especial el clasificador Niave Bayes aplicados a           conjunto de datos que servirá para realizar el entrenamiento del
     los filtradores de spam. Además se propone aplicar            clasificador. De las cuales cinco son clasificadas como spam
     un clasificador de texto utilizando Naive Bayes como          (1) y cinco como correo legítimo (0).
     clasificador, para clasificar un conjunto de datos de             @data
     prueba real.                                                    0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,
                                                                     0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                   V. A PORTE PERSONAL                               0,0,0,0.778,0,0,3.756,61,278,1
                                                                     0.21,0.28,0.5,0,0.14,0.28,0.21,0.07,0,0.94,0.21,0.79,0.65,
   Como aporte personal y con relación a los trabajos rela-          0.21,0.14,0.14,0.07,0.28,3.47,0,1.59,0,0.43,0.43,0,0,0,0,0,
cionados, yo propongo en este articulo hacer un estudio de las       0,0,0,0,0,0,0,0.07,0,0,0,0,0,0,0,0,0,0,0,0,0.132,0,0.372,0.18,
técnicas de clasificación especificamente el clasificador naive         0.048,5.114,101,1028,1
bayes aplicado al filtrado de correo electrónico. Además de           0.06,0,0.71,0,1.23,0.19,0.19,0.12,0.64,0.25,0.38,0.45,0.12,
construir un pequeño agente clasificador de correo electrónico,       0,1.75,0.06,0.06,1.03,1.36,0.32,0.51,0,1.16,0.06,0,0,0,0,0,
el cual podría ayudar a mitigar en gran medida este problema y       0,0,0,0,0,0,0,0,0,0,0.06,0,0,0.12,0,0.06,0.06,0,0,0.01,0.143,
compararlo con otras técnicas de clasificación para demostrar         0,0.276,0.184,0.01,9.821,485,2259,1
su efectividad.                                                      0,0,0,0,0.63,0,0.31,0.63,0.31,0.63,0.31,0.31,0.31,0,0,0.31,
                                                                     0,0,3.18,0,0.31,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                    VI. M ETODOLOGÍA                                 0,0,0,0,0,0.137,0,0.137,0,0,3.537,40,191,1
                                                                     0,0,0,0,0.63,0,0.31,0.63,0.31,0.63,0.31,0.31,0.31,0,0,0.31,
   Como metodologia, se ha desarrollado un sistema clasifi-           0,0,3.18,0,0.31,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
cador de correo electrónico utilizando como lenguaje de pro-         0,0,0,0,0,0.135,0,0.135,0,0,3.537,40,191,1
gramación Java y las librerias de Weka para hacer el respectivo      0.23,0,0.46,0,0,0,0,0.23,0,0.23,0,0,0,0,0,0,0,0,3.69,0,0.69,
análisis. Como dice en [13]; WEKA es una colección de                0,0,0,1.84,0.23,0,0,0,0.23,0,0,0,0,0,0,0.23,0,0,0,0,0,0,0,0,0,
algortimos de aprendizaje automático para tareas de mineria          0,0,0,0.253,0,0,0.031,0,2.016,19,244,0
de datos. Como base de entrenamiento se utilizo un dataset           0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,9.52,4.76,4.76,
o conjunto de datos público llamado spambase. Spambase es            4.76,4.76,4.76,4.76,4.76,0,4.76,4.76,4.76,0,0,0,4.76,0,0,0,0,
un dataset que contiene un número de 4601 instancias, de las         0,0,0,0,0,1.257,0,0,0,0,3.333,11,30,0
cuales el 39.4% esta clasificada como spam. Además cuenta             0,0,0,0,0,0,0,0,0,0,0,0.33,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
con un número de 58 atributos, de los cuales 57 son continuos        0.11,0,0,0.22,0,0,0.33,0.11,0,0,0,0,0.11,0,0,0,0,0,0,0.053,
y 1 es nominal y representa la clasificación de la clase, en la       0.16,0,0,0,0,2.367,24,651,0
cual 1 representa spam y 0 como no spam. A continuación se           0.23,0,0.23,0,1.17,0,0,0,0,0,0,1.41,0,0,0,0,0.11,0,0.47,0,0.7,
muestra la definición de los atributos como estan en el archivo       0,0.11,0,1.29,0.11,0,0,0.11,0.23,0,0,0,0,0,0,0.11,0,0,0,0,0.11,
original del DataSet:                                                0,0,0.23,0,0,0,0,0.015,0,0,0,0.015,1.486,7,162,0
   • 48    continuous real [0,100] attributes of type                0,0.51,0,0,1.02,0,0,0.51,0,0,0,0,0,0,0,0.51,0.51,0,0.51,0,0,0,
     word_freq_WORD = percentage of words in the e-                  0,0,0,0,0,0,0,0,0,0,0,0,0,0.51,0,0,0,0.51,0,0,0,0.51,0,0,0,0,0,
     mail that match WORD, i.e. 100 * (number of times               0.071,0,0,0,0,2.076,9,108,0
     the WORD appears in the e-mail) / total number of               Para realizar todo el proceso de clasificación, se ha realizado
     words in e-mail. A "word" in this case is any string of      un sistema clasificador de correos electrónicos. El sistema esta
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                            5



desarrollado bajo la plataforma Java, utilizando las librerias de      0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,
weka para el proceso de entrenamiento y testeo del conjunto            0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
de datos o dataset.                                                    0.75,0.6,0,0,0,0,0.93,0,0,0,0,0,0,1.25,0,0,0.778,
  En la figura 2 se muestra la pantalla principal del sistema           0,0,3.756,61,278,?
para realizar el proceso de clasificación.                              0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,
                                                                       1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1.45,
                                                                       0,0,0.69,0,0.93,0,0,0,0,0,0,1.25,0,0,0.778,0,0,
                                                                       3.756,61,278,?
                                                                       0,0,2.56,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.12,0,0,0,
                                                                       0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0.308,0,1.543,0,0,2.777,6,25,?
                                                                       0,0,0,0,0,0,0,0,0,0,0,0.89,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0,0,0,0,0,0,0,0,0,0,0.89,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0,0,0,0,1.583,8,38,?
                                                                       0,0,0,0,0,0,0,0,0,4.34,0,2.17,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0,0,0,1,1,7,?
                                                                       0,0,0.23,0,0.46,0,0,0,0.23,0,0,0,0,1.39,0,0,0.23,0,
                                                                       0,0,0.69,0,0,0,0.46,0,0,0,0,0,0,0,0,0,0,0,0.23,0,0,
                                                                       0,0,1.86,0,0,0,0,0,0,0,0.113,0,0.09,0,0.203,2.43,
                                                                       121,666,?
                                                                       0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       20,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,0,0,1,1,5,?
                                                                       0,0,0.65,0,0,0,0,0,0,0,0,0,0.65,0,0,0,0,0,4.6,0,
                                                                       0.65,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
                                                                       0,1.97,0.65,0,0,0,0,0,0.125,0,0,1.25,5,40,?
                                                                       Como se puede ver en el conjunto de datos de prueba; al
                                                                    final de cada instancia se pone un signo de interrogación ”?”.
Figure 2.   Sistema Clasificador de Correos electrónicos             Esto se lo realiza debido a que no sabemos la clase a la que
                                                                    pertenece cada instancia. El sistema es el encargado de sobree-
   Para realizar la clasificación, primeramente se debe cargar       scribir el archivo y añadir el ultimo valor según corresponda a
un archivo que contiene el conjunto de datos. Esto se lo            la clase. 1 para las instancias que son clasificadas como spam,
puede hacer haciendo click en el boton “Cargar” del agente          0 para las instancias clasificadas como correo legítmo.
clasificador. Luego de ello se activará el boton “ENTRE-
NAMIENTO”. Al hacer click en dicho botón, el sistema                                         VII. R ESULTADOS
comenzara a construir el modelo de clasificación y arroja los
resultados en el cuadro de texto “Resultado de Entrenamiento”.         Luego de realizar el entrenamiento del clasificador con el
Una vez finalizado el entrenamiento podremos seleccionar un          conjunto de datos ”spambase.arff”, se obtienen los siguientes
conjunto de instancias para clasificarlas ya sea como correo         resultados como se muestra en la Figura 3.
electrónico legítimo o correo electrónico no deseado. Para ello
debemos hacer click en el boton “Cargar” del cuadro de texto
“Cargar datos de prueba”, luego se activará el boton “TEST”.
Hacemos click en el boton “TEST” y el sistema comenzara
a clasificar segun correspondan cada una de las instancias del
archivo de pruebas. Finalmente los resultados son arrojados
en el cuadro de texto “Resultado de Test”.
   A continuación presentamos una muestra de diez instancias
del conjunto de datos de prueba que serán clasificadas por el
sistema.
   @data
   0,0,0.65,0,0,0,0,0,0,0,0,0,0.65,0,0,0,0,0,4.6,0,
   0.65,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
   0,1.97,0.65,0,0,0,0,0,0.125,0,0,1.25,5,40,?
   0,0,0,3.7,3.7,0,0,0,0,0,3.7,0,0,0,0,0,0,0,3.7,0,
   1.88,0,0,1.88,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
   0,0,1.88,0,0,0,0,0,0,0,0,0,0,12,7,12,?                           Figure 3.   Resultado del entrenamiento
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                                               6



   Como se mencionó antes, el entrenamiento del sistema se
lo realizó con un conjunto de 4601 instancias, de las cuales el
79.52% (3659) son clasificadas correctamente, mientras que
el 20.47% (942) son clasificadas incorrectamente. Esto se
lo puede constatar con la matriz de confusión, la cual nos
dice que los elementos que componen la diagonal principal
son aquellos que han sido clasificados correctamente, y los
que componen la diagonal secundaria son aquellos que han
sido clasificados incorrectamente. Esto se debe a que algunas
instancias no cumplen con los requerimiento para poder ser
clasificadas como tales.
   A continuación se muestran los resultados de cada uno de
los algorimtos estudiados en este artículo aplicados al conjunto
de pruebas ”spambasetest.arff” que contiene un total de 34
instancias.
  •   Resultado con el Algoritmo de Clasificación Naive Bayes
      Figura 4.




                                                                            Figure 5.   Resultado de test del conjunto de datos ”spambasetest.arff” con
                                                                            J48



                                                                               Como se puede observar el resultado de la clasificación al
                                                                            conjunto de pruebas, el 64.70% de las instancias han sido
                                                                            clasificadas correctamente, mientras que el 35.29% de las
                                                                            instancias han sido clasificadas incorrectamente. Se puede
                                                                            observar también en la matriz de confusión que 16 instancias
                                                                            han sido clasificadas como spam y tan solo 6 han sido
                                                                            clasificadas como correo legítimo.
                                                                              •   Resultado con el Algoritmo de Clasificación IBk Figura
                                                                                  6.




Figure 4. Resultado de test del conjunto de datos ”spambasetest.arff” con
Naive Bayes


   Como se puede observar el resultado de la clasificación
al conjunto de pruebas, el 100% de las instancias han sido
clasificadas correctamente, de las cuales 22 de ellas son
clasificadas como 1 o spam y 12 son clasificadas como correo
legítimo.
  •   Resultado con el algoritmo de Clasificación J48 Figura                 Figure 6.   Resultado de test del conjunto de datos ”spambasetest.arff” con
      5.                                                                    IBk
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                                                                                                   7



   Como se puede observar el resultado de la clasificación al                  que son enviados por compañias con propagandas de sus
conjunto de pruebas, el 79.41% de las instancias han sido                     productos se lo puede mitigar en un gran porcentaje. Como
clasificadas correctamente, mientras que el 20.58% de las                      se puede ver el algoritmo de Naive bayes tiene una alta tasa
instancias han sido clasificadas incorrectamente. Se puede                     de efectividada pero tambien tiene algunos errores, ya que
observar también en la matriz de confusión que 18 instancias                  algunas instancias que debian ser clasificadas como spam o
han sido clasificadas como spam, mientras que 9 instancias                     no spam fueron clasificadas erroneamente. Es por esta razón
han sido clasificadas como correo legítimo.                                    que los clientes de correo electrónico siempre estan sujetos
   • Resultado con el Algoritmo de clasificación ADTree                        a errores, por lo cual siempre se debe revisar la bandeja de
     Figura 7.                                                                correos spam ya que pueden haber correos que deben ser
                                                                              legitimos clasificados como spam.
                                                                                 Este estudio de las técnicas de clasificación orientadas al
                                                                              problema del correo electrónco nos ha ayudado a comprender
                                                                              como trabajan los algoritmos de clasificación, que tasa de
                                                                              aciertos y errores se puede encontrar en este proceso.
                                                                                 Especialemente el algoritmo de clasificación Naive Bayes
                                                                              ha demostrado tener un poco mas de exactitud al clasificar
                                                                              nuevas instancias, ya que este algoritmo a mayor número de
                                                                              instancias es mas eficiente.

                                                                                                           R EFERENCES
                                                                               [1] Concha Bielza, Pedro Larrañaga. Construcción de un filtro anti-spam.
                                                                                   Departamento de Inteligencia Artificial. Universidad Politécnica de
                                                                                   Madrid.
                                                                               [2] José R Méndez, Florentino Fdez-Riverola, Fernando Díaz, Juan M.
                                                                                   Corchado. Sistemas Inteligentes para la detección y filtrado de correo
                                                                                   spam: una revisión. Universidad Autonoma del estado de Mexico.
                                                                               [3] J. J. Gonzáles Cid, J.R. Méndez Reboredo F. Fdez-Riverola. Modelos
                                                                                   Anti-Spam de Inteligencia Artificial. Escuela Superior de Ingenieria
                                                                                   Informática. Edificio Politécnico. Campus Universitario, As Logoas s/n,
                                                                                   32004, Ourense.
                                                                               [4] Basilio Sierra Araujo. Aprendizaje Automático: Conceptos básicos y
                                                                                   avanzados. Aspectos Básicos utilizando el software Weka. Departamento
Figure 7.   Resultado de test del conjunto de datos ”spambasetest.arff” con        de Ciencias de la Computación e Inteligencia Artificial. Universidad del
ADTree                                                                             País Vasco.
                                                                               [5] Seongwook Youn, Dennis McLeod. Spam Email Classification using an
                                                                                   Adaptative Ontology. Department of Computer Science. University of
   Como se puede observar el resultado de la clasificación al                       Southern California. Los Angeles, CA. USA.
conjunto de pruebas, el 82.35% de las instancias han sido                      [6] Antonia Kyriakopoulou, Theodore Kalamboukis. Text Classification
clasificadas correctamente, mientras que el 17.64% de las                           Using Clustering. Department of Informatics, Athens University of
                                                                                   Economics and Business. 76 Patission St., Athens, GR 104.34.
instancias han sido clasificadas incorrectamente. Se puede                      [7] Jason D. M. Rennie. ifile: An Application of Machine Learning to E-
observar también en la matriz de confusión que 16 instancias                       Mail Filtering. Artificial Intelligence Lab. Massachusetts Institute of
han sido clasificadas como spam, mientras que 12 instancias                         Technology. Cambridge, MA 02139.
                                                                               [8] Manu Aery, Sharma Chakravarthy. eMailSift: Adapting Graph Mining
han sido clasificadas como correo legítimo.                                         Techniques for Email Classification. IT Laboratory and CSE Depart-
   A continuación se muestra una tabla comparativa del algo-                       ment. The University of Texas at Arlington.
ritmo de clasificación Naive Bayes que se ha aplicado para                      [9] Ion Androutsopoulos, Georgios Paliouras, Vangelis Karkaletsis, Geor-
                                                                                   gios Sakkis, Constantine D. Spyropoulos, Panagiotis Stamatopoulos.
la clasificación del correo electrónico no desaedo con otros                        Learning to Filter Spam E-Mail: A Comparision of a Naive Bayesian
algoritmos de clasificación. Las pruebas son realizadas en un                       and a Memory-Based Approach. Department of Informatics, University
dataset que contiene 32 instancias y 58 atributos.                                 of Athens. TYPA Buildings, Panepistimiopolis, 157 71 Athens, Greece.
                                                                              [10] Yang Song, Aleksander Kolcz, C. Lee Giles. Better Naive Bayes clas-
                                                                                   sification for high-precision spam detection. Department of Computer
 Algoritmo de Clasificación     % Correctos     % Incorrectos                       Science and Engineering. The Pennsylvania State University, University
        Naive Bayes               100               0                              Park, PA 16802, U.S.A.
            J48                  64.70            35.29                       [11] Óscar J. Prieto, Juan José Rodriguez, Carlos J. Alonso, Esteban Gelso.
            IBk                  79.41            20.58                            Clasificador Bayesiano Naive en la Identificación de Fallos en Procesos
          ADTree                 82.35            17.64                            Continuos. Grupo de Sistemas Inteligentes. Departamento de Infor-
                                                                                   mática, Universidad de Valladolid, Spain. Universidad de Burgos, Spain.
                            Table I                                                Facultado de Ingenieria, Universidad Nacional del Centro de la Provincia
    TABLA DE C OMPARACIÓN DE A LGORITMOS DE C LASIFIFICACIÓN                       de Buenos Aires, Olavarría, Argentina.
                                                                              [12] Mitchell, Tom, “Machine Learning”, Ed. MacGraw-Hill, 1997.
                                                                              [13] Ravi Kiran S. S, Indriyati Atmosukarto. Spam or Not Spam - That is
                                                                                   the question.
                                                                              [14] Aris Kosmopoulos, Georgios Paliouras, Ion Androutsopoulos. Adapta-
                       VIII. C ONCLUSIONES                                         tive Spam Filtering Using Only Naive Bayes Text Classifiers. Institute
                                                                                   of Informatics and Telecomunications, N.C.S.R “Demokritos” Athens,
  Los algoritmos de clasificación evaluados en la tabla 1,                          Greece and Department of Informatics Athens University and Business,
demuestran que el problema del correo electrónico no deseado                       Athens, Greec.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA                                     8



[15] Rich Caruana, Alexandru Niculescu-Mizil. An Empirical Comparision
     of Supervised Learning Algorithms. Department of Computer Science,
     Cornell University, Ithaca, NY 14853 USA.
[16] Heckerman, D., Geiger D., and Chickering, D. Learning Bayesian Net-
     works: The Combination of Knowledge and Statistical Data. Machine
     Learning, 20, 197-243. 1995

Mais conteúdo relacionado

Destaque

Lección 3. Leer un archivo CSV en R
Lección 3. Leer un archivo CSV en RLección 3. Leer un archivo CSV en R
Lección 3. Leer un archivo CSV en RCarlos Pérez Lara
 
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...ALONSO UCHIHA
 
Basura que pasa con ella en temuco
Basura que pasa con ella en temucoBasura que pasa con ella en temuco
Basura que pasa con ella en temucoFernando Zuñiga
 
Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Cristina
 
Mi primer blogger!
Mi primer blogger!Mi primer blogger!
Mi primer blogger!whitebaldman
 
Presentación proyectos
Presentación proyectosPresentación proyectos
Presentación proyectosJordi Hinojosa
 
Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Cristina
 
Lecturas verano 2013
Lecturas verano 2013Lecturas verano 2013
Lecturas verano 2013coleballobar
 
Las Telecomunicaciones En El Ecuador
Las Telecomunicaciones En El EcuadorLas Telecomunicaciones En El Ecuador
Las Telecomunicaciones En El EcuadorKarina Guerrero
 
Como Agregar Y Editar Un Texto
Como Agregar Y Editar Un TextoComo Agregar Y Editar Un Texto
Como Agregar Y Editar Un Textoyjgc
 
Conceptos básicos de tv
Conceptos básicos de tvConceptos básicos de tv
Conceptos básicos de tvflotraibel
 
Traballo bioloxía e xeoloxía3º eso
Traballo  bioloxía e xeoloxía3º esoTraballo  bioloxía e xeoloxía3º eso
Traballo bioloxía e xeoloxía3º esoCristina
 
BetterBedNow_PatentDrwgs_OP
BetterBedNow_PatentDrwgs_OPBetterBedNow_PatentDrwgs_OP
BetterBedNow_PatentDrwgs_OPMike Castillo
 
Com elaborem els cursos semipresencials a l'EAPC
Com elaborem els cursos semipresencials a l'EAPCCom elaborem els cursos semipresencials a l'EAPC
Com elaborem els cursos semipresencials a l'EAPCmartaclar
 
Brand Maker Web Seminar Evaluation 9 Juni 2009
Brand Maker Web Seminar Evaluation  9 Juni 2009Brand Maker Web Seminar Evaluation  9 Juni 2009
Brand Maker Web Seminar Evaluation 9 Juni 2009Michael Leander
 
El Aprendizaje Basado En Problemas 1
El Aprendizaje Basado En Problemas 1El Aprendizaje Basado En Problemas 1
El Aprendizaje Basado En Problemas 1guest1f62dba
 

Destaque (20)

Lección 3. Leer un archivo CSV en R
Lección 3. Leer un archivo CSV en RLección 3. Leer un archivo CSV en R
Lección 3. Leer un archivo CSV en R
 
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
SIMULACION DE ARBOLES DE CLASIFICACION (ID3,J48) PARA ASIGNACION DE CREDITOS ...
 
Basura que pasa con ella en temuco
Basura que pasa con ella en temucoBasura que pasa con ella en temuco
Basura que pasa con ella en temuco
 
Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012
 
Mi primer blogger!
Mi primer blogger!Mi primer blogger!
Mi primer blogger!
 
Atzenhain
AtzenhainAtzenhain
Atzenhain
 
Presentación proyectos
Presentación proyectosPresentación proyectos
Presentación proyectos
 
Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012Trabajo verano fyq 3º eso 2012
Trabajo verano fyq 3º eso 2012
 
Lecturas verano 2013
Lecturas verano 2013Lecturas verano 2013
Lecturas verano 2013
 
Las Telecomunicaciones En El Ecuador
Las Telecomunicaciones En El EcuadorLas Telecomunicaciones En El Ecuador
Las Telecomunicaciones En El Ecuador
 
Como Agregar Y Editar Un Texto
Como Agregar Y Editar Un TextoComo Agregar Y Editar Un Texto
Como Agregar Y Editar Un Texto
 
Conceptos básicos de tv
Conceptos básicos de tvConceptos básicos de tv
Conceptos básicos de tv
 
deportes
deportesdeportes
deportes
 
Traballo bioloxía e xeoloxía3º eso
Traballo  bioloxía e xeoloxía3º esoTraballo  bioloxía e xeoloxía3º eso
Traballo bioloxía e xeoloxía3º eso
 
BetterBedNow_PatentDrwgs_OP
BetterBedNow_PatentDrwgs_OPBetterBedNow_PatentDrwgs_OP
BetterBedNow_PatentDrwgs_OP
 
Com elaborem els cursos semipresencials a l'EAPC
Com elaborem els cursos semipresencials a l'EAPCCom elaborem els cursos semipresencials a l'EAPC
Com elaborem els cursos semipresencials a l'EAPC
 
E-Portfolio Tagung Bern
E-Portfolio Tagung BernE-Portfolio Tagung Bern
E-Portfolio Tagung Bern
 
Brand Maker Web Seminar Evaluation 9 Juni 2009
Brand Maker Web Seminar Evaluation  9 Juni 2009Brand Maker Web Seminar Evaluation  9 Juni 2009
Brand Maker Web Seminar Evaluation 9 Juni 2009
 
El Aprendizaje Basado En Problemas 1
El Aprendizaje Basado En Problemas 1El Aprendizaje Basado En Problemas 1
El Aprendizaje Basado En Problemas 1
 
Competencias
CompetenciasCompetencias
Competencias
 

Semelhante a Clasificador Naive Bayes para Filtrar Correo Electrónico

PresentacióN Bayes09
PresentacióN Bayes09PresentacióN Bayes09
PresentacióN Bayes09damarisorci
 
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Francisco Berrizbeitia
 
Aplicación del modelo mew holman
Aplicación del modelo mew  holmanAplicación del modelo mew  holman
Aplicación del modelo mew holmanholmancastellanos2
 
49949045 los-paradigmas-de-la-programacion
49949045 los-paradigmas-de-la-programacion49949045 los-paradigmas-de-la-programacion
49949045 los-paradigmas-de-la-programacionIvan Moreno
 
Tratamiento De Datos Gum Ppp 2008
Tratamiento De Datos Gum Ppp 2008Tratamiento De Datos Gum Ppp 2008
Tratamiento De Datos Gum Ppp 2008Zuniga Agustin
 
Evaluacion a través de internet
Evaluacion a través de internetEvaluacion a través de internet
Evaluacion a través de internetVero Pailiacho
 
Uso de software libres con herramientas ofimáticas
Uso de software libres con herramientas ofimáticas Uso de software libres con herramientas ofimáticas
Uso de software libres con herramientas ofimáticas CarolinaGaona9
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaAnahiXool
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaRoss Vazquez
 
La Computadora como Recurso Didáctico
La Computadora como Recurso DidácticoLa Computadora como Recurso Didáctico
La Computadora como Recurso DidácticoWalter Toledo
 
El correo electrónico
El correo electrónico El correo electrónico
El correo electrónico Isac Masis
 
Recursos abiertos en línea. tecnol.2016
Recursos abiertos en línea. tecnol.2016Recursos abiertos en línea. tecnol.2016
Recursos abiertos en línea. tecnol.2016nowa martinz
 
Pensamiento computacional grupal
Pensamiento computacional grupalPensamiento computacional grupal
Pensamiento computacional grupaldianacguallichico
 
Pensamiento computacional
Pensamiento computacional Pensamiento computacional
Pensamiento computacional FrankBastidas3
 

Semelhante a Clasificador Naive Bayes para Filtrar Correo Electrónico (20)

CORREOS ELECTRONICOS, TALLER
CORREOS ELECTRONICOS, TALLERCORREOS ELECTRONICOS, TALLER
CORREOS ELECTRONICOS, TALLER
 
PRESENTACIN
PRESENTACINPRESENTACIN
PRESENTACIN
 
PresentacióN Bayes09
PresentacióN Bayes09PresentacióN Bayes09
PresentacióN Bayes09
 
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
 
Aplicación del modelo mew holman
Aplicación del modelo mew  holmanAplicación del modelo mew  holman
Aplicación del modelo mew holman
 
49949045 los-paradigmas-de-la-programacion
49949045 los-paradigmas-de-la-programacion49949045 los-paradigmas-de-la-programacion
49949045 los-paradigmas-de-la-programacion
 
Paper de iaa
Paper de iaaPaper de iaa
Paper de iaa
 
Tratamiento De Datos Gum Ppp 2008
Tratamiento De Datos Gum Ppp 2008Tratamiento De Datos Gum Ppp 2008
Tratamiento De Datos Gum Ppp 2008
 
Evaluacion a través de internet
Evaluacion a través de internetEvaluacion a través de internet
Evaluacion a través de internet
 
Uso de software libres con herramientas ofimáticas
Uso de software libres con herramientas ofimáticas Uso de software libres con herramientas ofimáticas
Uso de software libres con herramientas ofimáticas
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregida
 
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregidaInformatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregida
 
La Computadora como Recurso Didáctico
La Computadora como Recurso DidácticoLa Computadora como Recurso Didáctico
La Computadora como Recurso Didáctico
 
El correo electrónico
El correo electrónico El correo electrónico
El correo electrónico
 
Guia # 1 email
Guia # 1 emailGuia # 1 email
Guia # 1 email
 
Recursos abiertos en línea. tecnol.2016
Recursos abiertos en línea. tecnol.2016Recursos abiertos en línea. tecnol.2016
Recursos abiertos en línea. tecnol.2016
 
El Comput..
El Comput..El Comput..
El Comput..
 
Pensamiento computacional grupal
Pensamiento computacional grupalPensamiento computacional grupal
Pensamiento computacional grupal
 
Pensamiento computacional
Pensamiento computacional Pensamiento computacional
Pensamiento computacional
 
Clasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a ConceptosClasificadores Bayesianos: De datos a Conceptos
Clasificadores Bayesianos: De datos a Conceptos
 

Último

Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 

Último (15)

Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 

Clasificador Naive Bayes para Filtrar Correo Electrónico

  • 1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 1 Algoritmos de Clasificación: Comparación del Algoritmo Naive Bayes con Otras Metodologías Para la Clasificación de Correo Electrónico No Deseado Pablo Antonio Alvarado Ruiz paalvarador@gmail.com Abstract—En la actualidad el correo electrónico se ha conver- Esto es muy perjudicial para los usuarios, ya que sus buzones tido en una de las herramientas mas importantes y utilizadas de entrada comienzan a llenarse de información que ellos no para enviar y recibir información, tanto para las empresas como han solicitado y pierden mucho tiempo en tratar de identificar para los usuario comunes. Lamentablemente al correo electrónico también se lo ha utilizado para enviar información que no es si los correos que les llegan son legitimos o correo spam. del interes de muchos usuarios, información que es conocida Por esta razón dentro del campo de la Inteligencia Artificial, como correo basura o correo electrónico no deseado. Es por se han tomado medidas para poder analizar dicho contenido esto, que en este artículo se presenta una introducción a lo que de los mensajes aplicando técnicas de aprendizaje automático se conoce como correo electrónico no deseado y algunos conceptos y de esta manera clasificarlos como correo legítimo o correo de aprendizaje automático, además se presenta las técnicas que han sido aplicadas en el campo de la inteligencia artificial para no deseado. evitar el problema del correo electrónico no deseado. También Para solucionar el problema del correo electrónico no de- se propone una solución utilizando el clasificador Naive Bayes, seado se pueden utilizar una gran variedad de algoritmos de y se presenta una comparación con las demás técnicas. Además clasificación. Como se menciona en [15], los algoritmos de se presentan algunos trabajos relacionados que han ayudado a aprendizaje son usados en numerosos ambitos y las métricas la clasificación del correo electrónico para diferenciar el correo electrónico legítimo del correo electrónico no deseado. de rendimiento son apropiadas para cada dominio. En esta investigación se utilizará el algoritmo de clasificación Naive Index Terms—Red Bayesiana, Aprendizaje Automático, Spam, Bayes que esta enmarcado dentro de los metodos bayesianos. Clasificador Naive Bayes, Clasificador J48, Clasificador IBk, Los métodos bayesianos son de gran importancia porque Clasificador ADTree no solamente ofrecen un análisis cualitativo de los atributos y valores que pueden intervenir en el problema, sino porque I. I NTRODUCCIÓN dan gran importancia al análisis cuantivativo de esos atributos. OMO se menciono, en la actualidad el correo electrónico Como se menciona en [12], entre las caracteristicas que poseen C se ha convertido en uno de los canales de comunicación más importantes tanto para las empresas como para los usuar- los métodos bayesianos en tareas de aprendizaje se pueden resaltar las siguientes ios comunes, y es por esto que es muy utilizado para el • Cada ejemplo observado va a modificar la probabilidad negocio electrónico publicitario. Como se dice en [1], el correo de que la hipótesis formulada sea correcta ya sea aumen- electrónico es un medio de comunicación eficiente y cada vez tandola o disminuyendola. Es decir, una hipótesis que no más popular. Al ser extremadamente económico y facil de concuerda con un conjunto de ejemplos más o menos enviar, es tambien un negocio para el comercio electronico. grande no es desechada por completo sino que lo que Por esta razón, la mayoria de empresas ha utilizado el correo harán será disminuir esa probabilidad estimada para la electrónico para enviar información de sus productos que hipótesis. • Estos métodos son robustos al posible ruido presentes en generalmente no es del interes de la mayoria de los usuarios. Esta información es conocida como correo electronico no los ejemplos de entrenamiento y a la posibilidad de tener deseado o spam. entre esos ejemplos de entrenamiento datos incompletos Como se dice en [2], spam es el termino que se emplea o posiblemente erróneos. • Los métodos bayesianos permiten tener en cuenta en comúnmente para designar el correo electrónico no solicitado que se envia a través de internet. La información que se envia la predicción de la hipótesis el conocimiento a priori através de este tipo de correo generalmente es para ofrecer o el conocimiento del dominio en forma de probabili- productos o promociones, además de contenido pornográfico. dades. El problema puede surgir al tener que estimar ese Como se menciona en [3], el contenido de un mensaje spam conocimiento estadístico sin disponer de datos suficientes. es variopinto, pero siempre dentro de los mismos márgenes: II. E STADO DEL ARTE ofertas de cualquier tipo de producto, ofertas para hacerse A. Redes Bayesiana ricos en poco tiempo, y sobre todo, conteido pornográfico. Las redes bayesianas formalemente son gráficos acíclicos Your name is with xyz Department. . . dirigidos, cuyos nodos representan variables y los arcos que
  • 2. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 2 los unen representan dependencias entre las variables. La conocimiento que es capaz de capturar esta información sobre estructura de una red Bayesiana provee información sobre las dependencias entre las variables son las redes bayesianas. las relaciones de dependencia e independencia condicional existentes entre las variables. Estas relaciones simplifican la C. Clasificador Naive Bayes representación de la función de probabilidad conjunta como El clasificador de Naive Bayes es un clasificador probabilís- el producto de las funciones de probabilidad condicional de tico basado en el teorema de Bayes. Desde la perspectiva del cada variable [16]. aprendizaje automático, el problema del correo electrónico no Por tanto, el proceso de estimación de una red Bayesiana deseado puede ser tratado como un problema de clasificación consiste de una etapa de aprendizaje estructural y una etapa binaria, es decir cuando el correo electrónico es clasificado de aprendizaje paramétrico[17]. La primera etapa consiste en como legítimo, es considerado como una instancia negativa (- obtener la estructura de una red y la segunda etapa consiste ) y cuando el correo eletrónico es clasificado como spam o no en estimar los parámetros de las funciones de probabilidad deseado, es considerado como una instancia positiva (+) [10]. condicional. A continuación se presenta el teorema de Bayes en la ecuación 1 [11]. B. Aprendizaje Automático P (D|h)P (h) El aprendizaje automático se refiere a la capacidad que se P (h|D) = (1) les da a las computadoras de poder resolver problemas por si P (D) solas y poder conseguir los mismos o mejores resultados que Donde: si lo haria un operador humano. Segun [4], para conseguir esto • P (h) es la probabilidad a priori de la hipotesis h. primero debemos ser capaces de indicarle al computador de • P (D)es la probabilidad de observar el conjunto de en- donde debe aprender, cual es el objetivo que tiene que cumplir, trenamiento D, cuando es usado para clasificar. y que tipo de resultado esperamos que nos ofrezca. Por lo • P (D|h) es la probabilidad de observar el conjunto de tanto esto nos lleva a decir que el aprendizaje automático es entrenamiento D en un universo donde se verifica la un proceso de inducción y deducción y el proceso se lo realiza hipótesis h. como se muestra en la figura 1. • P (h|D) es la probabilidad a posteriori de h, cuando se ha observado el conjunto de entrenamiento D. Se puede apreciar en la formulación del teorema que: • La probabilidad a posteriori de h, que en el caso del problema del correo electrónico seria la probabilidad de clasificar un nuevo correo como legítmo o spam, obser- vando el conjunto de entrenamiento D, es directamente proporcional a la probabilidad de que se de h (P (h)). • La probabilidad a posteriori de h es también directamente proporcional a la probabilidad de que se de el conjunto de entrenamiento D, siendo correcta (P (D|h)). El aprendizaje bayesiano puede verse como el proceso de encontrar la hipótesis más probable, dado un conjunto de ejemplos de entrenamiento D y un conocimiento a priori sobre la probabilidad de cada hipótesis [12]. En la ecuación 2 se muestra el cálculo de la hipótesis con mayor probabilidad a posteriori. Figure 1. Proceso de inducción y deducción. [4] P (D|h) P (h) Como podemos observar en la Figura 1, el primer paso hM AP = argmaxh H (2) P (D) a seguir dentro de este modelo es entrenar a la maquina En donde D son los datos de entrenamiento y h cada una mediante ejemplos y para esto se deben aplicar los algorit- de las hipótesis, en este caso correos electrónicos que se tiene mos de aprendizaje automático para obtener un modelo de que clasificar. El subindice MAP es el Maximo Posteriori. Es clasificación y optimización. Finalmente los nuevos casos, decir, se clasifica la instancia como aquella que tiene máxima son comparados con el modelo resultante y deacuerdo a eso probabilidad a posteriori. se los van clasificando en una categoria específica según Lamentablemente el cálculo de esta ecuación no se la puede corresponda. tomar para un número suficientemente grande de ejemplos, por Un aspecto importante en el aprendizaje inductivo es el de lo que es necesario simplificar la ecuación como se muestra obtener un modelo que represente el dominio de conocimiento en la ecuación 3. y que sea acceible para el usuario, en particular, resulta impor- tante obtener la información de dependencia entre las variables P (a1 , a2 , .....an |vj ) = Πi P (ai |vj ) (3) involucradas en el fenómeno, en los sistemas en donde se desea predecir el comportamiento de algunas variables de- Donde vj , son cada una de las clases que se queire clasificar sconocidas basados en otras conocidas; una representación del y ai son los valores de los datos con lo que se clasificará.
  • 3. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 3 D. Clasificador J48 todos los caminos para los cuales los nodos de decisión son El algoritmo J48, es una versión del algoritmo de árboles de verdaderos y sumando todos los nodos de predicción que se decisión C4.5. Los árboles de decisión estan ubicados dentro reconocen. Esto es diferente de los árboles de clasificación de los métodos de clasificación supervisada, es decir, se tiene binarios como CART o C4.5, en los cuales una instancia sigue una variable dependiente o clase, y el objetivo del clasificador solo un camino a través del árbol. es determinar el valor de dicha clase para casos nuevos. Las entradas para el algoritmo de decisión alterna son: El proceso de construcción del árbol comienza por el nodo • Un conjunto de entradas (x1 , y1 ) , ......, (xm , ym )donde raiz, el que tiene asociados todos los ejemplos o casos de xi es un vector de atributos y yi es -1 ó 1. Las entradas entrenamiento. Lo primero es seleccionar la variable o atributo son también llamadas instancias. a partir de la cual se va a dividir la muestra de entrenamiento • Un conjunto de pesos correspondientes a cada instancia. original (nodo raíz), buscando que en los subconjuntos gen- erados haya una mínima variabilidad respecto a la clase. Este III. M OTIVACIÓN proceso es recursivo, es decir, una vez que se haya determinado La creciente demanda de usuarios de correo electrónico y la variable con la que se obtiene la mayor homogeneidad el envio masivo de estos por parte de las empresas me motiva respecto a la clase en los nodos hijo, se vuelve a realizar para realizar esta investigación, ya que es posible aplicar la el análisis para cada uno de los nodos hijos. Aunque en el Inteligenciar Artificial, especificamente las técnicas de apren- límite este proceso se detendría cuando todos los nodos hojas dizaje automático para mitigar este problema. Cabe indicar, contuvieran casos de una misma clase, no siempre se desea que la clasificación de correos electrónicos no siempre tendrá llegar a este extremo, para lo cual se implementan métodos una precisión del 100% y por esta razón los clasificadores de de prepoda y post-poda de los árboles. correo electrónico que existen en la actualidad en la mayor El algoritmo J48 amplia las funcionalidades del C4.5, tales parte de los clientes de correo electrónico como hotmail, como permitir la realización del proceso de post-poda del yahoo, etc., estan siempre sujetos a errores y a clasificar árbol mediante un método basado en la reducción del error correos legítimos como no desaeados o viceversa. (reducedErrorPruning) o que las divisiones sobre las vari- ables discretas sean siempre binarias (binarySplits). Algunas IV. T RABAJOS R ELACIONADOS propiedades concretas de la implementación son las siguientes: A continuación se presentan algunas investigaciones rela- • Admite atributos simbólicos y numéricos, aunque la clase cionadas con este articulo. Cabe indicar que en algunos debe ser simbólica. trabajos se proponen distintas técnicas de clasificación para • Se permiten ejemplos con valores desconocidos. el problema del correo electrónico no deseado. • El criterio de división está basado en la entropía y la 1) [5] En este artículo se propone encontrar un metodo de ganancia de información. filtrado de spam eficiente usando una ontología adapta- tiva. Además se hacen comparaciones de la clasificación E. Clasificador IBk de emails utilizando redes neuronales, máquinas de vec- En weka algoritmo IBk es el algoritmo KNN basado en tor soporte, el clasificador de naive bayes y finalmente el algoritmo del vecino más cercano. KNN es un método el clasificador J48. A continuación los cuatro métodos de clasificación supervisada, que es utilizado para estimar la de clasificación fueron evaluados en diferentes datasets función de densidad F (x|Cj )de las predictoras xpor cada con diferentes atributos. Finalmente el mejor método clase Cj . Por medio de esta regla, la clase asignada a un de clasificación se obtuvo de los conjuntos de datos nuevo caso x será la clae más votada entre los K vecinos más de entrenameitno. 4500 emails fueron usados como próximos del conjunto de entrenamiento. Como se menciona entrenamiento, de los cuales el 38.1% del dataset son en [4] la principal ventaja de la regla KNN con respecto a la spam y el 61.9% son correo legitimo. regla NN radica en que, al utilizar varios vecinos en lugar de 2) [6] En este artículo se trata el problema del aprendizaje uno sólo para la clasificación de un nuevo caso, se aprovecha para la clasificación de textos, explotando la información de una forma más eficiente la información que se puede extraer derivada a través de datos de entrenamiento y pruebas. del conjunto de entrenamiento. Para realizar esto se utiliza clustering como un paso para la clasificación y que es aplicada para el conjunto de entreamiento y el conjunto de pruebas. F. Clasificador ADTree 3) [7] En este articulo se sugiere soluciones para la uti- ADTree (Alternating Decision Tree) que significa árbol de lización de técnicas automatizadas de clasificación para decisión alternativo; es un método de aprendizaje automático filtrar el correo electrónico personal. Además también utilizado para clasificación. Las estructuras de datos y el se presenta un sistema de filtrado llamado “ifile”, que es algoritmo son una generalización de los árboles de decisión. efectivo y eficiente, y el cual ha sido adaptado para ser ADTree consiste en nodos de decisión y predicción. Nodos utilizado por un popular cliente de correo electrónico. de Decisión especifican una condición determinante. Nodos de Además se presentan los resultados de una serie de predicción contienen un número único. Los árboles de decisión experimentos y de esta manera demostrar que un sistema alterna siempre tienen nodos de predicción como las raices de filtrado como “ifile” podria convertirse en una parte y hojas. Una instancia se clasifica por un ADTree siguiendo útil y valioso de cualquier cliente de correo electrónico.
  • 4. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 4 4) [8] En este articulo se propone una estrategia de gráfico alphanumeric characters bounded by non-alphanumeric basado en la minería para la clasificación de correo characters or end-of-string. electrónico. El enfoque de este articulo se basa en que • 6 continuous real [0,100] attributes of type se pueden extraer patrones recurrentes de una carpeta char_freq_CHAR = percentage of characters in the de correos pre-clasificados y los mismos pueden ser e-mail that match CHAR, i.e. 100 * (number of CHAR usados efectivamente para clasificar los mensajes de occurences) / total characters in e-mail. correo entrantes. Además se compará este enfoque con • 1 continuous real [1,...] attribute of type capi- el clasificador de Naive Bayes. tal_run_length_average = average length of uninterrupted 5) [9] En este articulo se investiga la actuación de dos sequences of capital letters. algoritmos de aprendizaje automático en el contexto de • 1 continuous integer [1,...] attribute of type capi- filtrado antispam. Los algoritmos de clasificación uti- tal_run_length_longest = length of longest uninterrupted lizados para la investigación son el de Naive Bayes para sequence of capital letters. calcular la probabilidad de que un email se clasifique • 1 continuous integer [1,...] attribute of type capi- como legitimo o spam y un algoritmo de clasificación tal_run_length_total = sum of length of uninterrupted basado en memoria, en el cual la caracteristica principal sequences of capital letters = total number of capital es que almacena todas las instancias de entrenamiento letters in the e-mail. en una estructura de memoria y se la utiliza directamente • 1 nominal {0,1} class attribute of type spam = denotes para la clasificación. whether the e-mail was considered spam (1) or not (0), 6) [14] En este articulo se investiga la aplicación de los i.e. unsolicited commercial e-mail. algoritmos de clasificación de aprendizaje automático, A continuación se presenta una muestra de 10 instancias del en especial el clasificador Niave Bayes aplicados a conjunto de datos que servirá para realizar el entrenamiento del los filtradores de spam. Además se propone aplicar clasificador. De las cuales cinco son clasificadas como spam un clasificador de texto utilizando Naive Bayes como (1) y cinco como correo legítimo (0). clasificador, para clasificar un conjunto de datos de @data prueba real. 0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93, 0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, V. A PORTE PERSONAL 0,0,0,0.778,0,0,3.756,61,278,1 0.21,0.28,0.5,0,0.14,0.28,0.21,0.07,0,0.94,0.21,0.79,0.65, Como aporte personal y con relación a los trabajos rela- 0.21,0.14,0.14,0.07,0.28,3.47,0,1.59,0,0.43,0.43,0,0,0,0,0, cionados, yo propongo en este articulo hacer un estudio de las 0,0,0,0,0,0,0,0.07,0,0,0,0,0,0,0,0,0,0,0,0,0.132,0,0.372,0.18, técnicas de clasificación especificamente el clasificador naive 0.048,5.114,101,1028,1 bayes aplicado al filtrado de correo electrónico. Además de 0.06,0,0.71,0,1.23,0.19,0.19,0.12,0.64,0.25,0.38,0.45,0.12, construir un pequeño agente clasificador de correo electrónico, 0,1.75,0.06,0.06,1.03,1.36,0.32,0.51,0,1.16,0.06,0,0,0,0,0, el cual podría ayudar a mitigar en gran medida este problema y 0,0,0,0,0,0,0,0,0,0,0.06,0,0,0.12,0,0.06,0.06,0,0,0.01,0.143, compararlo con otras técnicas de clasificación para demostrar 0,0.276,0.184,0.01,9.821,485,2259,1 su efectividad. 0,0,0,0,0.63,0,0.31,0.63,0.31,0.63,0.31,0.31,0.31,0,0,0.31, 0,0,3.18,0,0.31,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, VI. M ETODOLOGÍA 0,0,0,0,0,0.137,0,0.137,0,0,3.537,40,191,1 0,0,0,0,0.63,0,0.31,0.63,0.31,0.63,0.31,0.31,0.31,0,0,0.31, Como metodologia, se ha desarrollado un sistema clasifi- 0,0,3.18,0,0.31,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, cador de correo electrónico utilizando como lenguaje de pro- 0,0,0,0,0,0.135,0,0.135,0,0,3.537,40,191,1 gramación Java y las librerias de Weka para hacer el respectivo 0.23,0,0.46,0,0,0,0,0.23,0,0.23,0,0,0,0,0,0,0,0,3.69,0,0.69, análisis. Como dice en [13]; WEKA es una colección de 0,0,0,1.84,0.23,0,0,0,0.23,0,0,0,0,0,0,0.23,0,0,0,0,0,0,0,0,0, algortimos de aprendizaje automático para tareas de mineria 0,0,0,0.253,0,0,0.031,0,2.016,19,244,0 de datos. Como base de entrenamiento se utilizo un dataset 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,9.52,4.76,4.76, o conjunto de datos público llamado spambase. Spambase es 4.76,4.76,4.76,4.76,4.76,0,4.76,4.76,4.76,0,0,0,4.76,0,0,0,0, un dataset que contiene un número de 4601 instancias, de las 0,0,0,0,0,1.257,0,0,0,0,3.333,11,30,0 cuales el 39.4% esta clasificada como spam. Además cuenta 0,0,0,0,0,0,0,0,0,0,0,0.33,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, con un número de 58 atributos, de los cuales 57 son continuos 0.11,0,0,0.22,0,0,0.33,0.11,0,0,0,0,0.11,0,0,0,0,0,0,0.053, y 1 es nominal y representa la clasificación de la clase, en la 0.16,0,0,0,0,2.367,24,651,0 cual 1 representa spam y 0 como no spam. A continuación se 0.23,0,0.23,0,1.17,0,0,0,0,0,0,1.41,0,0,0,0,0.11,0,0.47,0,0.7, muestra la definición de los atributos como estan en el archivo 0,0.11,0,1.29,0.11,0,0,0.11,0.23,0,0,0,0,0,0,0.11,0,0,0,0,0.11, original del DataSet: 0,0,0.23,0,0,0,0,0.015,0,0,0,0.015,1.486,7,162,0 • 48 continuous real [0,100] attributes of type 0,0.51,0,0,1.02,0,0,0.51,0,0,0,0,0,0,0,0.51,0.51,0,0.51,0,0,0, word_freq_WORD = percentage of words in the e- 0,0,0,0,0,0,0,0,0,0,0,0,0,0.51,0,0,0,0.51,0,0,0,0.51,0,0,0,0,0, mail that match WORD, i.e. 100 * (number of times 0.071,0,0,0,0,2.076,9,108,0 the WORD appears in the e-mail) / total number of Para realizar todo el proceso de clasificación, se ha realizado words in e-mail. A "word" in this case is any string of un sistema clasificador de correos electrónicos. El sistema esta
  • 5. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 5 desarrollado bajo la plataforma Java, utilizando las librerias de 0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32, weka para el proceso de entrenamiento y testeo del conjunto 0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0, de datos o dataset. 0.75,0.6,0,0,0,0,0.93,0,0,0,0,0,0,1.25,0,0,0.778, En la figura 2 se muestra la pantalla principal del sistema 0,0,3.756,61,278,? para realizar el proceso de clasificación. 0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0, 1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1.45, 0,0,0.69,0,0.93,0,0,0,0,0,0,1.25,0,0,0.778,0,0, 3.756,61,278,? 0,0,2.56,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.12,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0.308,0,1.543,0,0,2.777,6,25,? 0,0,0,0,0,0,0,0,0,0,0,0.89,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0.89,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,1.583,8,38,? 0,0,0,0,0,0,0,0,0,4.34,0,2.17,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,1,1,7,? 0,0,0.23,0,0.46,0,0,0,0.23,0,0,0,0,1.39,0,0,0.23,0, 0,0,0.69,0,0,0,0.46,0,0,0,0,0,0,0,0,0,0,0,0.23,0,0, 0,0,1.86,0,0,0,0,0,0,0,0.113,0,0.09,0,0.203,2.43, 121,666,? 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 20,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,1,1,5,? 0,0,0.65,0,0,0,0,0,0,0,0,0,0.65,0,0,0,0,0,4.6,0, 0.65,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,1.97,0.65,0,0,0,0,0,0.125,0,0,1.25,5,40,? Como se puede ver en el conjunto de datos de prueba; al final de cada instancia se pone un signo de interrogación ”?”. Figure 2. Sistema Clasificador de Correos electrónicos Esto se lo realiza debido a que no sabemos la clase a la que pertenece cada instancia. El sistema es el encargado de sobree- Para realizar la clasificación, primeramente se debe cargar scribir el archivo y añadir el ultimo valor según corresponda a un archivo que contiene el conjunto de datos. Esto se lo la clase. 1 para las instancias que son clasificadas como spam, puede hacer haciendo click en el boton “Cargar” del agente 0 para las instancias clasificadas como correo legítmo. clasificador. Luego de ello se activará el boton “ENTRE- NAMIENTO”. Al hacer click en dicho botón, el sistema VII. R ESULTADOS comenzara a construir el modelo de clasificación y arroja los resultados en el cuadro de texto “Resultado de Entrenamiento”. Luego de realizar el entrenamiento del clasificador con el Una vez finalizado el entrenamiento podremos seleccionar un conjunto de datos ”spambase.arff”, se obtienen los siguientes conjunto de instancias para clasificarlas ya sea como correo resultados como se muestra en la Figura 3. electrónico legítimo o correo electrónico no deseado. Para ello debemos hacer click en el boton “Cargar” del cuadro de texto “Cargar datos de prueba”, luego se activará el boton “TEST”. Hacemos click en el boton “TEST” y el sistema comenzara a clasificar segun correspondan cada una de las instancias del archivo de pruebas. Finalmente los resultados son arrojados en el cuadro de texto “Resultado de Test”. A continuación presentamos una muestra de diez instancias del conjunto de datos de prueba que serán clasificadas por el sistema. @data 0,0,0.65,0,0,0,0,0,0,0,0,0,0.65,0,0,0,0,0,4.6,0, 0.65,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,1.97,0.65,0,0,0,0,0,0.125,0,0,1.25,5,40,? 0,0,0,3.7,3.7,0,0,0,0,0,3.7,0,0,0,0,0,0,0,3.7,0, 1.88,0,0,1.88,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,1.88,0,0,0,0,0,0,0,0,0,0,12,7,12,? Figure 3. Resultado del entrenamiento
  • 6. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 6 Como se mencionó antes, el entrenamiento del sistema se lo realizó con un conjunto de 4601 instancias, de las cuales el 79.52% (3659) son clasificadas correctamente, mientras que el 20.47% (942) son clasificadas incorrectamente. Esto se lo puede constatar con la matriz de confusión, la cual nos dice que los elementos que componen la diagonal principal son aquellos que han sido clasificados correctamente, y los que componen la diagonal secundaria son aquellos que han sido clasificados incorrectamente. Esto se debe a que algunas instancias no cumplen con los requerimiento para poder ser clasificadas como tales. A continuación se muestran los resultados de cada uno de los algorimtos estudiados en este artículo aplicados al conjunto de pruebas ”spambasetest.arff” que contiene un total de 34 instancias. • Resultado con el Algoritmo de Clasificación Naive Bayes Figura 4. Figure 5. Resultado de test del conjunto de datos ”spambasetest.arff” con J48 Como se puede observar el resultado de la clasificación al conjunto de pruebas, el 64.70% de las instancias han sido clasificadas correctamente, mientras que el 35.29% de las instancias han sido clasificadas incorrectamente. Se puede observar también en la matriz de confusión que 16 instancias han sido clasificadas como spam y tan solo 6 han sido clasificadas como correo legítimo. • Resultado con el Algoritmo de Clasificación IBk Figura 6. Figure 4. Resultado de test del conjunto de datos ”spambasetest.arff” con Naive Bayes Como se puede observar el resultado de la clasificación al conjunto de pruebas, el 100% de las instancias han sido clasificadas correctamente, de las cuales 22 de ellas son clasificadas como 1 o spam y 12 son clasificadas como correo legítimo. • Resultado con el algoritmo de Clasificación J48 Figura Figure 6. Resultado de test del conjunto de datos ”spambasetest.arff” con 5. IBk
  • 7. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 7 Como se puede observar el resultado de la clasificación al que son enviados por compañias con propagandas de sus conjunto de pruebas, el 79.41% de las instancias han sido productos se lo puede mitigar en un gran porcentaje. Como clasificadas correctamente, mientras que el 20.58% de las se puede ver el algoritmo de Naive bayes tiene una alta tasa instancias han sido clasificadas incorrectamente. Se puede de efectividada pero tambien tiene algunos errores, ya que observar también en la matriz de confusión que 18 instancias algunas instancias que debian ser clasificadas como spam o han sido clasificadas como spam, mientras que 9 instancias no spam fueron clasificadas erroneamente. Es por esta razón han sido clasificadas como correo legítimo. que los clientes de correo electrónico siempre estan sujetos • Resultado con el Algoritmo de clasificación ADTree a errores, por lo cual siempre se debe revisar la bandeja de Figura 7. correos spam ya que pueden haber correos que deben ser legitimos clasificados como spam. Este estudio de las técnicas de clasificación orientadas al problema del correo electrónco nos ha ayudado a comprender como trabajan los algoritmos de clasificación, que tasa de aciertos y errores se puede encontrar en este proceso. Especialemente el algoritmo de clasificación Naive Bayes ha demostrado tener un poco mas de exactitud al clasificar nuevas instancias, ya que este algoritmo a mayor número de instancias es mas eficiente. R EFERENCES [1] Concha Bielza, Pedro Larrañaga. Construcción de un filtro anti-spam. Departamento de Inteligencia Artificial. Universidad Politécnica de Madrid. [2] José R Méndez, Florentino Fdez-Riverola, Fernando Díaz, Juan M. Corchado. Sistemas Inteligentes para la detección y filtrado de correo spam: una revisión. Universidad Autonoma del estado de Mexico. [3] J. J. Gonzáles Cid, J.R. Méndez Reboredo F. Fdez-Riverola. Modelos Anti-Spam de Inteligencia Artificial. Escuela Superior de Ingenieria Informática. Edificio Politécnico. Campus Universitario, As Logoas s/n, 32004, Ourense. [4] Basilio Sierra Araujo. Aprendizaje Automático: Conceptos básicos y avanzados. Aspectos Básicos utilizando el software Weka. Departamento Figure 7. Resultado de test del conjunto de datos ”spambasetest.arff” con de Ciencias de la Computación e Inteligencia Artificial. Universidad del ADTree País Vasco. [5] Seongwook Youn, Dennis McLeod. Spam Email Classification using an Adaptative Ontology. Department of Computer Science. University of Como se puede observar el resultado de la clasificación al Southern California. Los Angeles, CA. USA. conjunto de pruebas, el 82.35% de las instancias han sido [6] Antonia Kyriakopoulou, Theodore Kalamboukis. Text Classification clasificadas correctamente, mientras que el 17.64% de las Using Clustering. Department of Informatics, Athens University of Economics and Business. 76 Patission St., Athens, GR 104.34. instancias han sido clasificadas incorrectamente. Se puede [7] Jason D. M. Rennie. ifile: An Application of Machine Learning to E- observar también en la matriz de confusión que 16 instancias Mail Filtering. Artificial Intelligence Lab. Massachusetts Institute of han sido clasificadas como spam, mientras que 12 instancias Technology. Cambridge, MA 02139. [8] Manu Aery, Sharma Chakravarthy. eMailSift: Adapting Graph Mining han sido clasificadas como correo legítimo. Techniques for Email Classification. IT Laboratory and CSE Depart- A continuación se muestra una tabla comparativa del algo- ment. The University of Texas at Arlington. ritmo de clasificación Naive Bayes que se ha aplicado para [9] Ion Androutsopoulos, Georgios Paliouras, Vangelis Karkaletsis, Geor- gios Sakkis, Constantine D. Spyropoulos, Panagiotis Stamatopoulos. la clasificación del correo electrónico no desaedo con otros Learning to Filter Spam E-Mail: A Comparision of a Naive Bayesian algoritmos de clasificación. Las pruebas son realizadas en un and a Memory-Based Approach. Department of Informatics, University dataset que contiene 32 instancias y 58 atributos. of Athens. TYPA Buildings, Panepistimiopolis, 157 71 Athens, Greece. [10] Yang Song, Aleksander Kolcz, C. Lee Giles. Better Naive Bayes clas- sification for high-precision spam detection. Department of Computer Algoritmo de Clasificación % Correctos % Incorrectos Science and Engineering. The Pennsylvania State University, University Naive Bayes 100 0 Park, PA 16802, U.S.A. J48 64.70 35.29 [11] Óscar J. Prieto, Juan José Rodriguez, Carlos J. Alonso, Esteban Gelso. IBk 79.41 20.58 Clasificador Bayesiano Naive en la Identificación de Fallos en Procesos ADTree 82.35 17.64 Continuos. Grupo de Sistemas Inteligentes. Departamento de Infor- mática, Universidad de Valladolid, Spain. Universidad de Burgos, Spain. Table I Facultado de Ingenieria, Universidad Nacional del Centro de la Provincia TABLA DE C OMPARACIÓN DE A LGORITMOS DE C LASIFIFICACIÓN de Buenos Aires, Olavarría, Argentina. [12] Mitchell, Tom, “Machine Learning”, Ed. MacGraw-Hill, 1997. [13] Ravi Kiran S. S, Indriyati Atmosukarto. Spam or Not Spam - That is the question. [14] Aris Kosmopoulos, Georgios Paliouras, Ion Androutsopoulos. Adapta- VIII. C ONCLUSIONES tive Spam Filtering Using Only Naive Bayes Text Classifiers. Institute of Informatics and Telecomunications, N.C.S.R “Demokritos” Athens, Los algoritmos de clasificación evaluados en la tabla 1, Greece and Department of Informatics Athens University and Business, demuestran que el problema del correo electrónico no deseado Athens, Greec.
  • 8. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA 8 [15] Rich Caruana, Alexandru Niculescu-Mizil. An Empirical Comparision of Supervised Learning Algorithms. Department of Computer Science, Cornell University, Ithaca, NY 14853 USA. [16] Heckerman, D., Geiger D., and Chickering, D. Learning Bayesian Net- works: The Combination of Knowledge and Statistical Data. Machine Learning, 20, 197-243. 1995