Controladores Lógicos Programables Usos y Ventajas
Facebook Activity Profiles Loja City
1. 19-5-2014
Actividad de perfiles de FACEBOOK en la ciudad de Loja
Mineria de Datos
Lizzette Betancourt
Mishele Lojan
UTPL
2. Actividad de perfiles de FACEBOOK en la ciudad de Loja
Tema:
“Actividad de perfiles de FACEBOOK en la ciudad de Loja”
Objetivos:
Objetivo General:
Conocer la afluencia, con la que las personas de la ciudad de Loja utilizan la red social Facebook.
Objetivos Específicos:
Extraer datos significativos de los perfiles de “Facebook” de una muestra tomada de la ciudad y provincia de Loja
Intentar descubrir patrones de interacción de los usuario lojanos con la red social “Facebook”
Transformar los datos obtenidos en Facebook a una estructura comprensible para su uso posterior “Gestionamiento de Datos”
Utilizar los algoritmos de minería de datos aprendidos a lo largo de la materia.
Dataset Usado
El dataset utilizado ha sido creado en formato .arff ( Attribute Relation File Format ), este dataset contiene datos han sido extraídos de diferentes perfiles de “Facebook” , en los cuales podemos destacar los atributos :
3. Nombre
Amigos en común
Numero de Amigos
Universitario (Estudiante universitario)
Sexo
Lugar nacimiento
Lugar donde vive
Carrera
Publicaciones (Datos compartidos en Facebook)
Situación sentimental.
Los datos que se encuentran en el dataset son de tipo Nominal, Numérico y String.
Dichos atributos han sido seleccionados teniendo en cuenta la afluencia con que los usuarios proporcionan esta información.
4. Algoritmos Usados (Referencia Teórica)
Algoritmo A priori
Este algoritmo se basa en el conocimiento previo o “a priori” de los conjuntos frecuentes, esto sirve para reducir el espacio de búsqueda y aumentar la eficiencia.
Caracteristicas:
Encuentra itemsets frecuentes usando generación de candidatos
Solo se generan aquellos itemsets candidatos que cumplan la propiedad apriori
Entrada: minimum support count + transacciones
Salida: itemsets frecuentes del tamaño más grande posible + frecuencia para cada itemset
Algoritmo K-means
K-means es una algoritmo de tipo no jerárquico que se basa en las distancias entre centroides (cada centroide es el centro de un grupo) para generar el agrupamiento en k clusters previamente solicitados.
El algoritmo no es determinista por lo que cada ejecución podría generar resultados muy variados dependiendo del método de elección de los centriodes, además de que podría alcanzar un estado en el que nunca cumpla la condición de parada y por tanto nunca converja.
La base del algoritmo es fácil y por lo general sus órdenes de duración y recursos requeridos son bajos lo que lo hace una buena opción cuando existen limitaciones de hardware. El algoritmo básico podría resumirse como sigue:
Calcular las distancias entre los documentos por analizar.
Asignar a K elementos como los centroides iniciales, esto se puede hacer de manera aleatoria o a través de dividir los elementos en los lugares intermedios donde debería haber una división.
Asignar cada uno de los objetos al grupo que contiene el centroide más cercano.
Una vez asignados los objetos, recalcular las posiciones de los centroides
5. Justificación del uso de Algoritmos
Algoritmo A priori: Hemos escogido este algoritmo porque aquí nos permite asociar datos nominales, estableciendo reglas de asociación de los datos de nuestro dataset, además este nos permite relacionar diferentes atributos de la tabla.
Algoritmo K-means Hemos escogido este algoritmos porque nos permite ver la frecuencia con las que los datos, aparecen en el dataset, además este nos permite reconocer los “vecino más cercanos” de un dato, mediante graficas estadísticas.
Experimentación
En primer lugar realizaremos un árbol de decisión J48 el cual nos permitirá ver los datos de una manera mas clara.
Seleccionaremos el dataset con los datos obtenidos de Facebook y procederemos a la elaboración del árbol de decisión, debemos tener él cuenta que los datos del archivo .arff deben ser tipos de dato nominal.
6. A continuación realizaremos la clasificación de los datos con el algoritmo A PRIORI, en el cual escogeremos los datos de tipo nominal, con 10 reglas y una confianza de 0,9 debemos tener en cuenta que la proximidad a 1 nos presentara reglas con una frecuencia más fija. En los resultados posteriores podremos experimentar cambiando los datos de confianza, los números de reglas y el tipo de indexamiento.
Al realizar el algoritmo KMeans seleccionaremos igualmente los datos de tipo nominal de los cuales estableceremos la columna de “carrera” como dato a ser clusterizado, también podemos cambiar los datos de el algoritmo, modificando el nuero de iteraciones realizadas y el numero cluster´s deseados
7. Análisis de Resultados
ALGORITMO A PRIORI
Realizando la ejecución del algoritmo A priori con 10 reglas y una confidencialidad de 0.9, hemos obtenido los siguientes datos
En la regla #1 podemos observar de nuestra muestra de 60 personas, 56 de ellas viven en la ciudad de Loja, y son universitarios.
En la regla #2 podemos observar de nuestra muestra de 60 personas, que 44 de ellas han nacido en Loja y son universitarios.
La situación sentimental de nuestra muestra es negativa, por lo tanto podemos afirmar que no tienen una relación o prefieren no publicarla en Facebook.
También podemos decir que la mayoría de universitarion que no tienen una relación viven en la ciudad de Loja, y son de sexo Femenino.
8. Realizando la ejecución del algoritmo A priori con 15 reglas y una confidencialidad de 0.3, hemos obtenido los siguientes datos:
En la regla #4 podemos observar que 39 personas de nuestra muestra son universitarios, viven en Loja y no tienen una situacion sentimental.
Podemos observar que la mayoria de nuestra muestra son nacidos en Loja y viven en Loja.
Realizando la ejecución del algoritmo A priori con 20 reglas, un nivel de significancia de -1 y una convicción de 0.9, hemos obtenido los siguientes datos:
En la regla 7 podemos observar que la mayoria de publicaciones son hechas por personas de sexo masculino, nacidos en Loja y son universitarios.
En la regla #8 y #11 podemos observar que la mayoria de publicaciones son estados publicados por personas que tienen una situacion sentimental.
En la regla #19 nos indica que la mayoria de personas que su nacimiento no es en Loja, no tienen relaciones sentimentales.
9. ALGORITMO K-MEANS
La ejecucion del algoritmo k-means podemos observar que los tipos de datos de nuestro dataset son clasificados dependiendo de cuanto se repite un dato.
Ejecutando el algoritmo k-means filtrado por el tipo de carreras que hay obtenemos los siguientes datos.
La mayoria de estudiantes universitarios son de Ing. En Sistemas
10. Al filtrar los datos para el tipo de publicaciones que realizan los usuarios de Facebook podemos afirmar que en su mayoria las publicacion que realizan son estados,
Al revisar los datos de las tablas y realizando una clusterizacion por la carrera que tienen y la situación sentimental podemos decir que existe valores equitativos de personas que tienen y no relación sentimental.
11. Al revisar los datos de las tablas y realizando una clusterización por sexo y situación sentimental podemos decir que la mayoría de personas de sexo Femenino tienen una relación sentimental y las personas que más realizan publicaciones son de sexo femenino.
Conclusiones
Podemos concluir que la mayoría de personas que usan el Facebook son de sexo femenino y son las que realizan mayores publicaciones de imágenes (fotos).
El 70% de la muestra son estudiantes universitarios que viven en la ciudad de Loja.
El 26% de la muestra son estudiantes universitarios que no son nacidos en la ciudad de Loja y no tienen ninguna relación sentimental.
La utilización de los algoritmos a priori y k-means nos a permitido conocer los diferentes tipos de filtrado y clasificación de datos.
Según nuestro criterio, coincidimos que el algoritmos k-means siendo correctamente utilizado es el que nos brinda mayor y mas clara información acerca de los datos.