1. Universidade Portucalense Infante D. Henrique
Departamento de Inovação Ciência e Tecnologia
Ano Lectivo de 2012/2013
Docente: Isabel Seruca
Unidade Curricular: Webmining
Ferramentas WebMining
Porto, Março de 2013
10365 Elísio Gomes
35048 Samuel Oliveira
2.
3. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Resumo
Nos dias de hoje, a obtenção de informação acerca do nosso próprio negócio, o que os
nossos clientes pensam e comentam mas não o transmitem à Organização pelos canais formais,
tendências, etc. é vital a tomada de decisões. A simples presença na Web já não é suficiente,
saber quem visita o site institucional, se abandona ou leva até ao final uma transacção, de onde
vem, são perguntas frequentes não só para Organizações que baseiam o seu negócio na Web,
mas também para aquelas que usam a Web como um canal de vendas e comunicação. A
tradicional obtenção de preços nos locais de venda da concorrência, actividade conhecida como
shopping, passa a ser feita pesquisando a Web, sem os constrangimentos do shopping
tradicional.
A necessidade de informação é de tal ordem, que os Sistemas de Informação há muito
se voltaram para a Internet, fonte praticamente inesgotável de informação é o local perfeito para
a pesquisa e mineração de dados.
Ferramentas Web Mining Pág.: 1
4. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Índice
INTRODUÇÃO
........................................................................................................................
5
OBJECTIVO
...................................................................................................................................
5
PROBLEMA
ESTUDADO
...................................................................................................................
5
METODOLOGIA
.............................................................................................................................
5
WEB
MINING
.........................................................................................................................
6
WEB
CONTENT
.............................................................................................................................
7
WEB
STRUCTURE
..........................................................................................................................
7
WEB
USAGE
.................................................................................................................................
7
SAS
........................................................................................................................................
8
PRINCIPAIS
BENEFÍCIOS
................................................................................................................
11
A
CAPACIDADE
DE
AUMENTAR
A
EFICÁCIA
DO
PROJECTO
WEB
.............................................................
11
GOOGLE
ANALYTICS
.............................................................................................................
14
FERRAMENTAS
DE
ANÁLISE
...........................................................................................................
14
ANÁLISE
DE
CONTEÚDOS
..............................................................................................................
15
ANÁLISE
DE
REDES
SOCIAIS
...........................................................................................................
16
ANÁLISE
PARA
DISPOSITIVOS
MOVEIS
.............................................................................................
16
ANÁLISE
DE
PUBLICIDADE
.............................................................................................................
17
SAS
VSGOOGLE
ANALYTICS
..................................................................................................
18
CONCLUSÃO
........................................................................................................................
19
BIBLIOGRAFIA
......................................................................................................................
20
Índice de Figuras
Figura
1
-‐
SAS
Dashboard
_______________________________________________________________
9
Figura
2
-‐
SAS
Tagging
________________________________________________________________
10
Figura
3
-‐
Google
Anlytics
Dashboard
____________________________________________________
14
Ferramentas Web Mining Pág.: 2
5. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Figura
4
-‐
Google
Analytics
relatório
personalizado
_________________________________________
15
Figura
5
-‐
Google
Analytics
redes
sociais
__________________________________________________
16
Figura
6
-‐
Google
Analytics
dispositivos
móveis
_____________________________________________
17
Figura
7
-‐
Google
Analytics
análise
de
publicidade
__________________________________________
17
Ferramentas Web Mining Pág.: 3
6. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Índice de Tabelas
Tabela
1
-‐
Quadro
comparativo
_________________________________________________________
18
Ferramentas Web Mining Pág.: 4
7. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Introdução
Objectivo
O presente trabalho, elaborado no âmbito da unidade curricular de Webminig do
ShortMaster em BusinessIntelligence da Universidade Portucalense Infante D. Henrique, visa
expor os conteúdos abordados ao longo das aulas.
Problema Estudado
No âmbito do Data Mining e Web Mining existem várias ferramentas, comerciais e
opensource. Neste trabalho serão abordadas duas ferramentas, uma comercial e outra
opensource, expondo funcionalidades comuns, pontos fortes e limitações de cada software e
tendências de evolução.
Metodologia
A elaboração deste trabalho teve como base definição de palavras-chave, pesquisas na
Web, e apontamentos da unidade curricular. Foram seleccionados diversos locais de pesquisa,
sendo seleccionadas páginas web focadas nos conceitos abordados na disciplina de Webmining,
motores de pesquisa específicos e documentação da disciplina. Os campos usados na pesquisa
foram as palavras-chave e conceitos relacionados com as ferramentas e tecnologias
apresentadas nas aulas. A bibliografia recolhida foi analisada para a obtenção dos conceitos que
irão seguir a linha de pensamento definido para o relatório com a descrição dos conceitos e
relacionamento dos mesmos.
Ferramentas Web Mining Pág.: 5
8. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Web Mining
A definição mais consensual de Web Mining é o uso de técnicas de Data Mining para
descobrir e extrair automaticamente informação relevante usando como fonte de dados a
Internet.
Também conhecido como screenscraping e data extraction, usando software e
ferramentas para extrair dados de fontes não formatadas, tais como páginas html, redes sociais
e transforma-los em informação humanamente perceptível, o que representa um grande
obstáculos para os sistemas automatizados, na verdade trata-se de um processo mais amplo,
envolvendo várias disciplinas tais como:
• Recuperação de informação
• Estatística
• Inteligência Artificial
• Mineração de dados
• …
Como o uso exponencial da Web, as Organização podem agora complementar a
informação obtida a partir da análise de Data Warehouse internos, como a informação disponível
na Web.
Podemos então categorizar as diferentes tarefas de Web Mining:
• Pesquisa de documentos: Encontrar sítios na Web contendo documentos
especificados por palavras-chave. Trata-se então do processo de extracção de
dados a partir de fontes de texto disponíveis na Internet.
• Selecção e pré-processamento da informação: Consiste na tarefa de seleccionar
e pré-processar de forma automática as informações obtidas na Web. O pré-
processamento envolve a poda de textos, transformação da informação, etc.
• Generalização: Consiste em descobrir automaticamente padrões, envolvendo
técnicas de Inteligência Artificial e Mineração de Dados.
• Análise: Validação e interpretação dos padrões minerados.
Ferramentas Web Mining Pág.: 6
9. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Web Mining é normalmente subdividido em três categorias.
• Web Content
• Web Structure
• Web Usage
Web Content
Os conteúdos na Web são de vários tipos, tais como: textos, imagens, sons, vídeos,
hiperlinks. Desta forma, a mineração de conteúdos na Web envolve o conhecimento em diversos
tipos de dados, nomeadamente dados multimédia, no entanto a que recebe mais atenção é a
mineração de dados de texto e hiperlinks. A pesquisa consiste em aplicar técnicas de mineração
com vista a encontrar informação escondida ou padrões.
Web Structure
A mineração da estrutura de documentos na Web, tenta descobrir o modelo subjacente á
estrutura de hiperlinks. Este modelo pode ser usado para classificar páginas Web e é útil para
gerar informações e relacionamentos entre diferentes Web Sites. Esta categoria de informação
pode ser usada, por exemplo para quais são os hiperlinks que normalmente aparecem em outros
Sites.
Web Usage
Web Usage tenta descobrir padrões nos caminhos percorridos pelos utilizadores quando
navegam na Web. Enquanto que a Web Content e a Web Structure utilizam dados reais
presentes nos documentos na Web, a Web Usase ou Mineração do Uso, utiliza dados
secundários gerados pela interacção dos utilizadores com a Internet. Tais dados secundários
incluem logs, perfis dos utilizadores, uso de servidores proxy, transacções, consultas, uso de
favoritos, entre outros.
Ferramentas Web Mining Pág.: 7
10. Universidade Portucalense Infante D. Henrique DICT – Web Mining
SAS
Para obter respostas, devemos ser capazes de decifrar o que os dados da Web nos
transmitem. SAS Web Analytics é a chave, transforma automaticamente os dados brutos em
informação valorizada para o negócio na Web. Através do uso de análises avançadas, SAS Web
Analytics permite monitorar medidas-chave que conduzem o negócio e entender os factores que
influenciam cada métrica do negócio. Este, por sua vez, permite que seja possível e com
sucesso refinar estratégias para alcançar os objectivos de negócio.
Esta solução disponibiliza várias componentes de tratamento de dados de negócio web
com o intuito de responder a questões propostas pelos gestores web.
Web data strategy
• Facilidade no controlo de grandes volumes de dados de desempenho do site.
• Processos paralelos de transformação e agregação de grandes volumes de dados de
forma rápida.
• Lê todos os dados da Web padrão de registro, bem como arquivos de log on-line de
actividade, incluindo os logs personalizados, logs de gestão de conteúdo e registos
telefónicos WAP.
• O algoritmo patenteado sessionizing web logs investiga correctamente os visitantes da
Web com base em cookies.
Web Data Mart
• Integra dados da Web com quaisquer outras fontes de dados, tais como cliente e os
dados da empresa (por exemplo, centros de atendimento, logística, vendas e marketing,
e dados externos).
• Disponibiliza um datamart que é estruturado e optimizado para web analytics.
• Realiza agregações em vários níveis para responder às questões de negócios.
• Gere resumos de agregação ao longo do tempo.
• Browser-based GUI Administrator, facilita a criação de Web data mart e sua
manutenção.
Ferramentas Web Mining Pág.: 8
11. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Clickstream path analysis
• Interacção da estrutura de árvore hierárquica do directório e páginas associadas.
• Remove o ruído de espectadores esporádicos no sentido de verificar se as pessoas
estão verdadeiramente a navegar no site.
• Disponibilização de gráficos que representam a existência e magnitude de associação
entre as páginas.
• Identificar drop-offs e pay-offs de evento para evento.
• Exibe informação de conversão cumulativa através de uma série de eventos definidos e
conversão de locais de evento para evento (por exemplo, campanhas, carrinho de
compras, páginas de registo).
Analytic executive dashboard
• Comentário diário da operação do site.
• Mostra KPIs para rápida identificação de áreas de actuação acima ou abaixo das
expectativas.
• Gráfico de Tendências onde mostra o desempenho actual e passado.
Figura 1 - SAS Dashboard
Ferramentas Web Mining Pág.: 9
12. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Analytical scordcard
• Mostra os valores de desempenho e previsão das métricas-chave que influenciam os
KPIs que conduzem o seu negócio na Internet.
• Mede cada valor do factor-chave contra um valor previsto.
• Scorecard indica de como os aumentos ou diminuições dos KPIs poderão afectar em
algumas métricas o valor da meta definida.
Analytical visitor segmentation
• Árvore de decisão de segmentação.
• Medição da resposta de um determinado alvo.
• Fornecer as regras de negócio para a segmentação.
Optional page tagging
• A tecnologia fácil de proporcionar melhores resultados para as sessões.
• Recolhe informações solicitadas em logs do servidor Web.
• Uso estratégico nas páginas do site.
Figura 2 - SAS Tagging
Ferramentas Web Mining Pág.: 10
13. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Principais benefícios
Uma solução completa para apoiar todo o processo analítico. Como um sistema
integrado, solução end-to-end. SAS Web Analytics suporta todas as medidas necessárias para
resolver as necessidades web. A solução transforma dados Web em conhecimento através de
um processo eficiente de análise. A facilidade de utilização e a capacidade de personalizar tipo
de análise permite aos administradores, gestores de negócio e pessoal de TI, satisfazer as suas
necessidades de negócio.
Esta solução fornece uma única visão do cliente integrada através de canais distintos. A
solução integra dados da Web com dados de outras fontes, logística, vendas e marketing, dados
de censo, etc, para dar-lhe uma visão completa do cliente. Ao compreender verdadeiramente os
seus clientes e o valor que eles têm, pode melhorar a relação para a aquisição de cliente através
da satisfação, retenção e estratégias de fidelização, reduzindo assim os custos operacionais e
de negócios, aumentando a receita gerada através de canais.
A capacidade de definir e melhorar as estratégias de negócios é mais um ponto de
referência das técnicas de webmining. As ferramentas da Web convencionais são limitadas a
após o acontecimento, medições e relatórios, elas não podem explicar as relações e os pontos
que influenciam as medidas de negócio. Oferece uma análise avançada, tais como Web Mining,
onde descobre padrões ocultos nos dados. Ao descobrir as relações entre elementos de dados e
os dados subjacentes, é possível aperfeiçoar as estratégias de negócios e maximizar o retorno.
Para a melhoria das estratégias de marketing e eficácia da campanha a solução
identifica automaticamente os segmentos de clientes, determinando principais diferenciais de
modo a que se possa alinhar os objectivos de marketing com um segmento determinado do
cliente. Usando modelos de previsão e integrar os resultados do passado em futuras campanhas
de marketing. A possibilidade de direccionar melhor os clientes e entregar campanhas menores
e mais focadas. O consequente aumento na satisfação do cliente vai levar a retornos das
campanhas melhorados e por consequência menores esforços ou custos de marketing.
A capacidade de aumentar a eficácia do projecto Web
Com a solução de análise SAS Web Analytics é possível determinar quais as rotas que
são mais propensas a receber os clientes e que páginas têm um alto nível de aderência para os
Ferramentas Web Mining Pág.: 11
14. Universidade Portucalense Infante D. Henrique DICT – Web Mining
produtos. Este tipo de informação pode ajudar a melhorar e optimizar o design do site Web para
aumentar as taxas de visitas às compras on-line.
O scorecard exibe as principais métricas da Web que funcionam como condutores
estatisticamente significativos para uma métrica fundamental. O relatório lista a métrica alvo,
seguido pelas métricas Web mais influentes. As métricas influentes para a Web estão listadas
em ordem decrescente da sua importância.
O grande desafio das organizações é transformar o volume de dados da Web em
conhecimentos accionáveis que possam ser usados para tomadas de decisão assertivas.
Os relatórios estatísticos do site não são suficientes para a percepção actual de negócio,
pois eles não fornecem o tipo de informação que pode ajudar a atingir os objectivos de negócio.
Perguntas como estas, muitas vezes sem resposta:
• Como os clientes usam o site?
• Como podemos melhorar as ofertas de produtos e qualidade de serviço?
• Como podemos automatizar campanhas de e-mail marketing e aumentar a eficácia da
campanha?
• Como encaminhar o tráfego para o nosso site e transformar as visitas em vendas?
• Como podemos entender melhor nossa base de clientes?
• Como podemos melhorar as nossas estratégias de negócios na Web?
• Como podemos aumentar o ROI (retorno sobre investimento), reduzindo os custos
comerciais e operacionais?
SAS para Análise de Experiência do Cliente traduz eventos da Web em contexto de
negócios, permitindo que se entenda o quão bem a experiência on-line está a trabalhar a partir
da perspectiva do seu cliente. Os dados capturados são transformados em estudo de negócio,
processando-os com foco no cliente. Toda a actividade do site é relacionada com uma entidade
cliente, que está associada à sua informação promocional, demográfica e de compra com base
em fornecer um quadro completo de clientes que vai além da análise da Web tradicionais de
produtos.
A tecnologia de recolha dinâmica disponibilizada pela Web analytics permite o rápido
desenvolvimento da construção do tipo de análise que é pretendido. Isso é significativamente
Ferramentas Web Mining Pág.: 12
15. Universidade Portucalense Infante D. Henrique DICT – Web Mining
diferente da abordagem de produtos de análise Web tradicionais, que requer modificações
extensivas no site para agregar dados através de técnicas de data mining.
Ferramentas Web Mining Pág.: 13
16. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Google Analytics
O Google Analytics é um serviço gratuito, oferecido pela Google, que fornece estatísticas
actuais sobre o modo como os visitantes usam um determinado Web Site, como chegaram até
ele e o que pode fazer para que voltem.
Sem querer “vender” a ferramenta, passamos a enumerar e a descrever os pontos que
consideramos chave desta ferramenta.
Ferramentas de Análise
O Google Analytics baseia-se numa plataforma de relatórios, de fácil utilização, que
permite ao utilizador decidir que dados pretende ver, permitindo ainda a personalização de
relatórios
O número de pessoas que estão actualmente no WebSite, de onde vêm e o que estão a
visualizar neste momento, são questões pertinentes, para as quais as ferramentas de análise
respondem em tempo real.
Toda esta informação, mas em que formato? As ferramentas de analise do Google
Analytics permitem a personalização de variáveis, com o objectivo de ajudar a compreender
quais os segmentos de clientes e o grau de interacção destes com o Site.
Como não podiam deixar de ser, os painéis com os KPIs da empresa merecem lugar de
destaque.
Figura 3 - Google Anlytics Dashboard
Ferramentas Web Mining Pág.: 14
17. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Análise de Conteúdos
Os relatórios de conteúdo, ajudam a identificar as secções do WebSite com bom
desempenho e páginas mais populares.
E o que acontece, quando os visitantes não encontram o que procuram? O primeiro
passo é recorrer á busca. Com os relatórios de busca é possível saber o que os visitantes
procuram em concreto.
Outro aspecto realmente interessante é saber como os visitantes se movimentam no
Site.
Figura 4 - Google Analytics relatório personalizado
Ferramentas Web Mining Pág.: 15
18. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Análise de Redes Sociais
As redes sociais são um fenómeno de adesão na Internet, assim sendo, a medição do
sucesso dos programas de redes sociais não poderia ser deixado ao acaso.
Figura 5 - Google Analytics redes sociais
Análise para Dispositivos Moveis
Com o aumento do uso dos dispositivos móveis, o Google Analytics permite medir o
impacto dos dispositivos móveis no negócio. Para além disso, são disponibilizados SDKs
(Software Development Kits) para iOS e Android, de modo a poder avaliar como as pessoas
utilizam as aplicações
Ferramentas Web Mining Pág.: 16
19. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Figura 6 - Google Analytics dispositivos móveis
Análise de Publicidade
A Internet é sem dúvida um lugar de publicidade, marketing e negócios. O Google
Analitycs pode associar o comportamento dos visitantes às campanhas de marketing dirigido e
tomar decisões acertadas.
Figura 7 - Google Analytics análise de publicidade
Ferramentas Web Mining Pág.: 17
20. Universidade Portucalense Infante D. Henrique DICT – Web Mining
SAS vsGoogle Analytics
Nos capítulos anteriores foram focadas as características mais marcantes de cada uma
das ferramentas. Em forma de quadro resumo, analisamos estas características em cada uma
das ferramentas:
Características SAS Google Analytics
Open source ● √
Ferramentas de análise em tempo real √ √
Análise de conteúdos √ √
Análise de redes Sociais √ √
Análise de produtividade √ √
Dashboard √ √
Relatórios √ √
Tabela 1 - Quadro comparativo
Todas estas características enquadram-se em cada solução apresentada, no entanto,
comparando-as entre si no que respeita aos custos, o SAS é bem mais elevado compensando
essa desvantagem com a disponibilidade de várias ferramentas poderosas e capazes de
responder a qualquer questão proposta pelo cliente dentro deste âmbito de negócio analítico.
O Google Analytics torna-se uma solução bastante acessível para qualquer utilizador,
sendo capaz de apresentar um ambiente gráfico bastante positivo e intuitivo. Esta ferramenta
pode ser útil para pequenas empresas que estejam a usar o site como canal de vendas assim
como para cada utilizador que seja administrador de um site ou blog. A situação menos
vantajosa comparando-a com a outra solução mencionada neste trabalho, destaca-se quando se
trata de analisar um conjunto de dados enorme, tornando lenta a funcionalidade do Google
Analytics.
Ferramentas Web Mining Pág.: 18
21. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Conclusão
Devido ao grande volume de dados e técnicas envolvidas, tal actividade não seria
possível sem o recuso a ferramentas especializadas nesta área. Neste trabalho foram abordadas
duas ferramentas, uma comercial e outra open source, estabelecendo uma análise comparativa
evidenciando os seus pontos fortes e fracos.
Ferramentas Web Mining Pág.: 19
22. Universidade Portucalense Infante D. Henrique DICT – Web Mining
Bibliografia
SAS – www.sas.com
Google Analytics - http://www.google.com/analytics/
Aulas lecionadas na disciplina de Web Mining
Ferramentas Web Mining Pág.: 20