Sistemas Inteligentes
para Textos da WEB
Dr. Eng. Fernando Hideo Fukuda
Centro de Conhecimento em Tecnologias da Estácio
A...
Categoria
• Dissertação de Mestrado em Sistemas
de Computação pelo Departamento de
Engenharia Elétrica da PUC/RJ aprovada
...
Objetivos
• O objetivo principal deste artigo é investigar a
aplicação de algoritmos e técnicas de
inteligência
computacio...
Objetivos
• As técnicas de inteligência computacional
pesquisadas são baseadas em KDD, Sistemas
Especialistas e Redes Neur...
Processos de KDD / KDT
• A WEB pode ser considerada como um
enorme Data Warehouse.
• Assim, aplicamos os conceitos de KDD
...
Processos de KDD / KDT
• Definição do problema
– Avaliar e selecionar os textos da WEB baseado
em um perfil de interesse.
...
Processos de KDD / KDT
– Conversão dos caracteres com acentuação
estendida na codificação ISO Latin-1 para a
codificação A...
Processos de KDD / KDT
 Data Selection (Seleção dos Dados)
– Nesta etapa os ruídos são eliminados do
texto, mantendo-se a...
Sistemas Especialistas
• RUÍDOS
– SE termo = “DE”
– ENTÃO é ruído e elimina da avaliação do texto

• SINÔNIMOS
– SE
termo ...
Processos de KDD / KDT
 Data Representation (Representação dos
Dados)
– Nesta fase são realizadas as avaliações dos:
• TE...
Processos de KDD / KDT
 Knowledge Learning (Aquisição do
Conhecimento)
 Modo de treinamento
– As avaliações dos termos, ...
Processos de KDD / KDT
 Data Representation
Dados)

(Representação

dos

– Nesta fase é realizada a avaliação das
CARACTE...
Processos de KDD / KDT
 Model and Architecture Selection (Seleção do
Modelo e da Arquitetura)
 Modo de treinamento
– Foi...
Processos de KDD / KDT
 Knowledge
Learning
Conhecimento)

(Aquisição

do

 Modo de treinamento
– Nesta etapa é realizado...
Processos de KDD / KDT
 Classification (Classificação)
– A Rede Neural executa a Classificação dos textos
em função das A...
Processos de KDD / KDT
 Knowledge
Discovery
Conhecimento)

(Descoberta

do

– Descobre-se, nesta última etapa do KDD, se ...
Redes Neurais
• Neste trabalho foram investigadas as redes
de treinamento supervisionado do tipo
feedfoward com algoritmo ...
Técnicas de avaliação de textos da
WEB
 Termo
– Pode ser uma palavra, raiz de uma palavra,
fragmento de palavra ou fragme...
Técnicas de avaliação de textos da
WEB
 Relacionamento entre termos
– Os termos contidos em um mesmo fragmento de
texto (...
Técnicas de avaliação de textos da
WEB
 Proximidade
– Os operadores de proximidade localizam termos
ou relacionamentos de...
Técnicas de avaliação de textos da
WEB
 Pesquisa ponderada
– A pesquisa ponderada é baseada numa
pontuação (pesos) para m...
Técnicas de avaliação de textos da
WEB
• Métodos de pesquisa ponderada
– Contagem do número de documentos que
apresentam o...
Modelagem do SITEX
• Objetivos:
– Realizar a conexão de acesso discado à Internet;
– Realizar a conexão à Web através do p...
Modelagem do SITEX
• Objetivos:
– Abrir e salvar páginas HTML;
– Interpretar os comandos HTML da página;
– Apresentar a pá...
Modelagem do SITEX
• Objetivos:
– Extrair o texto sem os ruídos;
– Substituir os sinônimos dos termos;
– Normalizar os ter...
Modelagem do SITEX
• Objetivos:
– Analisar as Características textuais do texto;
– Armazenar e recuperar o perfil do usuár...
Algoritmo do SITEX
• Modo de Treinamento
• Modo de Produção
Algoritmo do SITEX
• Modo de Treinamento
– Avaliação de Termos, Relacionamentos e
Proximidades
– Criação da Base de Conhec...
Algoritmo do SITEX
• Modo de Produção
– Avaliação de Termos, Relacionamentos e
Proximidades
– Avaliação das Característica...
Modo de Treinamento
Modo de Treinamento
Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS
(positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CO...
Modo de Treinamento
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
T...
Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

...
Modo de Treinamento
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant...
Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATI...
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

QUANT



Base de Conhecimentos

TERMO

PESO TOT

PESO
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

QUANT

PESO



Base de Conhecimentos

TERMO

PESO TOT
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

QUANT



Base de Conhecimentos

TERMO1

TERMO2

PESO...
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

QUANT

PESO



Base de Conhecimentos
TERMO1

TERMO2
...
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

DIST



Base de Conhecimentos

TERMO1

TERMO2

PESO ...
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO1

TERMO2

DIST

PESO



Base de Conhecimentos
TERMO1

TERMO2

...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO

PESO TOT

/ quant. exemplos
positivos
...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO

PESO TOT

/ quant. exemplos
negativos
...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos p...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos n...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos p...
Modo de Treinamento
Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO1

TERMO2

PESO TOT

/ quant. exemplos n...
Modo de Treinamento
Criação da Base de Conhecimentos
TERMO

PESO MED

TERMO1

TERMO2

PESO MED

TERMO1

TERMO2

PESO MED

...
Modo de Treinamento
Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS
(positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CO...
Modo de Treinamento
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
T...
Modo de Treinamento
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

...
Modo de Treinamento
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos d...
Modo de Treinamento
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos d...
Modo de Treinamento
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Treinamento
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant...
Modo de Treinamento
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) /...
Modo de Treinamento
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) /...
Modo de Treinamento
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATI...
Modo de Treinamento
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) /...
Modo de Treinamento
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) /...
Modo de Treinamento
Treinamento da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0
Modo de Produção
Modo de Produção
Filtro/Extrator/Conversor
DOCUMENTOS

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO
Modo de Produção
Filtro/Extrator/Conversor
CONVERSOR minúsculo  MAIÚSCULO

EXTRATOR DE TERMOS
(eliminador de ruídos)
TERM...
Modo de Produção
Termos
QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS
(quant. >= média de quant.)

PES...
Modo de Produção
Avaliação de TP
TERMO

QUANT

PESO

TERMO

PESO MED

T

TP = (  quant (PM - PM) ) / quant de termos do t...
Modo de Produção
Avaliação de TN
TERMO

QUANT

PESO

TERMO

PESO MED

T

TN = (  quant (PM - PM) ) / quant de termos do t...
Modo de Produção
Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS
TERMOS

TERMO

PARÁGRAFO
Modo de Produção
Relacionamentos
QUANT. DE RELACIONAMENTOS
DE TERMOS

EXTRATOR DE RELACIONAMENTOS
SIGNIFICATIVOS
(quant. >...
Modo de Produção
Avaliação de RP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RP = (  quant (PM - PM) ) / qu...
Modo de Produção
Avaliação de RN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

RN = (  quant (PM - PM) ) / qu...
Modo de Produção
Proximidades
DISTÂNCIAS MÉDIAS DE
RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS
SIGNIFICATIVAS...
Modo de Produção
Avaliação de DP
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DP = (  quant (PM - PM) ) / qu...
Modo de Produção
Avaliação de DN
TERMO1

TERMO2

QUANT

TERMO1

PESO

TERMO2

PESO MED

R

DN = (  quant (PM - PM) ) / qu...
Modo de Produção
Execução da Rede Neural
TP

RP

DP

TN

RN

DN

.............................

1 ou 0
Resultados
• Tecnologia da Informação
• Taxa de acertos sobre todos os arquivos:

• Taxa de acertos sobre arq. dentro do p...
Conclusões
• As principais contribuições deste
trabalho foram:
– o desenvolvimento de técnicas inéditas de
KDD / KDT e
– o...
Produções Científicas
• Artigo aprovado no Data Mining 2000,
Cambridge University, UK
Produções Científicas
• Capítulo do livro Data Mining II
Produções Científicas
• Artigo aprovado no SBRN RIO 2000
Contato
Dr. Fernando Hideo Fukuda
Diretor Executivo da Agência de Desenvolvimento e
Inovação Tecnológica da Estácio (ADITE...
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
Próximos SlideShares
Carregando em…5
×

Sistemas Inteligentes para Textos da Web

360 visualizações

Publicada em

Sistemas Inteligentes para Textos da Web apresentado no V Seminário de Pesquisa da Estácio

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
360
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
5
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Sistemas Inteligentes para Textos da Web

  1. 1. Sistemas Inteligentes para Textos da WEB Dr. Eng. Fernando Hideo Fukuda Centro de Conhecimento em Tecnologias da Estácio Agência de Desenvolvimento e Inovação Tecnológica da Estácio Trabalho aprovado para apresentação oral 26 de outubro de 2013
  2. 2. Categoria • Dissertação de Mestrado em Sistemas de Computação pelo Departamento de Engenharia Elétrica da PUC/RJ aprovada em 7 de abril de 1999 • Mestrado realizado com bolsa de estudos da CAPES. • Orientador: Prof. Dr. Emmanuel L. P. Passos
  3. 3. Objetivos • O objetivo principal deste artigo é investigar a aplicação de algoritmos e técnicas de inteligência computacional para o tratamento e seleção de documentos textuais da Internet encontrados na WWW (World Wide Web), bem como a construção de um protótipo para avaliar estas técnicas.
  4. 4. Objetivos • As técnicas de inteligência computacional pesquisadas são baseadas em KDD, Sistemas Especialistas e Redes Neurais para a avaliação de textos da Web sem a necessidade de um PLN, tornando-as independentes da linguagem natural escrita utilizada nos textos.
  5. 5. Processos de KDD / KDT • A WEB pode ser considerada como um enorme Data Warehouse. • Assim, aplicamos os conceitos de KDD (Knowlegde Discovery in Database) para avaliação dos textos da WEB. • KDT (Knowledge Discovery in Text) é um novo ramo do KDD, específico para descoberta de conhecimentos em texto.
  6. 6. Processos de KDD / KDT • Definição do problema – Avaliar e selecionar os textos da WEB baseado em um perfil de interesse.  Data Cleansing (Limpeza dos Dados) – Extração das tags HTML e DHTML; – Extração dos códigos de scripts: • Javascript • VBscript, – Extração das referências às imagens e links;
  7. 7. Processos de KDD / KDT – Conversão dos caracteres com acentuação estendida na codificação ISO Latin-1 para a codificação ASC-II; • Inform&aacutetica  Informática – Conversão dos caracteres minúsculos para maiúsculos para normalização textual. • Informática  INFORMÁTICA
  8. 8. Processos de KDD / KDT  Data Selection (Seleção dos Dados) – Nesta etapa os ruídos são eliminados do texto, mantendo-se apenas os termos significativos. – No modo de treinamento é feita a seleção dos exemplos POSITIVOS e NEGATIVOS.  Data Reduction (Redução dos Dados) – A redução da quantidade de termos do texto é obtida através do dicionário de sinônimos.
  9. 9. Sistemas Especialistas • RUÍDOS – SE termo = “DE” – ENTÃO é ruído e elimina da avaliação do texto • SINÔNIMOS – SE termo = ”VOLLEY” ou termo = ”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou termo = ”VOLEI” ou termo = VOLEYBALL” ou termo = ”VOLEYBOL” – ENTÃO termo = “VOLEIBOL”
  10. 10. Processos de KDD / KDT  Data Representation (Representação dos Dados) – Nesta fase são realizadas as avaliações dos: • TERMOS • RELACIONAMENTOS DE TERMOS • PROXIMIDADES DE RELACIONAMENTOS de cada texto.
  11. 11. Processos de KDD / KDT  Knowledge Learning (Aquisição do Conhecimento)  Modo de treinamento – As avaliações dos termos, relacionamentos e proximidades de cada texto são armazenadas na base positiva ou negativa e processadas para formar a Base de Conhecimentos sobre o perfil de interesse.
  12. 12. Processos de KDD / KDT  Data Representation Dados) (Representação dos – Nesta fase é realizada a avaliação das CARACTERÍSTICAS do texto em função da Base de Conhecimentos, cujos resultados numéricos representam o texto e são fornecidos como entrada da rede neural.
  13. 13. Processos de KDD / KDT  Model and Architecture Selection (Seleção do Modelo e da Arquitetura)  Modo de treinamento – Foi escolhida a técnica de REDES NEURAIS, tendo-se em vista que estas dispensam a modelagem do algoritmo de avaliação do problema pelo especialista.
  14. 14. Processos de KDD / KDT  Knowledge Learning Conhecimento) (Aquisição do  Modo de treinamento – Nesta etapa é realizado o treinamento da REDE NEURAL com os padrões de treinamento obtido do conjunto de textos fornecido pelo usuário para a Aquisição dos Conhecimentos das Características de um determinado perfil.
  15. 15. Processos de KDD / KDT  Classification (Classificação) – A Rede Neural executa a Classificação dos textos em função das Avaliações das Características.  Data Mining (Mineração de Dados) ou Text Mining (Mineração de Texto) – A interpretação da saída da rede neural representa a classificação do texto.
  16. 16. Processos de KDD / KDT  Knowledge Discovery Conhecimento) (Descoberta do – Descobre-se, nesta última etapa do KDD, se o texto está de acordo ou não com o perfil de interesse.
  17. 17. Redes Neurais • Neste trabalho foram investigadas as redes de treinamento supervisionado do tipo feedfoward com algoritmo backpropagation, devido a sua consagrada característica de classificador universal.
  18. 18. Técnicas de avaliação de textos da WEB  Termo – Pode ser uma palavra, raiz de uma palavra, fragmento de palavra ou fragmento do texto.  Ruídos – São termos comuns e por isso não possuem utilidade na pesquisa, já que estarão contidos na maioria dos documentos. Geralmente são artigos, conjunções, pronomes, numerais, símbolos, pontuações, letras isoladas.
  19. 19. Técnicas de avaliação de textos da WEB  Relacionamento entre termos – Os termos contidos em um mesmo fragmento de texto (parágrafo ou documento), geralmente estão relacionados em um fragmento para expressar um determinado conceito. – Logo, a ocorrência destes relacionamentos recebe uma pontuação para indicar o fortalecimento deste conceito no texto.
  20. 20. Técnicas de avaliação de textos da WEB  Proximidade – Os operadores de proximidade localizam termos ou relacionamentos de termos dentro de uma certa distância entre si. – A distância é medida em quantidade de termos, sentenças, parágrafos ou unidades de estruturas. – Neste trabalho é medida a distância em parágrafos entre relacionamentos de termos.
  21. 21. Técnicas de avaliação de textos da WEB  Pesquisa ponderada – A pesquisa ponderada é baseada numa pontuação (pesos) para medir o quanto um documento se enquadra numa consulta. – Este processo é muito útil quando a pesquisa é realizada em grandes bases de documentos.
  22. 22. Técnicas de avaliação de textos da WEB • Métodos de pesquisa ponderada – Contagem do número de documentos que apresentam o termo; – Contagem do número de ocorrências de cada termo ou padrão. – Combinação de estratégias, onde cada termo ou padrão recebe um peso, o qual é multiplicado pela quantidade de ocorrências.
  23. 23. Modelagem do SITEX • Objetivos: – Realizar a conexão de acesso discado à Internet; – Realizar a conexão à Web através do protocolo HTTP baseado no TCP/IP; – Obter a página HTML na URL especificada; – Navegar na WWW (Web) através dos links hipertexto da página HTML;
  24. 24. Modelagem do SITEX • Objetivos: – Abrir e salvar páginas HTML; – Interpretar os comandos HTML da página; – Apresentar a página HTML para visualização gráfica no video; – Extrair o texto da página HTML sem: tags, scripts, referências e links; – Converter as acentuações codificadas em ISO Latin-1 para ASCII;
  25. 25. Modelagem do SITEX • Objetivos: – Extrair o texto sem os ruídos; – Substituir os sinônimos dos termos; – Normalizar os termos; – Abrir e salvar arquivos texto; – Criar a Base de Conhecimento para um perfil de interesse;
  26. 26. Modelagem do SITEX • Objetivos: – Analisar as Características textuais do texto; – Armazenar e recuperar o perfil do usuário; – Avaliar o texto em função do perfil de interesse;
  27. 27. Algoritmo do SITEX • Modo de Treinamento • Modo de Produção
  28. 28. Algoritmo do SITEX • Modo de Treinamento – Avaliação de Termos, Relacionamentos e Proximidades – Criação da Base de Conhecimentos – Avaliação das Características Textuais – Treinamento da Rede Neural – Validação dos Resultados
  29. 29. Algoritmo do SITEX • Modo de Produção – Avaliação de Termos, Relacionamentos e Proximidades – Avaliação das Características Textuais – Execução da Rede Neural – Verificação dos Resultados
  30. 30. Modo de Treinamento
  31. 31. Modo de Treinamento Filtro/Extrator/Conversor DOCUMENTOS EXEMPLOS (positivos e negativos) FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  32. 32. Modo de Treinamento Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  33. 33. Modo de Treinamento Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  34. 34. Modo de Treinamento Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  35. 35. Modo de Treinamento Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  36. 36. Modo de Treinamento Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  37. 37. Modo de Treinamento Criação da Base de Conhecimentos TERMO QUANT  Base de Conhecimentos TERMO PESO TOT PESO
  38. 38. Modo de Treinamento Criação da Base de Conhecimentos TERMO QUANT PESO  Base de Conhecimentos TERMO PESO TOT
  39. 39. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 QUANT  Base de Conhecimentos TERMO1 TERMO2 PESO TOT PESO
  40. 40. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 QUANT PESO  Base de Conhecimentos TERMO1 TERMO2 PESO TOT
  41. 41. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 DIST  Base de Conhecimentos TERMO1 TERMO2 PESO TOT PESO
  42. 42. Modo de Treinamento Criação da Base de Conhecimentos TERMO1 TERMO2 DIST PESO  Base de Conhecimentos TERMO1 TERMO2 PESO TOT
  43. 43. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO PESO TOT / quant. exemplos positivos TERMO PESO MED
  44. 44. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO PESO TOT / quant. exemplos negativos TERMO PESO MED
  45. 45. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos positivos TERMO1 TERMO2 PESO MED
  46. 46. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos negativos TERMO1 TERMO2 PESO MED
  47. 47. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos positivos TERMO1 TERMO2 PESO MED
  48. 48. Modo de Treinamento Criação da Base de Conhecimentos Base de Conhecimentos TERMO1 TERMO2 PESO TOT / quant. exemplos negativos TERMO1 TERMO2 PESO MED
  49. 49. Modo de Treinamento Criação da Base de Conhecimentos TERMO PESO MED TERMO1 TERMO2 PESO MED TERMO1 TERMO2 PESO MED T R D Base de Conhecimentos TERMO PESO MED TERMO1 TERMO2 PESO MED TERMO1 TERMO2 PESO MED T R D
  50. 50. Modo de Treinamento Filtro/Extrator/Conversor DOCUMENTOS EXEMPLOS (positivos e negativos) FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  51. 51. Modo de Treinamento Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  52. 52. Modo de Treinamento Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  53. 53. Modo de Treinamento Avaliação de TP TERMO QUANT PESO TERMO PESO MED T TP = (  quant (PM - PM) ) / quant de termos do texto na base positiva TERMO PESO MED T
  54. 54. Modo de Treinamento Avaliação de TN TERMO QUANT PESO TERMO PESO MED T TN = (  quant (PM - PM) ) / quant de termos do texto na base negativa TERMO PESO MED T
  55. 55. Modo de Treinamento Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  56. 56. Modo de Treinamento Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  57. 57. Modo de Treinamento Avaliação de RP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RP = (  quant (PM - PM) ) / quant de relacionamentos do texto na base positiva TERMO1 TERMO2 PESO MED R
  58. 58. Modo de Treinamento Avaliação de RN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RN = (  quant (PM - PM) ) / quant de relacionamentos do texto na base negativa TERMO1 TERMO2 PESO MED R
  59. 59. Modo de Treinamento Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  60. 60. Modo de Treinamento Avaliação de DP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DP = (  quant (PM - PM) ) / quant de proximidades do texto na base positiva TERMO1 TERMO2 PESO MED R
  61. 61. Modo de Treinamento Avaliação de DN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DN = (  quant (PM - PM) ) / quant de proximidades do texto na base negativa TERMO1 TERMO2 PESO MED R
  62. 62. Modo de Treinamento Treinamento da Rede Neural TP RP DP TN RN DN ............................. 1 ou 0
  63. 63. Modo de Produção
  64. 64. Modo de Produção Filtro/Extrator/Conversor DOCUMENTOS FILTRO DE TAGS HTML E DHTML CONVERSOR DE ACENTUAÇÃO
  65. 65. Modo de Produção Filtro/Extrator/Conversor CONVERSOR minúsculo  MAIÚSCULO EXTRATOR DE TERMOS (eliminador de ruídos) TERMOS ELIMINADOR DE SINÔNIMOS
  66. 66. Modo de Produção Termos QUANT. DE OCORRÊNCIA DE TERMOS EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.) TERMO QUANT PESO
  67. 67. Modo de Produção Avaliação de TP TERMO QUANT PESO TERMO PESO MED T TP = (  quant (PM - PM) ) / quant de termos do texto na base positiva TERMO PESO MED T
  68. 68. Modo de Produção Avaliação de TN TERMO QUANT PESO TERMO PESO MED T TN = (  quant (PM - PM) ) / quant de termos do texto na base negativa TERMO PESO MED T
  69. 69. Modo de Produção Parágrafos DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS TERMO PARÁGRAFO
  70. 70. Modo de Produção Relacionamentos QUANT. DE RELACIONAMENTOS DE TERMOS EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.) PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.) TERMO1 TERMO2 QUANT PESO
  71. 71. Modo de Produção Avaliação de RP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RP = (  quant (PM - PM) ) / quant de relacionamentos do texto na base positiva TERMO1 TERMO2 PESO MED R
  72. 72. Modo de Produção Avaliação de RN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R RN = (  quant (PM - PM) ) / quant de relacionamentos do texto na base negativa TERMO1 TERMO2 PESO MED R
  73. 73. Modo de Produção Proximidades DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média) PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média) TERMO1 TERMO2 DIST PESO
  74. 74. Modo de Produção Avaliação de DP TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DP = (  quant (PM - PM) ) / quant de proximidades do texto na base positiva TERMO1 TERMO2 PESO MED R
  75. 75. Modo de Produção Avaliação de DN TERMO1 TERMO2 QUANT TERMO1 PESO TERMO2 PESO MED R DN = (  quant (PM - PM) ) / quant de proximidades do texto na base negativa TERMO1 TERMO2 PESO MED R
  76. 76. Modo de Produção Execução da Rede Neural TP RP DP TN RN DN ............................. 1 ou 0
  77. 77. Resultados • Tecnologia da Informação • Taxa de acertos sobre todos os arquivos: • Taxa de acertos sobre arq. dentro do perfil: • Taxa de acertos sobre arq. fora do perfil: 93,15% 83,33% 96,36%
  78. 78. Conclusões • As principais contribuições deste trabalho foram: – o desenvolvimento de técnicas inéditas de KDD / KDT e – o desenvolvimento de algoritmos inéditos de avaliação de textos da WEB para um perfil de interesse.
  79. 79. Produções Científicas • Artigo aprovado no Data Mining 2000, Cambridge University, UK
  80. 80. Produções Científicas • Capítulo do livro Data Mining II
  81. 81. Produções Científicas • Artigo aprovado no SBRN RIO 2000
  82. 82. Contato Dr. Fernando Hideo Fukuda Diretor Executivo da Agência de Desenvolvimento e Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO) Diretor do Centro de Conhecimento em Tecnologias E-mail: fernando.fukuda@estacio.br Tel.: +55 (21) 2503-7076 Cel.: +55 (21) 98496-7098

×