Linguística Computacional e
Recuperação da Informação
Alexandre Ribeiro Afonso
Transferência de Conhecimento
• A transferência de conhecimento entre
humanos ocorre de duas maneiras principais:
– Diretamente
• Pessoa a pessoa, por socialização (conversas não
registradas, emissão e percepção de mensagens
corporais)
– Indiretamente
• Por registros, que guardam um fato, uma ideia, um
evento (Imagens, Livros, Revistas, Áudio, Vídeo)
2
A Transferência do Conhecimento
Ocorre por Meio da Linguagem
• Linguagem
– Matemática
– Programação de Computadores
– Corporal
– Cinematográfica
– A Linguagem Natural (Língua)
• Na transferência de conhecimento sem registro
• Na transferência de conhecimento com registro
(documento)
3
A Informação Imagética Substitui a
Linguística ?
“Se uma imagem vale mais do que mil palavras,
então diga isto com uma imagem.”
Millôr Fernandes
• A língua está presente:
• Nas páginas WEB, redes sociais, artigos
• Vídeos
• Imagens
• Informação Multimodal
4
A Ciência Linguística
“Estudo científico da língua. Investigação por
meio de observações controladas e verificáveis
empiricamente e com referência a uma teoria
geral de sua estrutura.”
Lyons (1979)
5
Níveis Linguísticos
• Fonética e Fonologia
– Descrição e uso dos sons das línguas
• Morfologia
– Como as palavras se formam
• Lexicologia e Lexicografia
– Estudo e construção de dicionários e vocabulários
• Sintaxe
– Observação e descrição da gramática
• Semântica
– Estudo do significado das sentenças
• Pragmática e Discurso
– Estudo da língua em uso, o texto e o discurso
6
Linguística Computacional
Pode ser entendida como “a área de conhecimento que
explora as relações entre linguística e informática,
tornando possível a construção de sistemas com
capacidade de reconhecer e produzir informação
apresentada em linguagem natural.”
Vieira e Lima (2001)
7
Linguística Computacional para
Organização e Recuperação da Inf.
• Sumarização Automática de Textos
• Criação automática de resumos para textos on-line
• Indexação
• Extração de termos-chave para representar um documento
• Mineração de Textos
• Agrupamento e classificação de textos por tema
• Sugestão Automática de Conteúdos
• Sugestão de documentos (vídeos, imagens, texto) de acordo
com o índice de outros elementos acessados pelo usuário
• Interação Humano-Computador
• Interação por texto, fala, por imagem e textos
• Mineração de opiniões em redes sociais
• Busca de opiniões em texto sobre um produto comercializado
8
Estudos em Linguística Computacional
para o Português Brasileiro
• Peculiaridades Linguísticas
– Nomes indígenas e de origem africana no
português do Brasil
– As áreas técnicas e científicas possuem
terminologia própria
– O português brasileiro é mais aberto a
estrangeirismos que o português europeu
– A forma de escrita científica pode diferir, na forma
ou na retórica em cada país, para uma mesma
área do conhecimento
9
NILC – Núcleo Interinstitucional de
Linguística Computacional (1993)
10
http://www.nilc.icmc.usp.br
Português Brasileiro – NILC
(Nível Morfológico)
11
os_ART cursos_N de_PREP preparação_N profissional_ADJ em_PREP educação_N
Física_ADJ
Etiquetagem
Radicalização
aluno, alunos, alunas  alun
básico, basicamente  basic
comprou, comprava  compr
Os cursos de preparação profissional em Educação Física
Português Brasileiro – NILC
(Nível Léxico)
12
Busca de padrões em textos, por
autômatos finitos ou expressões
regulares:
(S): Selecionar todos os substantivos
(S|A): Selecionar todos os substantivos ou
adjetivos
(S prep S): Selecionar o padrão “substantivo
seguido de uma preposição e um substantivo”
(SA): Selecionar o padrão “substantivo seguido
de adjetivo”
Português Brasileiro
(Nível Sintático)
13
Português Brasileiro – NILC
(Nível Semântico)
14
Relações semânticas em rede para Substantivos,
Adjetivos, Verbos, Advérbios
Mercado de Trabalho
• Arquiteto da Informação
– Trabalha com texto, imagem e som nas interfaces
computacionais
• Mineração de Textos
– Utilizando softwares específicos extraem
conhecimento de grandes bases textuais
• Indexador
– Selecionar metadados e termos-chave para
representar documentos textuais, vídeos e
imagens
15
Pesquisa Acadêmica
• Desenvolvimento de software
– Sistemas de reconhecimento da fala
– Sistemas de recuperação da informação
– Sistemas de sumarização automática
– Sistemas para análise de redes sociais
• Estudo da linguagem e registro da informação
– Características da comunicação científica brasileira
e terminologia nas áreas de conhecimento
– Métodos de indexação de documentos jurídicos,
empresarias, científicos, jornalísticos, etc.
16
Sistema B2
17
Bibliografia
• LYONS, J. Introdução à lingüística teórica. São
Paulo: Nacional. 1979.
• VIEIRA, Renata; LIMA, Vera LS. Lingüística
computacional: princípios e aplicações.
In: Anais do XXI Congresso da SBC. I Jornada
de Atualização em Inteligência Artificial.
2001. p. 47-86.
18
Obrigado
rafonso.alex@gmail.com
19

Apresentação sobre Linguística computacional e recuperação da informação no ENEBD 2014 - Prof. Alexandre Ribeiro Afonso

  • 1.
    Linguística Computacional e Recuperaçãoda Informação Alexandre Ribeiro Afonso
  • 2.
    Transferência de Conhecimento •A transferência de conhecimento entre humanos ocorre de duas maneiras principais: – Diretamente • Pessoa a pessoa, por socialização (conversas não registradas, emissão e percepção de mensagens corporais) – Indiretamente • Por registros, que guardam um fato, uma ideia, um evento (Imagens, Livros, Revistas, Áudio, Vídeo) 2
  • 3.
    A Transferência doConhecimento Ocorre por Meio da Linguagem • Linguagem – Matemática – Programação de Computadores – Corporal – Cinematográfica – A Linguagem Natural (Língua) • Na transferência de conhecimento sem registro • Na transferência de conhecimento com registro (documento) 3
  • 4.
    A Informação ImagéticaSubstitui a Linguística ? “Se uma imagem vale mais do que mil palavras, então diga isto com uma imagem.” Millôr Fernandes • A língua está presente: • Nas páginas WEB, redes sociais, artigos • Vídeos • Imagens • Informação Multimodal 4
  • 5.
    A Ciência Linguística “Estudocientífico da língua. Investigação por meio de observações controladas e verificáveis empiricamente e com referência a uma teoria geral de sua estrutura.” Lyons (1979) 5
  • 6.
    Níveis Linguísticos • Fonéticae Fonologia – Descrição e uso dos sons das línguas • Morfologia – Como as palavras se formam • Lexicologia e Lexicografia – Estudo e construção de dicionários e vocabulários • Sintaxe – Observação e descrição da gramática • Semântica – Estudo do significado das sentenças • Pragmática e Discurso – Estudo da língua em uso, o texto e o discurso 6
  • 7.
    Linguística Computacional Pode serentendida como “a área de conhecimento que explora as relações entre linguística e informática, tornando possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural.” Vieira e Lima (2001) 7
  • 8.
    Linguística Computacional para Organizaçãoe Recuperação da Inf. • Sumarização Automática de Textos • Criação automática de resumos para textos on-line • Indexação • Extração de termos-chave para representar um documento • Mineração de Textos • Agrupamento e classificação de textos por tema • Sugestão Automática de Conteúdos • Sugestão de documentos (vídeos, imagens, texto) de acordo com o índice de outros elementos acessados pelo usuário • Interação Humano-Computador • Interação por texto, fala, por imagem e textos • Mineração de opiniões em redes sociais • Busca de opiniões em texto sobre um produto comercializado 8
  • 9.
    Estudos em LinguísticaComputacional para o Português Brasileiro • Peculiaridades Linguísticas – Nomes indígenas e de origem africana no português do Brasil – As áreas técnicas e científicas possuem terminologia própria – O português brasileiro é mais aberto a estrangeirismos que o português europeu – A forma de escrita científica pode diferir, na forma ou na retórica em cada país, para uma mesma área do conhecimento 9
  • 10.
    NILC – NúcleoInterinstitucional de Linguística Computacional (1993) 10 http://www.nilc.icmc.usp.br
  • 11.
    Português Brasileiro –NILC (Nível Morfológico) 11 os_ART cursos_N de_PREP preparação_N profissional_ADJ em_PREP educação_N Física_ADJ Etiquetagem Radicalização aluno, alunos, alunas  alun básico, basicamente  basic comprou, comprava  compr Os cursos de preparação profissional em Educação Física
  • 12.
    Português Brasileiro –NILC (Nível Léxico) 12 Busca de padrões em textos, por autômatos finitos ou expressões regulares: (S): Selecionar todos os substantivos (S|A): Selecionar todos os substantivos ou adjetivos (S prep S): Selecionar o padrão “substantivo seguido de uma preposição e um substantivo” (SA): Selecionar o padrão “substantivo seguido de adjetivo”
  • 13.
  • 14.
    Português Brasileiro –NILC (Nível Semântico) 14 Relações semânticas em rede para Substantivos, Adjetivos, Verbos, Advérbios
  • 15.
    Mercado de Trabalho •Arquiteto da Informação – Trabalha com texto, imagem e som nas interfaces computacionais • Mineração de Textos – Utilizando softwares específicos extraem conhecimento de grandes bases textuais • Indexador – Selecionar metadados e termos-chave para representar documentos textuais, vídeos e imagens 15
  • 16.
    Pesquisa Acadêmica • Desenvolvimentode software – Sistemas de reconhecimento da fala – Sistemas de recuperação da informação – Sistemas de sumarização automática – Sistemas para análise de redes sociais • Estudo da linguagem e registro da informação – Características da comunicação científica brasileira e terminologia nas áreas de conhecimento – Métodos de indexação de documentos jurídicos, empresarias, científicos, jornalísticos, etc. 16
  • 17.
  • 18.
    Bibliografia • LYONS, J.Introdução à lingüística teórica. São Paulo: Nacional. 1979. • VIEIRA, Renata; LIMA, Vera LS. Lingüística computacional: princípios e aplicações. In: Anais do XXI Congresso da SBC. I Jornada de Atualização em Inteligência Artificial. 2001. p. 47-86. 18
  • 19.