Abordagem
computacional para a
questão do acento no
português brasileiro
Bruno Ferrari Guide
Orientador: Marcelo Barra Fer...
O projeto: Objetivos
1. Investigação do acento em um corpus ortográfico de 40 mil
palavras.
2. Análise das principais teor...
Acento no PB - Introdução
• Restrito as últimas três sílabas da palavra:
• Oxítonas: ‘caqui’, ‘sordidez’
• Paroxítonas: ‘c...
Acento no PB – Wikipedia
• Corpus ortográfico wikipedia:
• Dicionário com 40.924 palavras listadas e já separadas de acord...
Acento no PB - Comportamento
• Maioria das palavras se encaixa nesses dois grupos:
• Paroxítonas terminada em vogal (sílab...
Acento no PB - Comportamento
• Dos 30% que sobram:
• 12% são proparóxitonas
• 6% são oxítonas terminadas em vogal [consoan...
Acento no PB – Abordagens teóricas
• Teoria Métrica:
• Bisol (1992):
Padrão-
• Sílaba pesada final atrai o acento.
• Caso ...
Acento no PB – Abordagens teóricas
• Lee (1995):
• Acento depende de informações morfológicas.
• Não verbos:
• Padrão:
• E...
Acento no PB – Abordagens teóricas
• Lee (1995):
• Verbos:
• Padrão:
• Na forma final da palavra, faça constituintes binár...
Acento no PB - Análise
• Teorias analisadas postulam regras categóricas. Porém se não forem
aplicadas marcações lexicais i...
Modelo de N-gramas – Introdução
• Previsão do tempo:
• Categorias de clima: Chuvoso, Nublado e Ensolarado.
• Podemos tenta...
Modelo de N-gramas – Introdução
• Poderíamos considerar o histórico para criar um modelo baseado nas
frequências, dando es...
Modelo de N-gramas – Introdução
• E então podemos criar o seguinte modelo de transição climática
levando em conta o clima ...
Modelo de N-gramas – Introdução
• O primeiro modelo, que considerava apenas as frequências, é uma
aplicação do modelo de U...
Modelo de N-gramas – Aplicação na Questão do Acento
• A ideia é criar um modelo de aprendizagem baseado em n-gramas,
que i...
Modelo de N-gramas – Aplicação na Questão do Acento
EXEMPLO
• Input:
• ‘ca-lor’
• Candidatos:
1. ‘ca-lor’
2. ‘ca-lor’
Cand...
Modelo de N-Gramas- O que é modelado?
• Um modelo simples de linguagem, em que a probabilidade de um
determinado segmento ...
Próximos passos
• Continuar a desenvolver outra faceta da abordagem computacional
para a questão: um modelo de aprendizage...
Bibliografia
• JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
...
Muito Obrigado!
Próximos SlideShares
Carregando em…5
×

Bruno Guide- Apresentação de Projeto

216 visualizações

Publicada em

Apresentação do Projeto de mestrado em curso no Departamento de Linguística da Universidade de São Paulo intitulado "Abordagem Computacional para a Questão do Acento no Português Brasileiro

Publicada em: Ciências
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
216
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Bruno Guide- Apresentação de Projeto

  1. 1. Abordagem computacional para a questão do acento no português brasileiro Bruno Ferrari Guide Orientador: Marcelo Barra Ferreira
  2. 2. O projeto: Objetivos 1. Investigação do acento em um corpus ortográfico de 40 mil palavras. 2. Análise das principais teorias do acento. 3. Estruturando a Abordagem Computacional: Modelo de N-gramas. 4. Próximos passos: as perspectivas de desenvolvimento do projeto
  3. 3. Acento no PB - Introdução • Restrito as últimas três sílabas da palavra: • Oxítonas: ‘caqui’, ‘sordidez’ • Paroxítonas: ‘corda’, ‘beleza’ • Proparoxítonas: ‘último’, ‘metódico’ • Comportamento previsível: • ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’ • Flexões verbais; • Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível. • Levando em conta o peso silábico: • Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
  4. 4. Acento no PB – Wikipedia • Corpus ortográfico wikipedia: • Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual. TOTAL 40924 100% Oxítonas 10183 25% Paroxítonas 25967 63% Proparoxítonas 4774 12%
  5. 5. Acento no PB - Comportamento • Maioria das palavras se encaixa nesses dois grupos: • Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER] • Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER] Aproximadamente 70% das palavras estão representadas aqui. Oxítonas 10183 100% Oxít. Terminadas em C 7888 77% Paroxítonas 25967 100% Parox. Terminadas em V 20886 80%
  6. 6. Acento no PB - Comportamento • Dos 30% que sobram: • 12% são proparóxitonas • 6% são oxítonas terminadas em vogal [consoante subjacente?] • 12% são paroxítonas terminadas em consoantes [plural] • Próximas etapas: • Transcrever e acentuar as palavras. • Informações morfológicas (remover plurais). • Identificar se existem padrões nesses grupos “periféricos”.
  7. 7. Acento no PB – Abordagens teóricas • Teoria Métrica: • Bisol (1992): Padrão- • Sílaba pesada final atrai o acento. • Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à esquerda (troqueu) partindo da borda direita da palavra. No padrão estão as palavras oxítonas terminadas em consoante, paroxítonas terminadas em vogal. As proparoxítonas e as paroxítonas terminadas em consoante são marcadas como extramétricas no léxico. As oxítonas terminadas em vogal apresentam uma consoante abstrata final na forma lexical [caféC – cafeZal]
  8. 8. Acento no PB – Abordagens teóricas • Lee (1995): • Acento depende de informações morfológicas. • Não verbos: • Padrão: • Elemento mais a direita do radical da palavra. (Paroxítonas terminadas em vogal, oxítonas) • Exceções: • No radical da palavra, derivar constituintes binários. • O item proeminente do constituinte é o mais a esquerda do pé. (iambo) • Não iterativo. • Direita para Esquerda. (Paroxítonas terminadas em consoante, proparoxítonas)
  9. 9. Acento no PB – Abordagens teóricas • Lee (1995): • Verbos: • Padrão: • Na forma final da palavra, faça constituintes binários. • Elemento proeminente é o mais a esquerda do pé. • Não iterativo. • Direita para a esquerda. (Paroxítonas e proparoxítonas) • Exceções: • Na forma final da palavra, o acento vai cair no elemento mais à direita. • (Oxítonas) • Partindo de informações morfológicas, deixa as marcações menos arbitrárias, mas não as elimina.
  10. 10. Acento no PB - Análise • Teorias analisadas postulam regras categóricas. Porém se não forem aplicadas marcações lexicais individuais, elas só dão conta de uma determinada porção do conjunto de palavras. Próximas etapas: • Medir a correção da aplicação das duas teorias num corpus sem considerar as marcações de exceção.
  11. 11. Modelo de N-gramas – Introdução • Previsão do tempo: • Categorias de clima: Chuvoso, Nublado e Ensolarado. • Podemos tentar prever o clima de amanhã aleatoriamente: • Porém, se tivéssemos as informações climáticas do passado: Clima de amanhã Chance de acertar Chuvoso 33% Nublado 33% Ensolarado 33% DIA 1 2 3 4 5 6 7 8 9 10 CLIMA SOL NUB SOL SOL NUB CHUV CHUV NUB CHUV SOL
  12. 12. Modelo de N-gramas – Introdução • Poderíamos considerar o histórico para criar um modelo baseado nas frequências, dando essa distribuição para as categorias: • Apesar de ser um pouco mais informativo, nós podemos desenvolver um modelo que também olha para o clima do dia de hoje: DIA 11 CLIMA SOL Clima de amanhã Frequência no Passado (Chance de acertar) Chuvoso 30% Nublado 30% Ensolarado 40%
  13. 13. Modelo de N-gramas – Introdução • E então podemos criar o seguinte modelo de transição climática levando em conta o clima de um dia para prever o clima do dia seguinte: • Baseado nessa tabela e acreditando na relevância do corpus utilizado, podemos dizer que a previsão para o clima de amanhã é de 50% de chance de nublado, 50% de chance de ensolarado. Clima do dia X -> Chuvoso Nublado Ensolarado Clima do dia X+1 ↓ Chuvoso 1 (33%) 2 (66%) 0 (0%) Nublado 1 (33%) 0 (0%) 2 (50%) Ensolarado 1 (33%) 1 (33%) 2 (50%)
  14. 14. Modelo de N-gramas – Introdução • O primeiro modelo, que considerava apenas as frequências, é uma aplicação do modelo de Uni-gramas. • O segundo, que considerava o segmento de dois dias para criar a tabela de transição, é uma aplicação do modelo de Bi-gramas. • O segundo é mais informativo que o primeiro, um modelo de tri- gramas seria mais informativo ainda, mas o número de estados possíveis é maior, o tamanho do corpus necessário para que a informatividade seja relevante também é bem maior.
  15. 15. Modelo de N-gramas – Aplicação na Questão do Acento • A ideia é criar um modelo de aprendizagem baseado em n-gramas, que irá associar a cada segmento (no caso, cada som) uma distribuição de probabilidades transicionais extraídas do corpus. • No caso do acento, isso se dará da seguinte maneira: • Uma palavra sem marcação de acento será apresentada ao programa • Serão gerados os possíveis candidatos para a palavra sem marcação, e a cada um será atribuído uma probabilidade baseado no modelo.
  16. 16. Modelo de N-gramas – Aplicação na Questão do Acento EXEMPLO • Input: • ‘ca-lor’ • Candidatos: 1. ‘ca-lor’ 2. ‘ca-lor’ Candidato 1: bigramas: ca, a-, -l, lo, or trigramas:ca-, a-l, -lo, lor Candidato 2: bigramas: ca, a-, -l, lo, or trigramas: ca-, a-l, -lo, lor
  17. 17. Modelo de N-Gramas- O que é modelado? • Um modelo simples de linguagem, em que a probabilidade de um determinado segmento ocorrer depende apenas dos ‘n-1’ segmentos anteriores. • Abordagem indutiva da questão, é especialmente interessante ver o comportamento dela nos casos em que as abordagens categoriais marcam como exceções. • Não é uma solução categorial. Porém é uma solução bastante barata em termos computacionais, ao mesmo tempo é capaz de revelar padrões locais e também se há algum tipo de atração do acento por determinados fonemas/ contextos fonêmicos.
  18. 18. Próximos passos • Continuar a desenvolver outra faceta da abordagem computacional para a questão: um modelo de aprendizagem estatístico baseado em um Classificador Bayesiano Ingênuo. • Essa abordagem será capaz de atribuir probabilidades a diversas variáveis, podendo incluir classes de palavra, peso silábico e também a localidade da abordagem por n-gramas. • Apesar de ser mais pesada computacionalmente, essa abordagem poderá possibilitar a análise da relevância de diversos traços para a questão do acento.
  19. 19. Bibliografia • JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall. • LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado – UNICAMP • BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS. • BIRD, S., KLEIN, E. and LOPER, E. (2009). Natural Language Processing with Python. Sebastopol, CA: O’Reilly. • NORVIG, P. (2011) On Chomsky and the Two Cultures of Statistical Learning http://norvig.com/chomsky.html
  20. 20. Muito Obrigado!

×