Concebendo e construindo um
corpus
para a questão do acento no
Português
Brasileiro
Bruno Ferrari Guide
Orientação: Marcel...
Objetivos
 Apresentar a questão do acento no Português Brasileiro:
 Perfil do acento no PB
 Abordagens teóricas (Bisol ...
O Acento no PB
 Restrito as últimas três sílabas da palavra:
 Oxítonas: ‘caqui’, ‘sordidez’
 Paroxítonas: ‘corda’, ‘bel...
O Acento no PB - perfil
 Corpus ortográfico wikipedia:
 Dicionário com 40.924 palavras listadas e já separadas de acordo...
O acento no PB - perfil
 Maioria das palavras se encaixa nesses dois grupos:
 Paroxítonas terminada em vogal (sílaba lev...
O acento no PB – perfil
 Dos 30% que sobram:
 12% são proparóxitonas
 6% são oxítonas terminadas em vogal [consoante su...
O acento no PB - Teorias
 Abordagens teóricas (Bisol (1992), Lee (1995))
 Bisol (1992):
Padrão-
 Sílaba pesada final at...
O acento no PB - Teorias
 Abordagen teórica (Lee (1995))
 Não verbos:
 Padrão:
 Elemento mais a direita do radical da ...
O acento no PB - Teorias
 Abordagen teórica (Hermans & Wetzels (2012))
 Os autores apresentam uma investigação sobre o a...
Abordagem Computacional
 Criação de modelos
 Implementar as teorias a fim de fundamentar uma discussão quantitativa.
(Al...
Concebendo e construindo um corpus
fonológico
 Necessidade de automatização
 Extrair padrões fonológicos exige uma grand...
Concebendo e construindo um corpus
fonológico
 Construindo um transcritor: Programação e Chave de transcrição
 Python
 ...
Concebendo e construindo um corpus
fonológico
 Construindo o Corpus:
 Textos Escritos
 Artigos Acadêmicos (342.847 pala...
Apontamentos
 Esse corpus servirá para a extração de padrões para alimentar
algumas abordagens probabilísticas para a que...
Bibliografia
 JURAFSKY, D. and MARTIN, J. (2008).
Speech and Language Processing.
Upper Saddle River, NJ: Prentice Hall.
...
Obrigado pela atenção!
Próximos SlideShares
Carregando em…5
×

Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

238 visualizações

Publicada em

As abordagens computacionais utilizadas no desenvolvimento de análises de questões linguísticas são fortemente baseadas no uso de corpora.
O desenvolvimento e constituição da linguística computacional como uma abordagem científica se deu fortemente através da visão da computação como uma ferramenta de construção de corpus linguístico com um volume de informação sem precedentes. Além da construção, o desenvolvimento de algoritmos para a análise dessas enormes quantidades de informação está no cerne da linguística computacional.
É dentro deste contexto que se insere o projeto desenvolvido desde o começo do ano de 2014 junto ao departamento de linguística da Universidade de São Paulo, intitulado 'Abordagem computacional para a questão do acento no Português Brasileiro', desenvolvido por Bruno Guide e orientado pelo professor doutor Marcelo Ferreira.
A ideia do projeto é analisar as principais teorias que investigam a questão do acento (Bisol 1992 e Lee 1994) e ao mesmo tempo traçar um perfil detalhado do comportamento do acento no idioma.
O perfil traçado foi feito a partir da montagem de um corpus relevante para a ocasião, o que levanta uma série de questões metodológicas: O que é, em termos quantitativos e qualitativos, um corpus relevante para a questão do acento? É possível construir o corpus, que tratará de fonologia prosódica, a partir de textos escritos? Quais variáveis devem ser levadas em conta na constituição do corpus?
A fim de responder tais perguntas e conceber um corpus que seguisse as práticas metodológicas oriundas dos estudos especializados da área da linguística de corpus, o desenvolvimento do projeto foi conduzido de modo cuidadoso através da leitura e reconhecimento das práticas explicitadas por grandes pesquisadores da área, como Sardinha (2004).
A presente comunicação irá expor o corpus construído, a ferramenta computacional desenvolvida para fazer a transição escrita-oral (em conjunto com a pesquisadora Aline Benevides) e os primeiros resultados da descrição do perfil do comportamento do acento no Português Brasileiro.

Publicada em: Ciências
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Concebendo e construindo um corpus para a questão do acento no Português Brasileiro

  1. 1. Concebendo e construindo um corpus para a questão do acento no Português Brasileiro Bruno Ferrari Guide Orientação: Marcelo Barra Ferreira Universidade de São Paulo 2015
  2. 2. Objetivos  Apresentar a questão do acento no Português Brasileiro:  Perfil do acento no PB  Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))  Alcance das teorias  Abordagem computacional:  Criação e Implementação de modelos  Extração de padrões de copora diversos  Construindo um corpus:  Fala versus Escrita  Os diferentes registros  Apontamentos
  3. 3. O Acento no PB  Restrito as últimas três sílabas da palavra:  Oxítonas: ‘caqui’, ‘sordidez’  Paroxítonas: ‘corda’, ‘beleza’  Proparoxítonas: ‘último’, ‘metódico’  Comportamento previsível:  ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’  Flexões verbais;  Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.  Levando em conta o peso silábico:  Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
  4. 4. O Acento no PB - perfil  Corpus ortográfico wikipedia:  Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual. Total 40924 100% Oxítonas 10183 25% Paroxítonas 25967 63% Proparoxítonas 4774 12%
  5. 5. O acento no PB - perfil  Maioria das palavras se encaixa nesses dois grupos:  Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]  Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER] Aproximadamente 70% do total das palavras está representado aqui. Paroxítonas 25967 100% Paroxítonas terminadas em V. 20886 80% Oxítonas 10183 100% Oxítonas terminadas em C. 7888 77%
  6. 6. O acento no PB – perfil  Dos 30% que sobram:  12% são proparóxitonas  6% são oxítonas terminadas em vogal [consoante subjacente?]  12% são paroxítonas terminadas em consoantes [plural]
  7. 7. O acento no PB - Teorias  Abordagens teóricas (Bisol (1992), Lee (1995))  Bisol (1992): Padrão-  Sílaba pesada final atrai o acento.  Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à esquerda (troqueu) partindo da borda direita da palavra.  Lee (1995):  Padrão (Verbos):  Na forma final da palavra, faça constituintes binários.  Elemento proeminente é o mais a esquerda do pé. (Paroxítonas e proparoxítonas)  Exceções (Verbos):  Na forma final da palavra, o acento vai cair no elemento mais à direita.  (Oxítonas)
  8. 8. O acento no PB - Teorias  Abordagen teórica (Lee (1995))  Não verbos:  Padrão:  Elemento mais a direita do radical da palavra. (Paroxítonas terminadas em vogal, oxítonas)  Exceções:  No radical da palavra, derivar constituintes binários.  O item proeminente do constituinte é o mais a esquerda do pé. (iambo) (Paroxítonas terminadas em consoante, proparoxítonas)  Abordagem de Lee exige informações morfológicas, dá um novo sentido mas não elimina a marcação arbitrária.
  9. 9. O acento no PB - Teorias  Abordagen teórica (Hermans & Wetzels (2012))  Os autores apresentam uma investigação sobre o acento baseada na observação do comportamento dos falantes diantes de palavras novas (neologismos).  A partir disso, entendem o funcionamento do acento através das noções de padrão produtivo e padrão improdutivo.  Padrão produtivo obedece ao peso silábico, o improdutivo não.
  10. 10. Abordagem Computacional  Criação de modelos  Implementar as teorias a fim de fundamentar uma discussão quantitativa. (Alcance das teorias)  Extração de padrões de copora diversos  Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?  A análise de um grande volume de dados, porém, exige um grande volume de dados
  11. 11. Concebendo e construindo um corpus fonológico  Necessidade de automatização  Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.  Fala versus Escrita – algumas diferenças  Correspondência entre sons e escrita:  Epêntese – “Capta” é paroxítona?  Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...  Letra representando mais de um som: ‘r’, ‘s’, ‘x’...
  12. 12. Concebendo e construindo um corpus fonológico  Construindo um transcritor: Programação e Chave de transcrição  Python  Linguagem de programação simples e poderosa.  Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.  NLTK, Scikit-Learn, Pandas...  Chave de transcrição baseada em Guide (2013):  Cada caractere representa um som.  Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais  Codificação ASCII
  13. 13. Concebendo e construindo um corpus fonológico  Construindo o Corpus:  Textos Escritos  Artigos Acadêmicos (342.847 palavras)  Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)  Blogs (215.126 palavras)  Textos Falados ProjetoSP: (230.116 palavras) 60 entrevistas com diferentes perfis sociolinguisticos Iboruna (corpus recebendo tratamento) : 151 entrevistas com diferentes perfis sociolinguisticos 11 de diário de campo  Total: 2005339 palavras
  14. 14. Apontamentos  Esse corpus servirá para a extração de padrões para alimentar algumas abordagens probabilísticas para a questão do acento:  Acentuador baseado em n-gramas.  Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento  Acentuador baseado em um classificador bayesiano ingênuo.  Traços para a classificação podem incluir classe morfológica, frequência da palavra, informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...
  15. 15. Bibliografia  JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.  LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado – UNICAMP  BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.  GUIDE, B, F. (2013). Construção de um silabificador probabilístico para o português brasileiro. Iniciação científica pela Universidade de São Paulo.  Wetzels, W. L. and Hermans, B. Productive and Unproductive stress patterns in brazilian portuguese. (2012) Revista Letras & Letras. v. 28.  BYBEE, Joan. (2001). Phonology and language use. Cambridge: Cambridge University Press.  BERBER SARDINHA, Tony. "O que é um corpus representativo." Direct Papers 44 (2000).
  16. 16. Obrigado pela atenção!

×