VIII Encontro de CorpusNovembro, 2009UERJ            CORPOBRAS:    UM CORPUS REPRESENTATIVO DO         PORTUGUÊS DO BRASIL...
Objetivos: Apresentação do Projeto CORPOBRAS Pesquisas baseadas no CORPOBRAS
CORPOBRAS PUC-Rio Projeto: ‘Compilação de um corpus Projeto: representativo do português do Brasil e análise multidimensio...
CORPOBRAS PUC-RioObjetivos:Objetivos:  Estudo de diversos gêneros do discurso oral,  escrito e escrito para ser falado.   ...
Análise Multidimensional Variação entre 23 gêneros do inglês (fala e escrita) Corpus: aprox. 1.000.000 palavras Base estat...
Fases do projeto CORPOBRAS: a) Coleta inicial:     1997-     1997- 2002: Compilação de gêneros acadêmicos e profissionais ...
Organização do corpus:   Textos compilados em fontes diversas,   identificados, codificados e gravados em duas   versões, ...
Composição do CORPOBRAS: Corpora cedidos por Projetos de Pesquisa do Departamento de Letras.     Aquisição de linguagem(LA...
Composição do CORPOBRAS:  Corpora específicos compilados por alunos de PG para teses e  dissertações:     notícias de jorn...
CORPOBRAS PUC-RioCaracterísticas Modo: Oral, Escrito e Escrito para ser falado Tempo: Contemporâneo Seleção: Amostragem eq...
RepresentatividadeO que está sendo representado, ou seja, de que representatividade estamosfalando?Segundo Sardinha (2004)...
RepresentatividadeCompilação de corpus / Representatividade     Os textos devem ser produzidos por falantes / escritores n...
Variedade regionalGênero      Origem das amostras          Quantidade            Jornal O Globo                   3       ...
RepresentatividadeControle quanto à variedade de assuntos dos textos e às áreas deatuação dos escritores, ou seja, os text...
CORPOBRAS 2009  Tamanho:Aproximadamente 1.200.000 palavras (Médio-grande)                                   (Médio-  Total...
CORPOBRAS PUC-Rio     Fontes dos dados:                                 Escaneamento         Impressas                    ...
CORPOBRAS PUC-RioOrganização dos Metadados1. Codificação dos textos:    ex.: CONCAR1PORT12. Levantamento de metadados:    ...
CORPOBRAS PUC-RioMetadados                                                                                 Duração        ...
CORPOBRAS PUC-Rio 2009                                    Discurso Escrito                                                ...
CORPOBRAS PUC-Rio 2009                                      Discurso Oral Conversas cariocas                              ...
CORPOBRAS PUC-Rio           CORPOBRAS - Modalidades783.204palavras                                       Discurso Escrito ...
CORPOBRAS PUC-RioGêneros coletados para compilaçãoDiscurso oral:  Check-  Check-in de companhia aérea;                    ...
Pesquisas baseadas noCORPOBRAS PUC-Rio Análises automáticas (e semi-automáticas) com o                         semi- auxíl...
Pesquisas baseadas no CORPOBRAS:Interfaces  Linguística Sistêmico-Funcional e Linguística de Corpus:              Sistêmic...
Pesquisas baseadas no CORPOBRAS PUC-Rio  Abordagens de corpus com foco na análise do  discursivo em português do Brasil :1...
CORPOBRAS:Características do uso de um traçolinguístico.Uso de nominalizações em:    Artigos acadêmicos de nutrição e ling...
CORPOBRAS:     Nominalizações em artigos acadêmicosCorpus: Artigos de Pesquisa em inglêsCorpus:                           ...
CORPOBRAS:Realização de uma função específicada língua. Análise sistêmico-funcional (Halliday, 1994 , Halliday e Matthiess...
CORPOBRAS:Caracterizar uma variedade dalíngua ou um gênero discursivo.Análise multidimensional (Biber, 1988, 1995):    Red...
Análise multidimensional de redações de alunos universitários           Explicitação do Contexto Situacional e            ...
CORPOBRAS PUC-RioProjeto atual:  Escrita e inclusão social: análise de corpus e a metáfora  gramatical no ensino médio  (E...
Etapas futuras: Expansão da compilação: incorporação de gêneros já coletados Organização dos novos gêneros: Codificação e ...
Referências AMARANTE, R. M. C. (2009). Heróis de Papel: A representação do                         2009)          Papel: j...
BIBER, D. (1995). Dimensions of Register Variation: A Cross-linguistic Comparison.              1995)                     ...
OLIVEIRA, L. P. ; DIAS, M. C. P. (no prelo) Compilação de corpus:       corpus:Representatividade e o CORPOBRAS. Calidoscó...
E-mails:                   luciapo@puc-                   luciapo@puc-rio.br           bianevalerio@yahoo.com.br          ...
Corpobras:um corpus representativo do portugues do brasil
Corpobras:um corpus representativo do portugues do brasil
Próximos SlideShares
Carregando em…5
×

Corpobras:um corpus representativo do portugues do brasil

1.369 visualizações

Publicada em

Apresentação realizada no VIII Encontro de Corpus - UERJ, Novembro, 2009.

Publicada em: Educação
  • Seja o primeiro a comentar

Corpobras:um corpus representativo do portugues do brasil

  1. 1. VIII Encontro de CorpusNovembro, 2009UERJ CORPOBRAS: UM CORPUS REPRESENTATIVO DO PORTUGUÊS DO BRASIL Lúcia Pacheco de Oliveira (PUC-Rio) (PUC- Rubiane Guilherme Valério (PUC-Rio) (PUC- Maria Geralda Pereira Lanziotti (FSB-RJ) (FSB- Renata Maria Cantanhede Amarante (PUC-Rio) (PUC-
  2. 2. Objetivos: Apresentação do Projeto CORPOBRAS Pesquisas baseadas no CORPOBRAS
  3. 3. CORPOBRAS PUC-Rio Projeto: ‘Compilação de um corpus Projeto: representativo do português do Brasil e análise multidimensional da variação entre gêneros discursivos’. discursivos’.(Edital Universal CNPq 480143/2004-8) 480143/2004-
  4. 4. CORPOBRAS PUC-RioObjetivos:Objetivos: Estudo de diversos gêneros do discurso oral, escrito e escrito para ser falado. falado. Descrição abrangente do português do Brasil. Brasil. Análise da variação multidimensional entre textos e gêneros discursivos (Biber, 1988). 1988)
  5. 5. Análise Multidimensional Variação entre 23 gêneros do inglês (fala e escrita) Corpus: aprox. 1.000.000 palavras Base estatística: Análise Fatorial (Biber, 1988, 1995)
  6. 6. Fases do projeto CORPOBRAS: a) Coleta inicial: 1997- 1997- 2002: Compilação de gêneros acadêmicos e profissionais (inglês / português) 227.440 palavras. b) Ampliação do corpus: 2003 - 2005: Compilação prioritária de gêneros do discurso escrito. 660.000 palavras c) Ampliação e organização: 2006 - 2007: Compilação prioritária de gêneros do discurso oral e escrito para ser falado. 2008 - 2009: Compilação mista de gêneros do discurso oral e escrito. META: 1.000.000 palavras
  7. 7. Organização do corpus: Textos compilados em fontes diversas, identificados, codificados e gravados em duas versões, TXT e DOC. Metadados para os gêneros, contendo informações sobre cada texto. Textos arquivados separadamente e em conjunto, de acordo com cada gênero discursivo.
  8. 8. Composição do CORPOBRAS: Corpora cedidos por Projetos de Pesquisa do Departamento de Letras. Aquisição de linguagem(LAPAL): • conversas com crianças • (84.573 palavras) Análise da conversa/Sociointeracional • atendimentos ao cliente • (215.671 palavras)
  9. 9. Composição do CORPOBRAS: Corpora específicos compilados por alunos de PG para teses e dissertações: notícias de jornal do Rio de Janeiro e São Paulo; classificadas em 5 editorias: cidade, cultura, economia, esportes e país. cidade, cultura, economia, (40.409 palavras). redações de vestibular do Rio de Janeiro e Minas Gerais; 4 universidades; classificadas de acordo com as notas. (28.523 palavras). Textos compilados especialmente para o corpus.
  10. 10. CORPOBRAS PUC-RioCaracterísticas Modo: Oral, Escrito e Escrito para ser falado Tempo: Contemporâneo Seleção: Amostragem equilibrada Conteúdo: Diversidade discursiva Autores: Língua nativa (português L1) Finalidade: Estudo da variação entre gêneros Representatividade: Variedade de gêneros
  11. 11. RepresentatividadeO que está sendo representado, ou seja, de que representatividade estamosfalando?Segundo Sardinha (2004), quando falamos de um corpus representativo, 2004),temos de considerar três questões: do que, para que, para quem? questões:Do que ?Representação de uma ampla variação das possibilidades da escrita na línguaportuguesa.portuguesa. (Lanziotti, 2002). 2002) Gêneros Número de palavras por gênero E-mail 1.842 Carta pessoal 7.813 Carta profissional 3.150 Redação 3.387 Artigo científico 13.873 Editorial 7.915 Notícia 4.756 Circular 2.592 Discurso político 7.205 Romance 13.041 Crônica 10.179 Total 75.753
  12. 12. RepresentatividadeCompilação de corpus / Representatividade Os textos devem ser produzidos por falantes / escritores nativos da língua; Os textos devem ser produzidos por falantes / escritores únicos; Os textos devem ser produzidos em diferentes regiões do país para representar a variedade regional de forma abrangente. (Oliveira e Dias, no prelo)
  13. 13. Variedade regionalGênero Origem das amostras Quantidade Jornal O Globo 3 Jornal do Brasil 4 Jornal O Povo do Rio 3 Jornal Estado de São Paulo 1 Jornal de Santa Catarina 1Editorial Jornal de Brasília 1 Jornal Tribuna de Alagoas 1 Jornal A Notícia 1 Jornal de Hoje 1 Jornal O Globo 3 Jornal do Brasil 4 Jornal O Povo do Rio 3 Jornal Estado de São Paulo 1 Jornal de Santa Catarina 1Notícia Jornal de Brasília 1 Jornal Tribuna de Alagoas 1 Jornal A Notícia 1 Jornal de Hoje 1
  14. 14. RepresentatividadeControle quanto à variedade de assuntos dos textos e às áreas deatuação dos escritores, ou seja, os textos não somente abordam temasdiferentes como também, geralmente, são provenientes de diferentesáreas de conhecimento; conhecimento;Controle do aspecto tempo. A maioria dos textos coletados foram tempo.escritos a partir de 1990, e somente as cartas pessoais e os romances 1990,foram escritos ao longo dos últimos 100 anos (1901-2001); 1901-2001)Em relação ao tamanho do corpus: valores foram fixados a partir da corpus:comparação de valores utilizados em estudos multidimensionaisanteriores (Biber, 1995). 1995)Em relação ao tamanho das amostras: 1000 palavras são capazes de amostras:representar vários traços gramaticais (Biber, Conrad e Reppen, 1998); 1998)Em relação à quantidade de textos: 10 textos são capazes de textos:representar as categorias de gêneros de um corpus (cf. LOB) (Biber, (cf.1990)1990)
  15. 15. CORPOBRAS 2009 Tamanho:Aproximadamente 1.200.000 palavras (Médio-grande) (Médio- Total de gêneros: 26Discurso escrito: 19 GênerosDiscurso oral: 5 GênerosDiscurso escrito para ser falado: 2 Gêneros
  16. 16. CORPOBRAS PUC-Rio Fontes dos dados: Escaneamento Impressas DigitaçãoFontes Digitalizadas Formatação Orais Transcrição 67 % Conversão em txt
  17. 17. CORPOBRAS PUC-RioOrganização dos Metadados1. Codificação dos textos: ex.: CONCAR1PORT12. Levantamento de metadados: Nome do gênero Assunto do texto Participantes (idade, sexo, profissão, zona residencial) Registro (data, duração)3. Contagem de palavras: Por texto Por gênero
  18. 18. CORPOBRAS PUC-RioMetadados Duração Zona da Total Código Tema Sexo Idade Profissão residencial conversa de palavras Professor deCONCAR1PORT1 Alimentação Masculino 29 anos biologia Suburbana 47 minutos 7213CONCAR2PORT1 Alimentação Feminino 30 anos Advogada Sul 46 minutos 6526 Professor deCONCAR3PORT1 Alimentação Masculino 44 anos desenho Suburbana 52 minutos 8435 Professora deCONCAR4PORT1 Alimentação Feminino 37 anos psicologia Suburbana 43 minutos 7470 AdministraçãoCONCAR5PORT1 Alimentação Masculino 55 anos pública Suburbana 48 minutos 6830 Professora deCONCAR6PORT1 Alimentação Feminino 44 anos filosofia Sul 43 minutos 5511CONCAR7PORT1 Alimentação Masculino 57 anos Dentista Suburbana 52 minutos 10252
  19. 19. CORPOBRAS PUC-Rio 2009 Discurso Escrito Número deGêneros Número de textos palavrasArtigos científico 12 69.274Cartas ao editor 18 1.054Cartas de reclamação 136 21.417Cartas de recomendação 31 6.012Cartas pessoais 16 7.829Cartas profissionais 16 3.166Cartas profissionais acadêmica 15 3.529Circulares 16 2.608Contos 14 15.253Crônicas 26 17.434Dissertações e Teses (Introduções e Conclusões) 32 69.447Editoriais 16 7.931E-mails acadêmicos 15 1.816E-mails pessoais 16 1.858Notícias de jornal 99 40.409Redações de alunos universitários 91 25.065Redações de ensino médio 40 9.495Redações de vestibular 139 28.523Romances 28 27.061 Total 776 349.686
  20. 20. CORPOBRAS PUC-Rio 2009 Discurso Oral Conversas cariocas 53 353.678 Conversas de crianças 94 84.573 Entrevistas (acadêmicas) 17 88.769 Grupos de enfoque 7 40.513 Atendimento ao cliente 393 215.671 Total 564 783.204 Discurso Escrito para ser Falado Discursos Políticos 27 22.751 Roteiros cinematográficos 18 17.180 Total 55 39.931Total de palavras no corpus : 1. 172.821Total de textos no corpus: 1. 395
  21. 21. CORPOBRAS PUC-Rio CORPOBRAS - Modalidades783.204palavras Discurso Escrito Discurso Oral Discurso Escrito para ser Falado 39.931 palavras 349.686 palavras
  22. 22. CORPOBRAS PUC-RioGêneros coletados para compilaçãoDiscurso oral: Check- Check-in de companhia aérea; aérea; Narrativas orais; Narrativas de sala de aula; Atendimentos de serviço em empresa de telefonia; Reuniões de negócios.Discurso escrito: Memorial; Redações de ensino médio
  23. 23. Pesquisas baseadas noCORPOBRAS PUC-Rio Análises automáticas (e semi-automáticas) com o semi- auxílio de ferramentas computacionais, como o WordSmith Tools. Tools. Análises quantitativas de base estatística, com auxílio de programas como o SPSS. SPSS. Análises de sub-corpora do CORPOBRAS, com sub- uso menos intenso do computador para extrair as evidências lingüísticas.
  24. 24. Pesquisas baseadas no CORPOBRAS:Interfaces Linguística Sistêmico-Funcional e Linguística de Corpus: Sistêmico- Aspecto social da linguagem Análise de textos reais que ocorrem naturalmente na língua Base em probabilidades (Thompson & Hunston, 2007) Linguística Aplicada e Linguística de Corpus: Conexão através da lingüística descritiva. Descrição de fatos lingüísticos para lidar com questões práticas. Base em uma ‘lingüística realista’, desenvolvida a partir do discurso e comprovada por ocorrências. (Hunston, 2002)
  25. 25. Pesquisas baseadas no CORPOBRAS PUC-Rio Abordagens de corpus com foco na análise do discursivo em português do Brasil :1. Investigar características associadas com o uso de um traço linguístico.2. Examinar a realização de uma função específica da língua.3. Caracterizar uma variedade da língua ou um gênero discursivo. (Conrad, 2002)
  26. 26. CORPOBRAS:Características do uso de um traçolinguístico.Uso de nominalizações em: Artigos acadêmicos de nutrição e linguística Introduções e conclusões de teses e dissertações Teses e dissertações de literatura e lingüística Redações de ensino médio WordSmith Tools: Listas de palavras e Concordâncias (Valério, Brito e Oliveira, 2007; Oliveira e Valério, aceito; Castro, 2009 )
  27. 27. CORPOBRAS: Nominalizações em artigos acadêmicosCorpus: Artigos de Pesquisa em inglêsCorpus: Nominalizações 70e em português de periódicos nas áreas 64,34de Nutrição e Linguística (approx. (approx. 60130.130.000 palavras). palavras). 54,5Amostras : 24 (approx. 1.000 palavras) (approx. 5012 em inglês; 12 em português) inglês; 42,7 40,73Sessões:Sessões: introdução, metodologia, 40 Médiasresultados, discussãoAnálise: Frequências de 30nominalazações selecionadas a 20partir de agnate verbs; buscasbaseadas em sufixação paralela: 10(e.x.: -tion/ção,ssão; -ance,ence/- ance,ence/-cia; -ment/mento; -er/dor); 0 Nutrição Linguística Nutrição LinguísticaConcordâncias geradas para cada Inglês Inglês Português Portuguêssufixo em cada texto. (Oliveira, 2006)
  28. 28. CORPOBRAS:Realização de uma função específicada língua. Análise sistêmico-funcional (Halliday, 1994 , Halliday e Matthiessen, sistêmico- 2004) A transitividade em textos de professores sobre a sua profissão WordSmith Tools: Listas de palavras e concordâncias Processos em notícias em que jornalistas falam de si mesmos WordSmith Tools: Listas de palavras e concordâncias (Barroso, 2009; Amarante, 2009).
  29. 29. CORPOBRAS:Caracterizar uma variedade dalíngua ou um gênero discursivo.Análise multidimensional (Biber, 1988, 1995): Redações de alunos universitários em português e inglês Explicitação do contexto em 11 gêneros do discurso escrito (Oliveira, 2002, Lanziotti, 2002)
  30. 30. Análise multidimensional de redações de alunos universitários Explicitação do Contexto Situacional e Estilo Reduzido de Sentença Cultural 8 Inglês (L1) 0 6 -0,5 Português 4 (L1) -1 2 -1,5 EscoresEsco res 0 -2 -2 -2,5 -4 Português -3 Inglês (L1) -6 (L1) -3,5 -8Não-Explicitação do contexto situacional ecultural Estilo Elaborado de Sentença
  31. 31. CORPOBRAS PUC-RioProjeto atual: Escrita e inclusão social: análise de corpus e a metáfora gramatical no ensino médio (Edital FAPERJ – Humanidades, 2009-2010) 2009- Grupo de Pesquisa CNPQ: Lingüística sistêmico-funcional, lingüística sistêmico- de corpus e análise do discurso (PUC-Rio, 2006) (PUC-
  32. 32. Etapas futuras: Expansão da compilação: incorporação de gêneros já coletados Organização dos novos gêneros: Codificação e metadados Autorização das fontes: Próximas e remotas Anotação do corpus: Linguateca? Licenciamento Distribuição parcial on-line (2010) on- Distribuição total on-line (2011) on-
  33. 33. Referências AMARANTE, R. M. C. (2009). Heróis de Papel: A representação do 2009) Papel: jornalista em notícias de guerra e esporte através da perspectiva sistêmico- sistêmico-funcional e de corpus. Tese de Doutorado, Departamento corpus. de Letras, Rio de Janeiro: PUC-Rio. Janeiro: PUC-Rio. CASTRO, L.A. (2009). Escrita e letramento no Ensino Médio: Uma 2009) Médio: abordagem sistêmico-funcional e de Lingüística Aplicada. Dissertação sistêmico- Aplicada. de Mestrado, Departamento de Letras. Rio de Janeiro: PUC-Rio. Letras. Janeiro: PUC-Rio. BARROSO, S. C. (2009). A construção discursiva da profissão 2009) ‘professor’: ‘professor’: Tematizando e representando práticas e crenças. crenças. Dissertação de Mestrado, Departamento de Letras, PUC-Rio. PUC-Rio. BIBER, D. (1988). -Variation Across Speech and Writing.- 1988) Writing.- Cambridge: Cambridge: Cambridge University Press.Press. BIBER, D. (1990). Methodological issues regarding corpus-based 1990) corpus- analises of linguistic variation. Literary and Linguistics Computing, 5 : variation. Computing, 257-269. 257-269.
  34. 34. BIBER, D. (1995). Dimensions of Register Variation: A Cross-linguistic Comparison. 1995) Variation: Cross- Comparison.Cambridge:Cambridge: Cambridge University Press.(Biber, 1995). Press. 1995)BIBER, D., CONRAD, S. & REPPEN, R. (1998). Corpus Linguistics: Investigating 1998) Linguistics:Language Structure and Use. Cambridge Use.CONRAD, S. (2002). Corpus linguisitcs approaches for discourse analysis. Annual 2002) analysis.Review of Applied Linguistics. 22, 75-95. Linguistics. 22, 75-95.HALLIDAY, M. A. K (1994). An Introduction to Functional Grammar. London: 1994) Grammar. London:Edward Arnold. 2ª ed. Arnold. ed.HALLIDAY, M. A. K & MATTHIESSEN, C. M (2004). An Introduction to 2004)Functional Grammar. London: Hodder Arnold. 3ª ed. Grammar. London: Arnold. ed.HUSTON, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge 2002) Linguistics. Cambridge:University Press. Press.LANZIOTTI, M.G. P. (2002). Variação de gêneros discursivos: A explicitação do 2002) discursivos:contexto em um corpus do português escrito. Dissertação de Mestrado, Departamento escrito.de Letras, PUC-Rio. (Teubert, 199). PUC-Rio. 199)Linguateca: http://www.linguateca.Linguateca: http://www.linguateca.pt/NLTK (The Natural Language Toolkit )http://nltk.googlecode.com/svn/trunk/nltk_data/index.xmlOLIVEIRA, L. P. (2002). Explicitação do contexto em textos de alunos brasileiros e 2002)americanos.americanos. Palavra 8, 112-126. 112-126.OLIVEIRA, L. P. (2006). Grammatical metaphor in research articles: Linguistic anddisciplinary contrasts. Trabalho apresentado na American Association for AppliedLinguistics and the Canadian Association for Applied Linguistics Conference(AAAL/CAAL), Montreal, Canada
  35. 35. OLIVEIRA, L. P. ; DIAS, M. C. P. (no prelo) Compilação de corpus: corpus:Representatividade e o CORPOBRAS. Calidoscópio. CORPOBRAS. Calidoscópio.OLIVEIRA, L.P E VALÉRIO, R. (aceito). A metáfora gramatical naconstrução discursiva de gêneros do contexto pedagógico X Forum de EstudosLinguísticos, Rio de janeiro, UERJ. Publicação on-line.SARDINHA, T. B. (2004). Lingüística de Corpus. Manole: São Paulo 2004) Corpus. Manole:THOMPSON, G. & HUNSTON, S. (Eds) (2006). System and Corpus:Exploring Connections . London: Equinox.TURUNEN, V. J. (2009). A reversão da relevância: aspectos semânticos e 2009) relevância:pragmáticos de formações diminutivas no português do Brasil. Tese de Brasil.Doutorado, Departamento de Letras. Rio de Janeiro: PUC-Rio. Letras. Janeiro: PUC-Rio.VALÉRIO, R. G., BRITO, M. G. & OLIVEIRA, L.P (2007). CORPOBRAS 2007)PUC-Rio:PUC-Rio: Um corpus do Português do Brasil e análise do discurso acadêmico. acadêmico.Caderno de Resumos do VII Encontro da Ciência Empírica de Letras. Rio de Letras.Janeiro:Janeiro: UFRJ, p.85. 85.
  36. 36. E-mails: luciapo@puc- luciapo@puc-rio.br bianevalerio@yahoo.com.br ren.cantanhede@gmail.com mlanziotti@terra.com.br

×