Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções
Projeto Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elabor...
Equipe Coordenadora: Gladis Maria de Barcellos Almeida (UFSCar) Pesquisadores: Daniela Ferreira de Mattos (UFSCar – IC) Jo...
Nanociência e Nanotecnologia Nano-, prefixo grego, remete a nánnos ' de excessiva pequenez '  Um nanômetro corresponde a  ...
Nanociência e Nanotecnologia ... o diâmetro de um fio de cabelo humano mede cerca de  30.000 nanômetros
Nanociência e Nanotecnologia O termo  Nanotecnologia  foi criado em 1974 por Norio Taniguchi, da Universidade de Tóquio, p...
Nanociência e Nanotecnologia Fazem parte dos estudos em N&N as capacidades de  medir, manusear e organizar  a matéria em n...
Motivação Nanociência e Nanotecnologia (N&N):  crescente expansão  no mundo todo.  Os investimentos aplicados nessa área  ...
Motivação No Brasil, o cenário para pesquisas em N&N, embora  promissor,  apresenta grandes  defasagens . Segundo a Agênci...
Proposta Para acompanhar esse  desenvolvimento científico e tecnológico , além de investimentos financeiros expressivos e ...
Objetivos <ul><li>Confecção de  Corpus </li></ul><ul><li>Elaboração de Lista de Termos </li></ul><ul><li>Construção de Ont...
Metodologia (1) – Seleção <ul><li>A seleção dos textos consiste basicamente em definir quais os textos são pertinentes e r...
Metodologia (1) – Seleção <ul><li>Por meio de motores de busca, realizaram-se as pesquisas orientadas por palavras-chaves ...
Metodologia (1) – Seleção <ul><li>Análise da procedência e a confiabilidade das fontes. </li></ul><ul><li>Privilegiaram-se...
Metodologia (1) – Seleção Seleção: Problemas e Soluções <ul><li>Exclusão da palavra-chave Genômica </li></ul><ul><li>Ampli...
Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções <ul><li>Digitalização </li></ul><ul><li>Todos ...
Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções 1. DURAN, N; MATTOSO, L.H.C; MORAIS, P.C.  Nan...
Metodologia (2) – Compilação e Manipulação
Metodologia (2) – Compilação e Manipulação
Metodologia (2) – Compilação e Manipulação
Metodologia (2) – Compilação e Manipulação Manipulação: Problemas e Soluções <ul><li>Web: Formatos Distintos </li></ul><ul...
Metodologia (2) – Compilação e Manipulação <ul><li>Amazenamento em arquivos no formato “Bloco de Notas” de extensão  .txt ...
Metodologia (2) – Compilação e Manipulação <ul><li>Os textos, já em formato “.txt”, foram submetidos à limpeza, ou seja, f...
Anotação Estrutural A anotação estrutural compreende a marcação de dados externos e internos dos textos. Como dados extern...
Metodologia (3) – Anotação e Nomeação Editor de Cabeçalhos Editor de Cabeçalhos do Projeto Lacio- Web  adaptado por Luiz C...
Anotação Estrutural Externa - Cabeçalho Metodologia (3) – Anotação e Nomeação
Texto:  Rumo a Nanotecnologia Global Nome do arquivo:  IN-IF-AF-not-07nov06 Numero de Palavras:  206 Amostra:  Íntegra Lín...
Anotação Estrutural Interna - Etiquetas Metodologia (3) – Anotação e Nomeação
Metodologia (3) – Anotação e Nomeação
Nomeação <ul><li>Por sigla, padronizada por Gênero </li></ul><ul><li>Exemplo: Para textos científicos: </li></ul><ul><li>I...
Nomeação Exemplo: Para textos científicos de divulgação: IN-CD-INOVATEC-nanotec-05jul06 IN : Texto divulgado pela Internet...
Resultados Autenticidade <ul><li>Sites de Portugal </li></ul><ul><li>Livros traduzidos </li></ul>
Resultados Tamanho finito: 2.565.490 palavras
Resultados Representatividade <ul><li>Equivalente ao projeto que confeccionou o  corpus  em Língua Inglesa ( 2.570.792 pal...
Resultados Balanceamento  e  Amostragem <ul><li>4 Gêneros Textuais ( Científico, Científico de Divulgação, Informativo, Té...
Resultados Balanceamento  e  Amostragem <ul><li>Essa discrepância entre o número de palavras por gênero refletia o estágio...
Reuso do Corpus “ Estruturação do Conhecimento e Relações Semânticas: uma Ontologia para o Domínio de Nanociência e Nanote...
Saiba mais www.joelsc.wordpress.com/publicacoes   Coleti, J. S.; Mattos, D. F.; Genoves Jr., l c; CANDIDO JR., A.; Di Feli...
MUITO OBRIGADO!!
Próximos SlideShares
Carregando em…5
×

Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções

1.097 visualizações

Publicada em

Slides apresentados em disciplina do Programa de Pós Graduação em Linguística da Universidade Federal de São Carlos em 2010.

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.097
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções

  1. 1. Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnologia: Problemas e Soluções
  2. 2. Projeto Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto” (apoio CNPq, processo 400506/2006-8)
  3. 3. Equipe Coordenadora: Gladis Maria de Barcellos Almeida (UFSCar) Pesquisadores: Daniela Ferreira de Mattos (UFSCar – IC) Joel Sossai Coleti (UFSCar – IC) Colaboradores: Ariane Di Felippo (UNESP – PG) Luiz Carlos Genoves Jr (Google) Arnaldo Candido Júnior (USP – PG) Leandro Henrique Mendonça de Oliveira (EMBRAPA) Sandra Maria Aluisio (USP) Osvaldo Novais de Oliveira (USP)
  4. 4. Nanociência e Nanotecnologia Nano-, prefixo grego, remete a nánnos ' de excessiva pequenez ' Um nanômetro corresponde a 10 -9 metros
  5. 5. Nanociência e Nanotecnologia ... o diâmetro de um fio de cabelo humano mede cerca de 30.000 nanômetros
  6. 6. Nanociência e Nanotecnologia O termo Nanotecnologia foi criado em 1974 por Norio Taniguchi, da Universidade de Tóquio, para diferenciar os trabalhos de engenharia no domínio da microescala dos trabalhos em submicroescala, os quais ele denominou nanotecnologia.
  7. 7. Nanociência e Nanotecnologia Fazem parte dos estudos em N&N as capacidades de medir, manusear e organizar a matéria em nanoescala, já que nessa escala a matéria apresenta propriedades, fenômenos e processos únicos .
  8. 8. Motivação Nanociência e Nanotecnologia (N&N): crescente expansão no mundo todo. Os investimentos aplicados nessa área aumentam a cada ano.
  9. 9. Motivação No Brasil, o cenário para pesquisas em N&N, embora promissor, apresenta grandes defasagens . Segundo a Agência Brasil, pelos cálculos do MCT, nos últimos cinco anos, foram investidos R$ 140 milhões. Já nos Estados Unidos, apenas em 2006, foram investidos cerca de US$ 1 bilhão.* * http://www.agenciabrasil.gov.br/noticias/2006/11/14/materia.2006-11-14.1809655804/view
  10. 10. Proposta Para acompanhar esse desenvolvimento científico e tecnológico , além de investimentos financeiros expressivos e formação de recursos humanos especializados, é preponderante a sistematização de repertórios vocabulares em língua portuguesa.
  11. 11. Objetivos <ul><li>Confecção de Corpus </li></ul><ul><li>Elaboração de Lista de Termos </li></ul><ul><li>Construção de Ontologia </li></ul><ul><li>Elaboração de Dicionário-Piloto </li></ul>Etapas Metodológicas: 1- Seleção 2- Compilação e Manipulação 3- Nomeação de arquivos, geração de cabeçalho e Anotação
  12. 12. Metodologia (1) – Seleção <ul><li>A seleção dos textos consiste basicamente em definir quais os textos são pertinentes e relevantes para a pesquisa, sempre levando em conta os requisitos autenticidade, representatividade, balanceamento e diversidade. </li></ul><ul><li>Para o corpus da N&N, foi adotado apenas textos escritos. </li></ul><ul><li>A seleção de textos foi feita em meios digitais e impressos. </li></ul>
  13. 13. Metodologia (1) – Seleção <ul><li>Por meio de motores de busca, realizaram-se as pesquisas orientadas por palavras-chaves previamente definidas e posteriormente alteradas almejando-se melhor adequação aos objetivos </li></ul><ul><li>Motor de busca: GOOGLE </li></ul><ul><li>Primeira seleção a partir das palavras-chaves: “nanociência” , “nanotecnologia” e “genômica” </li></ul>Palavras-chaves pré-definidas pela repetição de procedimentos metodológicos adotados no projeto “Desenvolvimento de uma ontologia (estrutura conceitual) para área de N&N” (NILC/ICMC/USP – Campus de São Carlos, SP-Brasil)
  14. 14. Metodologia (1) – Seleção <ul><li>Análise da procedência e a confiabilidade das fontes. </li></ul><ul><li>Privilegiaram-se sites de instituições públicas, de grandes instituições privadas, de empresas de comunicações conceituadas, por serem considerados confiáveis. </li></ul>
  15. 15. Metodologia (1) – Seleção Seleção: Problemas e Soluções <ul><li>Exclusão da palavra-chave Genômica </li></ul><ul><li>Ampliação das palavras-chaves com traduções livres de palavras-chaves de busca adotadas pela Scielo </li></ul>
  16. 16. Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções <ul><li>Digitalização </li></ul><ul><li>Todos os livros (4) originalmente escritos em língua portuguesa de que se tinha conhecimento foram digitalizados. </li></ul>
  17. 17. Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções 1. DURAN, N; MATTOSO, L.H.C; MORAIS, P.C. Nanotecnologia: introdução, preparação e caracterização de nanomateriais e exemplos de aplicação. São Paulo: Artliber, 2006. 2. ALVES, E. G.; CHAVES, A. S.; VALADARES, E. C. Aplicações da física quântica do transistor à nanotecnologia . São Paulo: Editora Livraria da Física. 2005. 3. TOMA H. E. O Mundo Nanométrico: A Dimensão do Novo Século. São Paulo: Oficina de Textos. 2004. 4. CNI/SENAI. Nanotecnologias. Série ocupações emergentes. nº 1. Brasília, 2004.
  18. 18. Metodologia (2) – Compilação e Manipulação
  19. 19. Metodologia (2) – Compilação e Manipulação
  20. 20. Metodologia (2) – Compilação e Manipulação
  21. 21. Metodologia (2) – Compilação e Manipulação Manipulação: Problemas e Soluções <ul><li>Web: Formatos Distintos </li></ul><ul><li>(Microsoft Word de extensão “.doc”, HyperText Markup Language de extensão “.html”, Portable Document Format de extensão “.pdf” e outros) </li></ul><ul><li>PDF </li></ul><ul><ul><li>Conversão Automática </li></ul></ul><ul><ul><li>Arquivos protegidos </li></ul></ul>
  22. 22. Metodologia (2) – Compilação e Manipulação <ul><li>Amazenamento em arquivos no formato “Bloco de Notas” de extensão .txt </li></ul><ul><li>“ Bloco de Notas” </li></ul><ul><ul><li>Sem código de formatação </li></ul></ul><ul><ul><li>Apenas caracteres do teclado (letras, números e símbolos ortográfico) </li></ul></ul><ul><ul><li>Processado pela maioria das Ferramentas Computacionais de PLN </li></ul></ul>
  23. 23. Metodologia (2) – Compilação e Manipulação <ul><li>Os textos, já em formato “.txt”, foram submetidos à limpeza, ou seja, foram excluídos tabelas, gráficos, fórmulas, cálculos, fotos e toda informação que não estivesse em forma de texto. Foi feita também a formatação dos textos, conferindo padronização ao corpus. </li></ul>
  24. 24. Anotação Estrutural A anotação estrutural compreende a marcação de dados externos e internos dos textos. Como dados externos entendemos a documentação do corpus (...) isto é, dados bibliográficos comuns, dados de catalogação como tamanho do arquivo, tipo da autoria, a tipologia textual e informação sobre a distribuição do corpus. Como dados internos temos a anotação de segmentação do texto cru, que envolve: a) marcação da estrutura geral – capítulos, parágrafos, títulos e subtítulos, notas de rodapé e elementos gráficos como tabelas e figuras, e b) marcação da estrutura de subparágrafos – elementos que são de interesse lingüístico, tais como sentenças, citações, palavras, abreviações, nomes, referências, datas e ênfases tipográficas do tipo negrito, itálico, sublinhado, etc. (Aluísio & Almeida, 2006)
  25. 25. Metodologia (3) – Anotação e Nomeação Editor de Cabeçalhos Editor de Cabeçalhos do Projeto Lacio- Web adaptado por Luiz Carlos Genoves Jr. (NILC – USP)
  26. 26. Anotação Estrutural Externa - Cabeçalho Metodologia (3) – Anotação e Nomeação
  27. 27. Texto: Rumo a Nanotecnologia Global Nome do arquivo: IN-IF-AF-not-07nov06 Numero de Palavras: 206 Amostra: Íntegra Língua: Português do Brasil (PB) Fonte: Agência Fapesp Local de Publicação: São Paulo Data: 07 de novembro de 2006 Status: Original Comentários: Caderno “Notícias” Data de Acesso: 16 de novembro de 2006 Endereço Eletrônico: http://www.agencia.fapesp.br/boletim_dentro.php?id=6307 Tipo de Autoria: Individual Nome do Autor do Texto: Thiago Romero Sexo do autor: Masculino Gênero: Informativo Subgênero: Jornalístico Tipo Textual: Reportagem Domínio Geral: Generalidades Domínio Específico: Ciência & Tecnologia Definição: Anotador Distribuição: Internet (IN) Metodologia (3) – Anotação e Nomeação
  28. 28. Anotação Estrutural Interna - Etiquetas Metodologia (3) – Anotação e Nomeação
  29. 29. Metodologia (3) – Anotação e Nomeação
  30. 30. Nomeação <ul><li>Por sigla, padronizada por Gênero </li></ul><ul><li>Exemplo: Para textos científicos: </li></ul><ul><li>IN-CI-Gomes-01abr03_17 </li></ul><ul><li>IN : Texto divulgado pela Internet </li></ul><ul><li>CI : Gênero textual Científico </li></ul><ul><li>Gomes : Sobrenome do Autor </li></ul><ul><li>01abr03 : Data de publicação (01 de abril de 2003) </li></ul><ul><li>_17: 17° texto obtido da mesma fonte (Banco de Teses da Capes) </li></ul>Metodologia (3) – Anotação e Nomeação
  31. 31. Nomeação Exemplo: Para textos científicos de divulgação: IN-CD-INOVATEC-nanotec-05jul06 IN : Texto divulgado pela Internet CD : Gênero textual Científico de Divulgação INOVATEC : Sigla que representa a Fonte (Inovação Tecnológica) nanotec : Sigla que representa o caderno/seção em que o texto foi publicado na fonte (Seção Nanotecnologia) 05jul06 : Data de publicação (05 de julho de 2006) Metodologia (3) – Anotação e Nomeação
  32. 32. Resultados Autenticidade <ul><li>Sites de Portugal </li></ul><ul><li>Livros traduzidos </li></ul>
  33. 33. Resultados Tamanho finito: 2.565.490 palavras
  34. 34. Resultados Representatividade <ul><li>Equivalente ao projeto que confeccionou o corpus em Língua Inglesa ( 2.570.792 palavras). Entretanto, é importante ressaltar a diferença quanto aos gêneros. </li></ul><ul><li>Superação em mais de 5 vezes da expectativa inicial (500 mil palavras). </li></ul>
  35. 35. Resultados Balanceamento e Amostragem <ul><li>4 Gêneros Textuais ( Científico, Científico de Divulgação, Informativo, Técnico-Administrativo e Outros) </li></ul><ul><li>1.057 textos de 57 fontes diferentes. </li></ul><ul><li>Distribuição pela quantidade de palavras: </li></ul><ul><li>1.846.763 – Científico </li></ul><ul><li>361.307 – Informativo </li></ul><ul><li>310.018 – Cientifico de Divulgação </li></ul><ul><li>26.877 – Técnico-Administrativo </li></ul><ul><li>20.525 – Outros </li></ul>
  36. 36. Resultados Balanceamento e Amostragem <ul><li>Essa discrepância entre o número de palavras por gênero refletia o estágio de produções textuais de uma área emergente, e não as falhas na seleção dos textos, tendo em vista que as pesquisas foram orientadas por palavras-chave e não por tipos de fonte </li></ul>
  37. 37. Reuso do Corpus “ Estruturação do Conhecimento e Relações Semânticas: uma Ontologia para o Domínio de Nanociência e Nanotecnologia Deni Yuzo Kasama (Mestrado) “ Geração de Ontologias para Web Semântica a partir de Textos da Língua Portuguesa” Luiz Carlos Ribeiro Junior (Mestrado) “ Estruturação e Sistematização do Conhecimento em Ambientes Interativos de Aprendizagem” David Nadler Prata (Doutorado)
  38. 38. Saiba mais www.joelsc.wordpress.com/publicacoes Coleti, J. S.; Mattos, D. F.; Genoves Jr., l c; CANDIDO JR., A.; Di Felippo, A; ALMEIDA, G. M. B.; ALUÍSIO, S. M.; Oliveira Jr., O. N. (2007) Compilação de Corpus em Língua Portuguesa na Área de Nanociência/ Nanotecnologia: Problemas e Soluções. Anais do VI Encontro de Lingüística de Corpus. São Paulo, São Paulo: USP, Brasil, 2007.
  39. 39. MUITO OBRIGADO!!

×