Dicionário-piloto de Nanociência e Nanotecnologia: do  corpus  à disponibilização  on-line Daniela Ferreira de Mattos Joel...
Projeto Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elabor...
Equipe Coordenadora: Gladis Maria de Barcellos Almeida (UFSCar) Pesquisadores: Daniela Ferreira de Mattos (UFSCar – IC) Jo...
Motivação Nanociência e Nanotecnologia (doravante N&N):  crescente expansão  no mundo todo.  Os investimentos aplicados ne...
Motivação No Brasil, o cenário para pesquisas em N&N embora  promissor  apresenta grandes  defasagens . Segundo a Agência ...
Proposta Nesse contexto é importante  valorizar a língua nacional  com: elaboração de um corpus e um dicionário -piloto em...
Metodologia e Fundamentação teórica O método de trabalho está em consonância com os postulados de uma Terminologia de orie...
Etapas <ul><li>compilação e sistematização de  corpus , </li></ul><ul><li>extração semiautomática dos candidatos a termos,...
Etapas -  compilação e sistematização de  corpus <ul><li>Seleção </li></ul><ul><li>Compilação e manipulação </li></ul><ul>...
Metodologia (1) – Seleção <ul><li>Estudo exploratório dos textos existentes, seus gêneros, tipos textuais e fontes. </li><...
Metodologia (1) – Seleção Seleção: Problemas e Soluções <ul><li>Exclusão da palavra-chave Genômica </li></ul><ul><li>Ampli...
Metodologia (2) – Compilação e Manipulação <ul><li>Amazenato em arquivos em formato “Bloco de Notas” de extensão  .txt </l...
Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções <ul><li>Digitalização </li></ul>
Metodologia (2) – Compilação e Manipulação Manipulação: Problemas e Soluções <ul><li>Web: Formatos Distintos </li></ul><ul...
Metodologia (3) – Nomeação, Cabeçalho e Anotação Editor de Cabeçalhos Editor de Cabeçalhos do Projeto Lacio- Web  adaptado...
Anotação Estrutural Externa - Cabeçalho Metodologia (3) – Nomeação, Cabeçalho e Anotação
Anotação Estrutural Interna - Etiquetas Metodologia (3) – Nomeação, Cabeçalho e Anotação
Nomeação <ul><li>Por sigla, padronizada por Gênero </li></ul><ul><li>Exemplo: Para textos científicos: </li></ul><ul><li>I...
Resultados Tamanho 2 565 490 palavras
Resultados Representatividade e Amostragem <ul><li>Equivalente ao projeto que confeccionou o corpus em Língua Inglesa ( 2 ...
Resultados Balanceamento  e  Diversidade <ul><li>4 Gêneros Textuais ( Científico, Científico de Divulgação, Informativo, T...
Reuso do Corpus “ Estruturação do Conhecimento e Relações Semânticas: uma Ontologia para o Domínio de Nanociência e Nanote...
Etapas -  extração semiautomática dos candidatos a termos <ul><li>»  Consideramos  semiautomática por haver interferência ...
Etapas -  extração semiautomática dos candidatos a termos » Pacote NSP ( N-gram Statistics Package ): implementado por Ted...
Etapas -  seleção de contextos definitórios e/ou explicativos »  A redação da definição terminológica é feita apoiando-se ...
Etapas -  seleção de contextos definitórios e/ou explicativos
Etapas -  seleção de contextos definitórios e/ou explicativos
Etapas -  elaboração de definições De acordo com o procedimento adotado pelo GETerm, observam-se os traços conceituais rec...
Etapas -  elaboração de definições Traços conceituais:    [1]   O que é [2]   Constituição/Aspecto/Forma [3]   Propriedade...
Etapas -  elaboração de definições Definição: Nanotubo de carbono : estrutura  [1]   formada por uma ou mais folhas de áto...
Etapas -  disponibilização on-line » O ambiente e-Termos (acrônimo de Termos Eletrônicos) é um ambiente web computacional ...
AGÊNCIA BRASIL, Acessado em 3 de setembro de 2006. Disponivel na web:  http://www.agenciabrasil.gov.br/noticias/2006/11/14...
MUITO OBRIGADO!! Daniela Ferreira de Mattos ( [email_address] ) Joel Sossai Coleti ( [email_address] ) www.geterm.ufscar.b...
Próximos SlideShares
Carregando em…5
×

Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilização on-line

623 visualizações

Publicada em

Apresentado no XII Simpósio Ibero-americano de Terminologia (RITerm 2010), Buenos Aires, Argentina, 2010.

Publicada em: Educação
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilização on-line

  1. 1. Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilização on-line Daniela Ferreira de Mattos Joel Sossai Coleti
  2. 2. Projeto Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto – NANOTERM (apoio CNPq)
  3. 3. Equipe Coordenadora: Gladis Maria de Barcellos Almeida (UFSCar) Pesquisadores: Daniela Ferreira de Mattos (UFSCar – IC) Joel Sossai Coleti (UFSCar – IC) Colaboradores: Ariane Di Felippo (UNESP – PG) Luiz Carlos Genoves Jr (USP – PG) Sandra Maria Aluisio (USP) Osvaldo Novais de Oliveira (USP) Arnaldo Cândido Júnior (USP – PG) Daniel Feitosa (USP – PG)
  4. 4. Motivação Nanociência e Nanotecnologia (doravante N&N): crescente expansão no mundo todo. Os investimentos aplicados nessa área aumentam a cada ano.
  5. 5. Motivação No Brasil, o cenário para pesquisas em N&N embora promissor apresenta grandes defasagens . Segundo a Agência Brasil pelos cálculos do MCT, de 2001 à 2006, foram investidos R$ 140 milhões. Já nos Estados Unidos apenas em 2006 foram investidos cerca de US$ 1 bilhão.* * http://www.agenciabrasil.gov.br/noticias/2006/11/14/materia.2006-11-14.1809655804/view
  6. 6. Proposta Nesse contexto é importante valorizar a língua nacional com: elaboração de um corpus e um dicionário -piloto em Língua Portuguesa da N&N
  7. 7. Metodologia e Fundamentação teórica O método de trabalho está em consonância com os postulados de uma Terminologia de orientação descritiva, fundamentada em princípios da Linguística, cujo exemplo mais consolidado é a Teoria Comunicativa da Terminologia (TCT) Para essa teoria, as línguas de especialidade são instrumentos básicos de comunicação entre os especialistas e devem ser consideradas a partir de uma perspectiva descritiva e não prescritiva, pois as línguas são dinâmicas e estão em constante movimento, principalmente nas áreas de especialidade, que acompanham o avanço tecnológico da sociedade (CABRÉ, 2003)
  8. 8. Etapas <ul><li>compilação e sistematização de corpus , </li></ul><ul><li>extração semiautomática dos candidatos a termos, </li></ul><ul><li>seleção de contextos definitórios e/ou explicativos </li></ul><ul><li>elaboração de definições </li></ul><ul><li>disponibilização on-line </li></ul>
  9. 9. Etapas - compilação e sistematização de corpus <ul><li>Seleção </li></ul><ul><li>Compilação e manipulação </li></ul><ul><li>Nomeação, cabeçalho e anotação </li></ul><ul><li>Resultados </li></ul><ul><li>Reuso </li></ul><ul><li>(ALUÍSIO & ALMEIDA, 2006) </li></ul>
  10. 10. Metodologia (1) – Seleção <ul><li>Estudo exploratório dos textos existentes, seus gêneros, tipos textuais e fontes. </li></ul><ul><li>Motores de busca (GOOGLE) </li></ul><ul><li>Primeira seleção a partir das palavras-chaves: “nanociência” , “nanotecnologia” e “genômica” </li></ul>Palavras chaves pré-definidas pela repetição de procedimentos metodológicos adotados pelo projeto de origem de um corpus em Língua Inglesa: “Desenvolvimento de uma ontologia (estrutura conceitual) para área de N&N” (NILC/ICMC/USP – Campus de São Carlos, SP-Brasil)
  11. 11. Metodologia (1) – Seleção Seleção: Problemas e Soluções <ul><li>Exclusão da palavra-chave Genômica </li></ul><ul><li>Ampliação das palavras-chaves </li></ul><ul><li>Balanceamento de Gêneros </li></ul><ul><li>Livros impressos </li></ul>
  12. 12. Metodologia (2) – Compilação e Manipulação <ul><li>Amazenato em arquivos em formato “Bloco de Notas” de extensão .txt </li></ul><ul><li>“ Bloco de Notas” </li></ul><ul><ul><li>Sem código de formatação </li></ul></ul><ul><ul><li>Apenas caracteres do teclado (letras, números e simbolos ortográfico) </li></ul></ul><ul><ul><li>Processado pela maioria das Ferramentas Computacionais de PLN </li></ul></ul>
  13. 13. Metodologia (2) – Compilação e Manipulação Compilação: Problemas e Soluções <ul><li>Digitalização </li></ul>
  14. 14. Metodologia (2) – Compilação e Manipulação Manipulação: Problemas e Soluções <ul><li>Web: Formatos Distintos </li></ul><ul><li>PDF </li></ul><ul><ul><li>Conversão Automática </li></ul></ul><ul><ul><li>Arquivos protegidos </li></ul></ul>
  15. 15. Metodologia (3) – Nomeação, Cabeçalho e Anotação Editor de Cabeçalhos Editor de Cabeçalhos do Projeto Lacio- Web adaptado por Luiz Carlos Genoves Jr. (NILC – USP)
  16. 16. Anotação Estrutural Externa - Cabeçalho Metodologia (3) – Nomeação, Cabeçalho e Anotação
  17. 17. Anotação Estrutural Interna - Etiquetas Metodologia (3) – Nomeação, Cabeçalho e Anotação
  18. 18. Nomeação <ul><li>Por sigla, padronizada por Gênero </li></ul><ul><li>Exemplo: Para textos científicos: </li></ul><ul><li>IN-CI-Gomes-01abr03_17 </li></ul><ul><li>IN : Texto divulgado pela Internet </li></ul><ul><li>CI : Gênero textual Científico </li></ul><ul><li>Gomes : Sobrenome do Autor </li></ul><ul><li>01abr03 : Data de publicação (01 de abril de 2003) </li></ul><ul><li>_17: 17° texto obtido da mesma fonte (Banco de Teses da Capes) </li></ul>Metodologia (3) – Nomeação, Cabeçalho e Anotação
  19. 19. Resultados Tamanho 2 565 490 palavras
  20. 20. Resultados Representatividade e Amostragem <ul><li>Equivalente ao projeto que confeccionou o corpus em Língua Inglesa ( 2 570 792 palavras). Entretanto, é importante ressaltar a diferença quanto aos gêneros. </li></ul><ul><li>Superação em mais de 5 vezes da expectativa inicial (500 mil palavras). </li></ul>
  21. 21. Resultados Balanceamento e Diversidade <ul><li>4 Gêneros Textuais ( Científico, Científico de Divulgação, Informativo, Técnico – Administrativo e Outros) </li></ul><ul><li>1057 textos de 57 fontes diferentes. </li></ul><ul><li>Distribuição pela quantidade de palavras: </li></ul><ul><li>1 846 763 - Científico </li></ul><ul><ul><ul><ul><ul><li>361 307 - Informativo </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>310 018 - Cientifico de Divulgação </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>26 877 - Tecnico - Administrativo </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>20 525 - Outros </li></ul></ul></ul></ul></ul>
  22. 22. Reuso do Corpus “ Estruturação do Conhecimento e Relações Semânticas: uma Ontologia para o Domínio de Nanociência e Nanotecnologia Deni Yuzo Kasama (Mestrado) “ Geração de Ontologias para Web Semântica a partir de Textos da Língua Portuguesa” Luiz Carlos Ribeiro Junior (Mestrado) “ Estruturação e Sistematização do Conhecimento em Ambientes Interativos de Aprendizagem” David Nadler Prata (Doutorado)
  23. 23. Etapas - extração semiautomática dos candidatos a termos <ul><li>» Consideramos semiautomática por haver interferência </li></ul><ul><li>humana na fase da validação e limpeza da lista gerada pelo programa selecionado para a extração </li></ul><ul><li>» Os candidatos a termos constituem itens léxicos que se comportam nos seus respectivos contextos como termos, mas cuja autenticidade será validada posteriormente </li></ul><ul><li>Escolha do software </li></ul><ul><li>Elaboração da StopList </li></ul><ul><li>Limpeza de falsos candidatos a termos </li></ul><ul><li>Validação pelo especialista </li></ul>
  24. 24. Etapas - extração semiautomática dos candidatos a termos » Pacote NSP ( N-gram Statistics Package ): implementado por Ted Pedersen, Satanjeev Banerjee e Amruta Purandare, da Universidade de Minnesota, Duluth. » Utilizado para geração de listas de candidatos a termos (de unigramas a pentagramas) por meio de medidas estatísticas e de freqüência de ocorrência. » Resultados: 268.043 candidatos a termos, após a revisão pelo lingüista, foram contabilizados apenas 927 candidatos. Após sua análise, foram considerados termos apenas 591 candidatos, portanto 0,22 % dos candidatos a termos gerados pelo NSP se consagraram efetivamente termos.
  25. 25. Etapas - seleção de contextos definitórios e/ou explicativos » A redação da definição terminológica é feita apoiando-se na busca e leitura destes contextos, uma vez que o terminólogo não é especialista da área-objeto. » A busca dos contextos no corpus é feita através do ambiente on-line Philologic
  26. 26. Etapas - seleção de contextos definitórios e/ou explicativos
  27. 27. Etapas - seleção de contextos definitórios e/ou explicativos
  28. 28. Etapas - elaboração de definições De acordo com o procedimento adotado pelo GETerm, observam-se os traços conceituais recorrentes nos excertos de forma a identificar os traços adequados para a correta elaboração das definições de um campo nocional Exemplo: Nanotubo de Carbono
  29. 29. Etapas - elaboração de definições Traços conceituais:   [1] O que é [2] Constituição/Aspecto/Forma [3] Propriedade [4] Aplicação/Função/Emprego  
  30. 30. Etapas - elaboração de definições Definição: Nanotubo de carbono : estrutura [1] formada por uma ou mais folhas de átomos de carbono em arranjo hexagonal que enroladas se assemelham a um canudo. As extremidades dos tubos são fechadas por meio de átomos de carbono em arranjo pentagonal. Apresenta poucos átomos de diâmetro, entre um e dois nanômetros [2] . O diâmetro e a quiralidade (propriedade que distingue um objeto de sua imagem refletida) determinam propriedades importantes. É considerado o material com maior resistência mecânica conhecida, cem vezes mais resistente que o aço [3] . A afixação de moléculas em pontos pré-determinados promove a funcionalização do mesmo, por meio da qual é possível que realize diversas funções e aplicações. Além de ser um fio com alta condutividade elétrica, pode atribuir condutividade elétrica a materiais isolantes quando estes são inseridos em seu interior. Utilizado para a construção de diodos e de transistores de efeito de campo (FET), pode ser empregado na construção de chips de memória para computadores com capacidade de armazenamento 10 mil vezes superior aos atuais chips de silício [4] .
  31. 31. Etapas - disponibilização on-line » O ambiente e-Termos (acrônimo de Termos Eletrônicos) é um ambiente web computacional de caráter colaborativo cujo objetivo é proporcionar a criação e divulgação de produtos terminológicos » O Dicionário-Piloto de Nanociência e Nanotecnologia estará disponível na página do e-Termos ( http://www.etermos.ufscar.br ) após a inserção das 180 definições já redigidas. Previsão: Novembro de 2010
  32. 32. AGÊNCIA BRASIL, Acessado em 3 de setembro de 2006. Disponivel na web: http://www.agenciabrasil.gov.br/noticias/2006/11/14/materia.2006-11-14.1809655804/view ALUÍSIO, Sandra Maria ; ALMEIDA, G. M. B. . O que é e como se constrói um Corpus ? Lições aprendidas na compilação de vários corpora para pesquisa lingüística . Calidoscópio (UNISINOS), v. 4, p. 156-178, 2006. CABRÉ, Maria Teresa. Theories of Terminology: their description, prescription and explanation. Terminology , v. 9, n. 2, 2003, p. 163-200. Referências
  33. 33. MUITO OBRIGADO!! Daniela Ferreira de Mattos ( [email_address] ) Joel Sossai Coleti ( [email_address] ) www.geterm.ufscar.br

×