ANOTEX: ANOTADOR DE ARTIGO CIENTÍFICO PARA RETEXTUALIZAÇÃO AUTOMÁTICA
Este trabalho foi desenvolvido no Mestrado Profissional Interdisciplinar em Educação, na área de Educação e Tecnologias Aplicadas em Instituições Educacionais, cujo propósito inicial foi demonstrar a necessidade de uma estreita relação entre um sistema de anotação automática de texto com a análise do gênero do texto base. A anotação textual não pode ser entendida, apenas, como a representação de regras gramaticais da língua, uma vez que, ela precisa representar as mais variadas formas, níveis e modalidades de manifestação da linguagem verbal que envolve além dos aspectos semânticos e morfossintáticos, aspectos do discurso que também podem transmitir informações. Para alcançar os objetivos propostos, na análise dos dados estruturados e na abordagem da relação entre o sistema de anotação do corpus de estudo e o processamento automático, em particular, no que diz respeito à análise do gênero, foi proposta a criação de um modelo computacional necessário para a compilação do Corpus linguístico, especializado, representativo do gênero artigo científico. O projeto teve como objeto de estudo os elementos representativos do gênero textual artigo científico, marcados em XML, extraídos e coletados do banco de dados da Biblioteca Eletrônica SciELO. Esses dados, que compuseram o corpus de estudo, foram coletados automaticamente, pré-processados, categorizados e disponibilizados em bancos de árvore, pela ferramenta computacional para a anotação textual – AnoTex, que possibilita uma visualização e interação dinâmicas para análises qualitativas e quantitativas dos dados coletados. Como produto final do processo de extração, obteve-se uma base de dados com as informações extraídas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para várias ferramentas e aplicações. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Dentre elas, foi destacada a estrutura básica do artigo científico constituída por seus elementos pré-textuais
Palavras-chave: Linguística de Corpus. Processamento de Linguagem Natural. Artigo Científico.
Mestranda: Cláudia Aparecida Fonseca
Orientador: Prof. DCs. Marcus Vinícius Carvalho Guelpeli
Coorientadora: Prof. Dra. Adriana Nascimento Bodolay
Membros da banca de defesa:
Prof. Dr. Alexandre Ramos Fonseca
Prof. Dr. Euler Guimarães Horta
Prof. Dr. Leonardo Lana de Carvalho
Prof. Dr. Renato Dourado Maia
Local da apresentação: Campus JK, na sala nº34 – Auditório do DECOM, Prédio de Sistema de Informação/UFVJM, no dia 06/12/2018 (quinta-feira) às 15:00h.