O Projeto

Um normalizador textual flexível de conteúdo gerado por usuário para o português brasileiro.

Projeto de Mestrado em Ciências de Computação e Matemática Computacional no ICMC-USP. Orientado por Maria das Graças Volpe Nunes.

Resumo

Conteúdo gerado por usuário (CGU) está disponível em larga escala na web e oferece uma rica fonte de informação para empresas e consumidores. Sistemas de Processamento de Língua Natural (PLN) são frequentemente utilizados para extrair conhecimento desse tipo de conteúdo. No entanto, CGU tem como característica um descompromisso com a norma culta da língua, apresentando desvios de ortografia, gramática, gírias e abreviaturas. Esses ruídos dificultam o funcionamento de técnicas de PLN, afetando assim sua eficiência. O processo de identificar e corrigir ruídos em textos é denominado normalização textual. Há escassez de sistemas capazes de efetuar normalização, especialmente de CGU. Os poucos sistemas existentes são criados para domínios restritos ou lidam com uma quantia limitada de ruído. Este projeto teve como principal objetivo o desenvolvimento de um normalizador textual flexível de CGU para o português brasileiro, capaz de lidar com diferentes domínios e identificar e corrigir ruídos de maneira personalizada à aplicação de PLN desejada. O normalizador proposto, denominado Enelvo, está disponível gratuitamente com código aberto.