Featured Video

Description

Título: Tradução Automática Neural Adaptada para o Contexto da Ambev


Autor(es): Fernanda Severo, Ronald Albert, Vinicius Lettieri.


Experiência do Grupo:

O grupo é formado por integrantes da UFRJ Analytica, a equipe de Ciência de Dados da Universidade Federal do Rio de Janeiro. Dois de seus integrantes cursam bacharelado em Ciência da Computação e já tivemos experiência com processamento de linguagem natural para detecção de emoções em textos, conseguindo Top 100 em competições da plataforma Kaggle.


Resumo: 

Multinacionais de grande escala, como a empresa brasileira Ambev, presente em 19 países, exigem eficientes soluções para um grande problema: os diversos idiomas que o corpo empresarial deve tratar. Com uma necessidade crescente de automação da comunicação através de chatbots, gerar uma unificação do sistema com apenas uma única língua e distribuir através de traduções permite economizar no desenvolvimento, expansão e manutenção do sistema. Entendendo toda essa realidade, nossa equipe propõe um modelo de Tradução Automática Neural que reconheça as entidades importantes, como marcas e termos empresariais, e esteja adaptado para todas as necessidades da Ambev. Para isso, utilizaremos a biblioteca Spacy, que possui um modelo pronto de reconhecimento de entidades que pode ser treinado para terminologias e nomes de marcas específicas da empresa. Para o processo de tradução, primeiramente vamos treinar o modelo com um grande corpo de dados abertos, como os do projeto Opus, e em seguida usaremos a base de dados cedida pela empresa para adaptar o modelo ao domínio especialista, aplicando máscaras nas entidades encontradas. Como resultado, pretendemos entregar uma solução completa construída para as necessidades específicas da Ambev, e que possa alcançar uma precisão melhor que tradutores generalistas.


Palavras-chave: Neural Machine Translation; Named Entity Recognition; OpenNMT;


Introdução: 

Com uma contínua expansão global, a Ambev, atualmente presente em 19 países, possui uma grande necessidade de orquestrar sua comunicação entre diversas línguas, mantendo a fala concisa e refletindo seu domínio de linguagem. Além disso, expandir a automatização de chatbots para muitas línguas pode ser custoso de manter, sendo importante uma forma que unifique os sistemas.

Uma das formas de centralizar o chatbot para todas as línguas, é possuir uma API de tradução que possa fazer a ponte entre o usuário e o chatbot original. Dessa maneira, a expansão para novas línguas requer apenas uma nova camada de tradução.

Além dessa aplicação, ter essa API de tradução pode ajudar a empresa em diversas outras tarefas de comunicação internas, facilitando a comunicação de seus funcionários que não possuem fluência no outro idioma.

Porém, uma das maiores dificuldades que grandes empresas com linguagens especialistas podem possuir com tradução é a maioria das opções de mercado serem de domínio geral, não compreendendo pequenas terminologias específicas, o que compromete o resultado final e inviabiliza seu uso nesse contexto.

O presente projeto propõe aplicar camadas de tratamento para reconhecimento de entidades relevantes no contexto da Ambev, para tokeniza-las antes de serem inseridas no modelo, como feito por (Michon et al. (2020)); utilizar bibliotecas abertas de treinamento de tradução, como a OpenNMT, para treinar em um corpo amplo sem domínio específico; e, por fim, adaptar a tradução para um domínio específico de linguagem, realizando o refinamento final com as bases de dados cedidas. Um roteiro semelhante foi realizado no contexto médico, em (Sostaric et al. (2019)) e resultou em uma tradução melhor avaliada que sua baseline do Google Tradutor.



Metodologia: 

Nossa primeira etapa de tratamento é o, comumente chamado de, Named Entity Recognition, ou seja, reconhecimento de entidades especiais, como nomes de marcas ou terminologias específicas do ambiente da Ambev. Esse passo é importante para que nosso modelo de tradução saiba como tratar esses termos especiais adequadamente, sem tratá-los como uma palavra qualquer. Para esse passo, pretendemos utilizar uma biblioteca como o Spacy, que possui um modelo pronto para reconhecimento, mas que também pode ser treinado para entidades mais específicas do contexto Ambev.

A seguir, inicia-se o processo de tradução com adaptação ao domínio linguístico da Ambev, através de dois passos, como sugere (Sostaric et al. (2019)). O primeiro consiste em treinar o modelo de tradução com um grande corpo de dados abertos e genéricos, como o projeto Opus (https://opus.nlpl.eu), que permite um amplo entendimento do funcionamento da linguagem para o modelo. Em seguida, utilizaremos as bases de dados a serem cedidas pela Ambev para adaptar o modelo ao domínio especialista da empresa. 

A respeito do uso das Named Entities no treinamento, pretendemos seguir a abordagem de (Michon et al. (2020)), em que serão obtidas no processo de leitura da base de dados e tokenizadas antes de serem introduzidas no modelo. Dessa maneira, ao serem passadas pelo modelo sairão ainda tokenizadas no nosso output, o que nos permite inseri-las da maneira ideal para o texto traduzido. Outra questão importante é que esperamos realizar esse passo apenas na adaptação da tradução, visto que não temos como lidar com a forma que o output das bases generalistas são formados.


Referências:

Sostaric, Margita & Pavlović, Nataša & Boltuzic, Filip. (2019). Domain Adaptation for Machine Translation Involving a Low-Resource Language: Google AutoML vs. from-scratch NMT Systems. 


Michon, Elise & Crego, Josep & Senellart, Jean. (2020). Integrating Domain Terminology into Neural Machine Translation. 3925-3937. 10.18653/v1/2020.coling-main.348.