Boa notícia para os profissionais de dados: o Refinitiv Labs vem treinando um modelo de Processamento de Linguagem Natural (PLN) com notícias financeiras e de negócios para que ele consiga compreender as nuances das terminologias empregadas nesse setor, criando uma ferramenta muito mais precisa do que as que são programadas com repertórios genéricos.
- Uma importante área da Inteligência Artificial (IA), chamada Processamento de Linguagem Natural (PLN), pode ser utilizada para filtrar dados que permitam às empresas do setor financeiro obter insights e gerar valor adicional.
- Isso só é possível graças aos avanços dos algoritmos e às bibliotecas de código aberto, como o modelo de linguagem do Google, BERT, que oferece aos usuários vantagens competitivas na análise de conteúdo financeiro.
- Por meio do Reuters News Archive, os profissionais do Refinitiv Labs conseguiram aprimorar o treinamento do BERT, fazendo com que ele obtivesse um maior entendimento das nuances da terminologia de serviços financeiros para melhorar as suas previsões.
Para mais informações baseadas em dados diretamente no seu inbox, assine o boletim semanal Refinitiv Perspectives
As organizações do setor de serviços financeiros enfrentam um problema comum: têm de lidar com a incessante enxurrada de dados não estruturados que incluem desde relatórios de pesquisa e registros de empresas a transcrições de apresentações sobre resultados trimestrais.
E, apesar de incrivelmente valiosos, como esses volumes de conteúdo não estruturado consomem muito tempo para serem analisados, eles acabam sendo subutilizados.
Mas agora, uma subdivisão da Inteligência Artificial (IA), conhecida como Processamento de Linguagem Natural (PLN) oferece a essas companhias a oportunidade de obter insights significativos a partir desses conteúdos, que ajudam nos processos de tomada de decisão e geram valor extra para os negócios.
Como o PLN ajuda as máquinas a compreender o significado da linguagem?
Um modelo de Processamento de Linguagem Natural (PLN) extrai significado do texto a fim de que os aplicativos e serviços do software de fato “entendam” a linguagem humana. Para isso, o modelo de PLN divide a linguagem em palavras (tokens) e observa as relações e o contexto entre esses tokens.
O PLN é um ramo da IA que vem ganhando cada vez mais destaque, em parte devido à rápida expansão da infraestrutura, como poder de computação e capacidade de tratamento de dados. Além disso, houve uma sensível melhoria na tecnologia responsável pela criação de algoritmos e uma proliferação de bibliotecas open source, como o modelo de linguagem BERT, lançado pelo Google em 2018.
O BERT é pré-treinado em 3,3 bilhões de palavras de um repertório de domínio geral, como Wikipedia e o conjunto de dados aberto BookCorpus, e tem um amplo conhecimento da língua inglesa. E, embora ele possa ser usado diretamente em tarefas downstream –como classificação, resposta a perguntas e análise de sentimento—, a equipe do Refinitiv Labs percebeu a oportunidade de criar uma variante do BERT de domínio específico, que pudesse entregar aos clientes vantagens competitivas na análise de conteúdo financeiro.
“Esse setor é altamente competitivo. Então, acreditamos que um modelo que entenda a terminologia dos dados de nossos clientes seja a forma de dar a eles uma vantagem competitiva”, diz Geoff Horrell, Global Head of Innovation and Labs na Refinitiv.
Modelagem de Linguagem Financeira: compreenda as terminologias empregadas no setor financeiro por meio do BERT, modelo de linguagem e técnica de treinamento open source do Google
De que forma ensinamos o BERT a entender as terminologias financeiras
O Refinitiv Labs aprimorou o BERT com um treinamento adicional, utilizando uma versão filtrada de um corpus específico de finanças, o Reuters News Archive, que agregou mais 715 milhões de palavras provenientes de aproximadamente dois milhões de artigos publicados entre 1996 e 2019.
O resultado foi um modelo pré-treinado que compreende as nuances das terminologias empregadas em notícias da área financeira e de negócios, o que aumenta drasticamente a precisão de suas previsões.
O objetivo é que os profissionais que trabalham com dados, como os que atuam nas empresas clientes da Refinitiv, possam usá-lo para decifrar a linguagem de domínio específico dos conteúdos não estruturados –embora haja sempre a opção de refinar ainda mais o modelo com dados que atendam exatamente às suas tarefas.
Nas organizações de serviços financeiros existem várias potenciais aplicações para o PLN. Um modelo que compreende a terminologia de negócios, por exemplo, pode ser utilizado para realizar uma análise de sentimento em dados financeiros não estruturados, como transcrições corporativas, artigos de notícias ou pesquisas.
Lições que aprendemos ao criar um BERT de domínio específico
Tim Nugent, do Refinitiv Labs, descreve com mais detalhes, em um artigo publicado em arxiv.org, o processo de pré-treinamento do BERT com notícias financeiras
A equipe aprendeu que o pré-treinamento do modelo é uma tarefa intensiva, e que precisava ser ampliado de GPUs locais para unidades de processamento de tensor do Google Cloud.
Assim, o time do Refinitiv Labs “filtrou” o repertório, restringindo-o apenas a artigos em inglês com códigos de tópicos específicos da Reuters, como os de notícias de empresas, eventos corporativos e notícias econômicas.
Foram excluídos todos os artigos que usassem códigos e palavras-chave de manchetes, que geralmente são resumos de notícias e destaques. Isso porque esses normalmente contêm listas de manchetes de notícias não relacionadas e que são inadequadas para a previsão da próxima frase.
Muitos artigos sobre notícias financeiras também contêm dados “estruturados” em tabelas e tags ASCII, e a equipe da Refinitiv acabou removendo-os.
Além disso, os nossos profissionais utilizaram retrotradução para lidar com conteúdos da amostra que fossem incompletos. Ou seja, traduziram para o francês e de volta para o inglês várias vezes usando a tradução neural para criar um exemplo aumentado do texto original.
Essa abordagem gera diversas paráfrases que ainda preservam a semântica do texto original e confere melhorias significativas a algumas tarefas, como responder a perguntas.
O futuro do modelo desenvolvido pelo Refinitiv Labs
Ievgen Goichuk, Senior Data Engineer do Refinitiv Labs, explicou as próximas etapas até que o modelo esteja ainda mais perfeito e possa ser adotado pelas empresas de serviços financeiros. “Em 2021, o mundo já é um lugar muito diferente do que era em 2019. Por isso, é importante atualizar o modelo BERT de domínio específico do Refinitiv Labs, treinando-o com artigos mais recentes do Reuters News Archive”, diz ele.
Seu colega, Stanimir Vichev, também Senior Data Engineer do Refinitiv Labs, acrescenta: “Houve diferentes iterações do BERT desde que foi lançado para a comunidade de código aberto em 2018, e isso também pode fornecer níveis extras de precisão ao modelo”.
Certamente, na hora certa, os clientes da Refinitiv irão se beneficiar da maior precisão do BERT neste domínio específico, à medida que o time do Labs aprimora cada vez mais suas pesquisas para entregar um produto sem igual para os profissionais de dados.
No curto prazo, no entanto, já é possível usufruir dos dados, ferramentas e serviços analíticos da Refinitiv, como o Refinitiv Data Platform, que fornece uma ferramenta de exploração de dados (de forma gratuita e em tempo real) corporativos, de fundos, de sentimentos, de referência e de séries temporais, além de mais de 3,5 milhões de manchetes da Reuters News.