- Inicio
- Blog Refinitiv
- AI y Digitalización
- ¿Ha pensado alguna vez en extraer valor de las terminologías de servicios financieros a través de PLN?
June 21, 2021 | AI & MACHINE LEARNING
¿Ha pensado alguna vez en extraer valor de las terminologías de servicios financieros a través de PLN?

Buenas noticias para los profesionales de datos: Refinitiv Labs ha estado entrenando un modelo de Procesamiento del Lenguaje Natural (PLN) con noticias financieras y comerciales para que pueda comprender los matices de la terminología utilizada en este sector, creando una herramienta mucho más precisa que las que están programadas con repertorios genéricos.
- Un área importante de la Inteligencia Artificial (IA), denominada Procesamiento del Lenguaje Natural (PLN), se puede utilizar para filtrar datos que permitan a las empresas del sector financiero obtener información y generar valor adicional.
- Esto solo es posible gracias a los avances en algoritmos y bibliotecas de código abierto, como el modelo de lenguaje de Google, BERT, que ofrece a los usuarios ventajas competitivas en el análisis de contenido financiero.
- A través del archivo de noticias de Reuters, los profesionales de Refinitiv Labs pudieron mejorar la capacitación de BERT, lo que le permitió comprender mejor los matices de la terminología de los servicios financieros para mejorar sus predicciones.
Las organizaciones de la industria de servicios financieros se enfrentan a un problema común: tienen que lidiar con la incesante avalancha de datos no estructurados que van desde informes de investigación y registros de empresas hasta transcripciones de presentaciones de ganancias trimestrales.
Y a pesar de increíblemente valioso, dado que estos volúmenes de contenido no estructurado requieren mucho tiempo para analizarlos, terminan siendo infrautilizados.
Pero ahora, una subdivisión de la Inteligencia Artificial (IA), conocida como Procesamiento del lenguaje natural (PLN) ofrece a estas empresas la oportunidad de obtener insights valiosos a partir de este contenido, que ayuda en los procesos de toma de decisiones y genera un valor comercial adicional.
¿Cómo PLN le ayuda a las máquinas a comprender el significado del lenguaje?
Un modelo de procesamiento del lenguaje natural (PLN) extrae el significado del texto para que las aplicaciones y los servicios de software realmente «entiendan" el lenguaje humano. Para hacer esto, el modelo PLN divide el lenguaje en palabras (tokens) y analiza las relaciones y el contexto entre estos tokens.
PLN es una rama de la inteligencia artificial que ha ido ganando cada vez más importancia, en parte debido a la rápida expansión de la infraestructura, como la potencia informática y las capacidades de manejo de datos. Además, ha habido una mejora notable en la tecnología responsable de la creación de algoritmos y una proliferación de bibliotecas open source, como el Modelo de lenguaje BERT, lanzado por Google en 2018 .
El BERT está pre-entrenado en 3.3 mil millones de palabras de un repertorio de dominio general, como Wikipedia y el conjunto de datos abiertos BookCorpus, y tiene un amplio conocimiento del idioma inglés. Y si bien se puede utilizar directamente en las tareas downstream - como ordenar, responder preguntas y análisis de los sentimientos - el equipo de Refinitiv Labs se dio cuenta de la oportunidad de crear una variante de BERT de dominio específico , que podría proporcionar a los clientes ventajas competitivas en el análisis de contenido financiero.
“Este sector es muy competitivo. Por tanto, creemos que un modelo que comprende la terminología de los datos de nuestros clientes es la forma de darles una ventaja competitiva”, afirma Geoff Horrell, Global Head of Innovation and Labs de Refinitiv.

Cómo enseñamos a BERT a comprender la terminología financiera
Refinitiv Labs mejoró BERT con entrenamiento adicional, utilizando una versión filtrada de un corpus específico de finanzas, Reuters News Archive, que agregó más de 715 millones de palabras de aproximadamente dos millones de artículos publicados entre 1996 y 2019.
El resultado fue un modelo previamente capacitado que comprende los matices de la terminología utilizada en las noticias financieras y comerciales, lo que aumenta drásticamente la precisión de sus pronósticos.
El objetivo es que los profesionales que trabajan con datos, como los que trabajan en las empresas clientes de Refinitiv, puedan utilizarlos para descifrar el lenguaje específico del dominio del contenido no estructurado, aunque siempre existe la opción de perfeccionar aún más el modelo con datos que se ajusten a sus necesidades y tareas exactamente.
En organizaciones de servicios financieros hay varias aplicaciones potenciales para PLN . Un modelo que comprende la terminología empresarial, por ejemplo, se puede utilizar para realizar análisis de opinión sobre datos financieros no estructurados, como transcripciones corporativas, artículos de noticias o encuestas.
Lecciones que aprendimos al crear un BERT de dominio específico
Tim Nugent de Refinitiv Labs lo describe con más detalle en un artículo publicado en arxiv.org, el proceso de formación previa de BERT con noticias financieras
El equipo descubrió que el entrenamiento previo del modelo es una tarea intensiva y que se debe escalar desde las GPU locales a las unidades de procesamiento tensorial de Google Cloud.
Así que el equipo de Refinitiv Labs “filtró” el repertorio, restringiéndolo a artículos en inglés con códigos de temas específicos de Reuters, como noticias de la empresa, eventos corporativos y noticias económicas.
Se excluyeron todos los artículos que utilizaban códigos de título y palabras clave, que suelen ser resúmenes de noticias y destacados. Esto se debe a que a menudo contienen titulares de noticias no relacionados que son inapropiados para la predicción de la siguiente oración.
Muchos artículos de noticias financieras también contienen datos "estructurados" en tablas y etiquetas ASCII, y el equipo de Refinitiv finalmente los eliminó.
Además, nuestros profesionales utilizaron traducción inversa para manejar contenidos de muestra que estaban incompletos. Es decir, tradujeron al francés y de nuevo al inglés varias veces utilizando la traducción neuronal para crear un ejemplo ampliado del texto original.
Este enfoque genera varias paráfrasis que aún conservan la semántica del texto original y hacen mejoras significativas en algunas tareas, como responder preguntas.
El futuro del modelo desarrollado por Refinitiv Labs
Ievgen Goichuk, ingeniero de datos sénior de Refinitiv Labs, explicó los próximos pasos hasta que el modelo sea aún más perfecto y pueda ser adoptado por las empresas de servicios financieros. “En 2021, el mundo ya es un lugar muy diferente de lo que era en 2019. Por eso es importante actualizar el modelo BERT específico de dominio de Refinitiv Labs capacitándolo con los últimos artículos de Reuters News Archive”, dice.
Su colega, Stanimir Vichev, también Senior Data Engineer de Refinitiv Labs, agrega: "Ha habido diferentes iteraciones de BERT desde que se lanzó a la comunidad de código abierto en 2018, y esto también puede proporcionar niveles adicionales de precisión al modelo."
Ciertamente, en el momento adecuado, los clientes de Refinitiv se beneficiarán de la mayor precisión de BERT en este dominio en particular, ya que el equipo de Labs refina aún más su investigación para ofrecer un producto incomparable para los profesionales de datos.
Sin embargo, a corto plazo, ya es posible aprovechar los datos, las herramientas y los servicios analíticos de Refinitiv, como el Refinitiv Data Platform , que proporciona una herramienta de exploración de datos (gratuita y en tiempo real) corporativas, de fondos, de sentimiento, de referencia y de series temporales, además de más de 3,5 millones de titulares de Reuters News.
Refinitiv Learn It All Labs: cómo mejorar la precisión de sus modelos de lenguaje financiero