- Inicio
- Blog Refinitiv
- Inversiones y Trading
- Entienda por qué los datos point in time son esenciales
March 10, 2021 | INSIGHTS DE INVERSIÓN
Entienda por qué los datos point in time son esenciales

El análisis de los datos de Refinitiv revela que se han realizado más de un millón de reformulaciones y reclasificaciones a los archivos originales desde 2010. Vea, en esta publicación, cómo esto refuerza la necesidad de que los quants y científicos de datos implementen datos point in time.
- Desde 2010, Refinitiv ha procesado 1.002.184 reformulaciones y reclasificaciones a nivel mundial.
- Estas estadísticas demuestran cómo los conjuntos de datos estándar pueden crear sesgos e inexactitudes en backtests y modelos de machine learning, y por qué los quants y los científicos de datos deberían usar datos point in time.
- Refinitiv ofrece la gama más completa de datos point in time del mercado, incluidos los nuevos y exclusivos datos ESG.
Nuestros datos muestran que, durante la última década, la cantidad de reclasificaciones y reformulaciones ha sido bastante significativa. Estos ajustes afectan a la mayoría de los mercados globales (como se muestra en la tabla a continuación), y las cifras de los años más recientes solo tienden a crecer con el tiempo.
Podemos decir que los motivos de las reclasificaciones y reformulaciones son los más variados –desde fusiones de empresas y actualizaciones de políticas contables hasta cambios impuestos por auditores y reguladores.
Aún así, el impacto es siempre el mismo: cualquier backtest o modelo de machine learning basado en estos datos será inexacto. Esto se debe a que los números disponibles hoy en día son diferentes de los que había disponibles en el pasado.
Ventajas de los datos point in time
El point in time es el conjunto de datos llamado a superar los desafíos presentados por las reclasificaciones y reformulaciones.
Es el único con todos los datos reportados en el orden en que fueron publicados, con una marca de tiempo cuando estuvieron disponibles para el mercado. En consecuencia, las cifras originales no son reemplazadas por reclasificaciones y reformulaciones, y los datos brindan una visión más realista de toda la historia.
Esto permite que las pruebas y los modelos hagan referencia a los números que estaban realmente disponibles en un momento dado, y no a los que vinieron después.
Los conjuntos de datos estándar, por otro lado, abarcan solo los valores más recientes que se han informado, reemplazando los originales con actualizaciones y ajustes.
Evaluar el éxito de estrategias y modelos
Al entrenar modelos específicos de machine learning y realizar backtesting de estrategias cuantitativas, ese viejo dicho sigue siendo cierto: "Si entra basura, sale basura".
En otras palabras, una base de datos “limpia” es crucial para asegurar que los resultados sean precisos y que las nuevas estrategias o modelos sean efectivos.
El problema es que, cuando se usa históricamente, los conjuntos de datos estándar están lejos de ser limpios.
Además de la cuestión de las reformulaciones y reclasificaciones, a menudo hay inexactitudes adicionales. Un buen ejemplo de esto es la fecha de publicación de un punto de datos registrado como el final del período del informe.
Como explica Marcos Lopez de Prado en Advances in Financial Machine Learning (2018, John Wiley & Sons, Inc.), en realidad, la fecha de publicación siempre es posterior. “Los datos fundamentales publicados por Bloomberg están indexados por la última fecha incluida en el informe, que suele ser un mes y medio antes de la fecha de divulgación. En otras palabras: “Bloomberg está asignando estos valores a una fecha en la que aún no se conocían”, explica el ejecutivo.
Las suposiciones de demora frecuentemente se implementan durante el backtesting para tener en cuenta estas tardanzas en los informes y hacer que los datos sean más realistas. No obstante, estos retrasos también son inexactos. Complicadas por archivar regulaciones que cambian con el tiempo, además de variar entre países y empresas, y suelen ser una solución ineficaz al problema y solo conducen a más errores (como se muestra en las Figuras 6 y 7).

Otro problema frecuente generado por los conjuntos de datos estándar es la designación incorrecta del quintil.
Como podemos ver en la Figura 26, en promedio, el 40% de las empresas están mal clasificadas. Esto provoca que estas organizaciones se identifiquen erróneamente como más atractivas (o viceversa) y que se seleccionen las acciones incorrectas para su compra y venta.

Todas estas inexactitudes pueden hacer que el rendimiento proyectado sea muy diferente de la realidad (consulte el cuadro a continuación).
Aquí, dos pruebas de la misma estrategia (una completada con datos estándar y la otra, datos point in time) proporcionan proyecciones de rendimiento de cartera muy diversas. Y esto se debe, por supuesto, a la atribución incorrecta de decisiones a las empresas por parte del conjunto de datos estándar.
Como lo explica Saeed Amen , estos resultados engañosos pueden hacer que las organizaciones inviertan en una estrategia o modelo que no sea tan efectivo como sugieren las pruebas.

Los datos point in time son la única solución que garantiza la autonomía de las empresas para tomar decisiones más informadas sobre qué estrategias o modelos adoptar.
Amplia gama de los datos point in time
Con Worldscope Fundamentals, Refinitiv Financials, I / B / E / S, Economics y noticias en tiempo real de Reuters, Refinitiv ofrece una amplia gama de datos point in time. Y, a medida que la demanda de conjuntos de datos alternativos sigue creciendo, también nos estamos preparando para proporcionar datos ESG point in time, que pronto serán lanzados exclusivamente por Refinitiv a través de nuestra asociación con MarketPsych.