Análise de dados da Refinitiv revela que mais de um milhão de reformulações e reclassificações foram feitas nos arquivos originais desde 2010. Veja, neste post, como isso reforça a necessidade de quants e cientistas de dados implementarem dados point-in-time.
- Desde 2010, a Refinitiv processou, globalmente, 1.002.184 reformulações e reclassificações.
- Essas estatísticas demonstram como os conjuntos de dados padrão podem criar vieses e imprecisões em backtests e modelos de machine learning – e por que quants e cientistas de dados deveriam utilizar dados point-in-time.
- A Refinitiv oferece a gama mais abrangente de dados point-in-time do mercado, incluindo novos e exclusivos dados ESG.
Nossos dados mostram que, ao longo da última década, a quantidade de reclassificações e reformulações foi bastante significativa. Esses ajustes afetam a maioria dos mercados globais (conforme indica a tabela abaixo), e os números para os anos mais recentes só tendem a crescer com o passar do tempo.
Podemos afirmar que as razões para reclassificações e reformulações são as mais variadas –desde fusões de empresas e atualizações de políticas contábeis a mudanças impostas por auditores e reguladores.
O impacto, no entanto, é sempre o mesmo: quaisquer backtests ou modelos de machine learning baseados nesses dados serão imprecisos. Isso porque os números disponíveis hoje são diferentes daqueles que estavam disponíveis no passado.
Vantagens dos dados point-in-time
Point-in-time é o único conjunto de dados que pode superar os desafios apresentados por reclassificações e reformulações.
Somente ele possui todos os valores relatados na ordem em que foram publicados, com registro de data e hora no momento em que estavam disponíveis ao mercado. Consequentemente, os valores originais não são substituídos por reclassificações e reformulações, e os dados fornecem uma visão mais realista de todo o histórico.
Isso permite que testes e modelos façam referência aos valores que estavam realmente disponíveis em determinado momento –e não àqueles que vieram depois.
Os conjuntos de dados padrão, por outro lado, englobam apenas os valores mais recentes que foram relatados, substituindo os valores originais com atualizações e ajustes.
Avaliação do sucesso de estratégias e modelos
Ao treinar modelos específicos de machine learning e fazer backtesting de estratégias quantitativas, aquele velho ditado ainda permanece verdadeiro: “Se entra lixo, sai lixo”.
Ou seja, uma base de dados “limpa” é crucial para garantir que os resultados sejam precisos, e que novas estratégias ou modelos, eficazes.
Só que, quando usados historicamente, os conjuntos de dados padrão estão longe de serem limpos.
Além da questão de reformulações e reclassificações, muitas vezes há imprecisões adicionais. Um bom exemplo disso é a data de publicação de um ponto de dados registrada como o final do período de relatório.
Como Marcos Lopez de Prado explica em Advances in Financial Machine Learning (2018, John Wiley & Sons, Inc.), na realidade, a data de publicação é sempre posterior. “Os dados fundamentais publicados pela Bloomberg são indexados pela última data incluída no relatório, que antecede, geralmente por um mês e meio, a data de divulgação. Em outras palavras: a Bloomberg está atribuindo esses valores a uma data em que eles ainda não eram conhecidos”, explica.
As suposições de atraso são frequentemente implementadas durante o backtesting para contabilizar esses atrasos nos relatórios e tornar os dados mais realistas. Porém, essas defasagens também são imprecisas. Dificultadas por regulações de arquivamento que mudam ao longo do tempo –além de variar entre países e empresas—, elas costumam ser uma solução ineficaz para o problema, e só levam a mais erros (como exposto nas Figuras 6 e 7).
Outro problema frequente gerado por conjuntos de dados padrão é a designação incorreta do quintil.
Conforme observamos na Figura 26, em média, 40% das empresas são mal classificadas. Isso faz com que essas organizações sejam indevidamente identificadas como mais atraentes (ou vice-versa) e que as ações erradas sejam selecionadas para compra e venda.
Todas essas imprecisões podem fazer com que a performance projetada seja muito diferente da realidade (confira no gráfico abaixo).
Aqui, dois testes da mesma estratégia (um concluído usando dados padrão, e outro, dados point-in-time) fornecem projeções de desempenho de portfólio bastante diversas. E isso ocorre, claro, devido à atribuição incorreta de decis às empresas pelo conjunto de dados padrão.
Como Saeed Amen explica, esses resultados enganosos podem fazer com que as organizações invistam em uma estratégia ou modelo que não seja tão eficaz quanto os testes sugerem.
Os dados point-in-time são a única solução que garante às empresas autonomia para tomar decisões mais embasadas sobre quais estratégias ou modelos adotar.
Gama abrangente de dados point-in-time
Com o Worldscope Fundamentals, Refinitiv Financials, I / B / E / S, Economics e notícias em tempo real da Reuters, a Refinitiv oferece uma ampla gama de dados point-in-time. E, como a demanda por conjuntos de dados alternativos continua a crescer, também nos preparamos para fornecer dados point-in-time ESG –lançados em breve exclusivamente pela Refinitiv por meio de nossa parceria com MarketPsych.
A Refinitiv está agora no Telegram! Receba atualizações diárias de análises de mercado em seu celular. Inscreva-se em t.me/Refinitiv