La IA y el sentimiento de los analistas
Este artículo aborda cómo el equipo de análisis cuantitativo de renta variable ha analizado y aplicado recientemente una mejora en la puntuación del sentimiento de los analistas utilizada en las carteras MFS Blended Research. El nuevo algoritmo de procesamiento del lenguaje natural (PLN) es materialmente mejor a la hora de contextualizar el texto dentro de un documento y, como resultado, cuantificar su sentimiento. Al aprovechar herramientas sofisticadas como FinBERT para analizar los conjuntos de datos propiedad de MFS, creemos que podemos ofrecer una señal de alpha diferenciada.
Autores
Noah C. Rumpf, Director
Análisis cuantitativo de renta variable
Nathan G. Bryant, CFA
Analista cuantitativo
Shruthi Saralaya
Analista de sistemas cuantitativos
En resumen
- El equipo de análisis cuantitativo de renta variable ha analizado e implementado en recientes fechas una mejora en la puntuación del sentimiento de los analistas utilizada en las carteras de análisis combinado.
- FinBERT es materialmente mejor que la herramienta anterior a la hora de contextualizar el texto dentro de un documento y cuantificar su sentimiento.
- Al aprovechar herramientas sofisticadas como FinBERT para analizar los conjuntos de datos propiedad de MFS, creemos que podemos ofrecer una señal de alpha diferenciada.
Las estrategias MFS® Blended Research son estrategias de inversión en renta variable que se gestionan mediante una señal alpha que combina datos cuantitativos y fundamentales. El alpha fundamental incluye varias características que recogen las opiniones de los analistas sobre los valores que cubren. Esto incluye sus calificaciones (comprar, mantener, vender), aunque también hay otros dos componentes en la señal: un impulso de convicción para los emisores que el analista mantenga en las estrategias de análisis de MFS y una puntuación de sentimiento que utiliza el procesamiento del lenguaje natural (PLN) para «leer» los comentarios de los analistas y evaluar su sentimiento.
El equipo de análisis cuantitativo de renta variable ha analizado e implementado en recientes fechas una mejora en esta puntuación del sentimiento. Antes de este análisis, el sentimiento se estimaba mediante un algoritmo de PNL llamado modelo de «bolsa de palabras» (Bag-of-Words), que puntúa el texto consultando un diccionario que clasifica las palabras según tengan un sentimiento positivo o negativo. Nuestro nuevo modelo mejorado es un gran modelo lingüístico llamado FinBERT. En comparación con Bag-of-Words, FinBERT es materialmente mejor a la hora de contextualizar el texto dentro de un documento y cuantificar su sentimiento.1
En este artículo explicaremos en qué consisten ambos modelos y cómo funcionan. También ofreceremos un ejemplo de nuestra biblioteca propia de comentarios históricos de analistas, que muestra por qué creemos que FinBERT resulta más eficaz a la hora de captar el sentimiento de los analistas.
Visión general de los modelos de procesamiento del lenguaje natural
El enfoque de Bag-of-Words utilizado anteriormente en las estrategias Blended Research utiliza un léxico financiero, desarrollado por Tim Loughran y Bill McDonald en la Universidad de Notre Dame, que clasifica las palabras como positivas o negativas en función de cómo se suelen utilizar en los documentos financieros. Después se registra el recuento de esas palabras de cada comentario para medir el sentimiento del comentario. El diccionario Loughran McDonald es un léxico relativamente corto porque trata de evitar la clasificación errónea de palabras que pueden interpretarse de forma diferente en un entorno empresarial que en el lenguaje corriente. Por ejemplo, la mayoría de los léxicos consideran que «vice» (vicio) es una palabra negativa, pero dado que «vice president» es una expresión que se utiliza a menudo en un contexto empresarial, «vice» no está incluida en el diccionario Loughran McDonald y se considera neutra. La ventaja de medir el sentimiento con Bag-of-Words es que es fácil de implementar, fácil de entender y permite al usuario controlar a qué palabras se asigna un valor positivo o negativo. El inconveniente del modelo es que su simplicidad no le permite comprender el contexto y es sensible a las palabras del léxico que se utilicen.
Gráfico 1: Comparación de los dos modelos
| Bag of Words | FinBERT |
| Ventajas | |
| De fácil implementación | Puede entender mejor el contexto |
| De fácil comprensión | Más familiarizado con la jerga financiera |
| El usuario controla el método de etiquetado | Mejor medición del sentimiento |
| Desventajas | |
| No entiende el contexto | Más complejo |
FinBERT es un gran modelo lingüístico (LLM) basado en el modelo BERT (Representación de Codificadores Bidireccionales de Transformadores) de Google. Los modelos BERT se utilizan mucho en tareas relacionadas con el lenguaje. Por ejemplo, predecir la siguiente palabra en un mensaje de texto o correo electrónico, ayudar a los chatbots a responder preguntas, etc. FinBERT se ha ajustado con un gran corpus de textos financieros y se ha entrenado para predecir el sentimiento utilizando la base de datos Financial PhraseBank de Malo et al. (2014).2 El ajuste hace que el modelo de codificación lingüística de FinBERT se familiarice más con la jerga financiera y la capa de sentimiento le enseña a medir el sentimiento como positivo o negativo. Los grandes modelos lingüísticos se componen de múltiples «capas» de redes neuronales o paquetes computacionales que trabajan en tándem para procesar el texto de entrada y generar el texto de salida. La capa de sentimiento es el resultado de los procesos computacionales que determinan la actitud del escritor respecto al tema.
BERT se desarrolló como modelo lingüístico para codificar y predecir el lenguaje, y se entrena para representar palabras y frases, y las relaciones que existen entre ellas. Al ajustar el modelo al texto específico del sector financiero y crear un modelo de sentimiento, FinBERT aprovecha la capacidad de BERT para comprender el lenguaje sencillo y lo centra en la tarea de medir el sentimiento del texto financiero. La ventaja de FinBERT es que no es sensible a un léxico y puede entender el lenguaje llano, el contexto y las relaciones complejas que Bag-of-Words no capta, si bien la desventaja estriba en que es más complejo y más difícil de entender exactamente qué está impulsando una puntuación determinada. Si desea más información sobre el desarrollo de FinBERT, véase Araci (2019).3
Cabe señalar que, aunque FinBERT es un gran modelo de lenguaje, no es un modelo generativo como ChatGPT. Por lo tanto, no sufre algunos de los problemas de estabilidad de este (p. ej., no alucina respuestas). Dadas las mismas entradas, mostrará siempre el mismo resultado.
Comparación de los modelos mediante un comentario de un analista de MFS
Al evaluar los dos modelos, nos fijamos tanto en su capacidad para medir eficazmente el sentimiento como en la rentabilidad a plazo asociada a las puntuaciones cuando se utilizan como factor cuantitativo sistemático. Los resultados del modelo FinBERT superaron a los del modelo Bag-of-Words, aunque la diferencia más importante que observamos fue su capacidad para medir el sentimiento de una forma más coherente con la forma en que nosotros, como humanos, leemos los comentarios.
Tomemos como ejemplo el siguiente comentario, escrito por un analista de MFS en relación con una empresa tecnológica y contratista de defensa estadounidense en noviembre de 2016:
Párrafo 1 – «Se ha registrado un trimestre en línea tras normalizar el tipo impositivo. Los ingresos orgánicos bajaron un 2%, pero el ritmo de descenso parece haber tocado fondo. Los pedidos fueron sólidos con 1,17 veces en B2B.»
Párrafo 2– «Las ventas de radio tácticas de alto margen me tenían preocupado, y este trimestre aumentaron por primera vez en tres trimestres, con B2B en 1,22 veces, frente a las 0,92 veces del trimestre pasado. Advierto sobre las reservas en todas sus actividades, que son desiguales, pero en mi opinión es prueba suficiente de que la situación está tocando fondo. Las reservas internacionales en radio aumentaron casi un 30% secuencialmente. El negocio de la radio en EE. UU. siempre iba a crecer en 2018 dadas las victorias, pero ahora la bañera que le sigue no parece tan profunda. El resto del negocio debería empezar a crecer orgánicamente, y la reducción de la cartera continúa.»
Párrafo 3 – «El equipo sigue ejecutando el plan de sinergias (márgenes de +50 p.b. hasta el 13,7%), mientras que los descensos en el negocio total experimentan una rápida desaceleración. La valoración sigue teniendo buen aspecto a 17 veces en el año 2017. Veo una senda hacia una tasa de flujo de caja libre de 1.000 millones de dólares para el año que viene, lo que sitúa las acciones en un rendimiento aproximado del 8%. Elevar a un 1.»
El comentario es claramente positivo respecto a la empresa y el analista afirma que las perspectivas futuras del negocio parecen buenas y la eleva a la calificación de «Comprar». FinBERT puntúa con precisión este comentario como positivo, mientras que el modelo Bag-of-Words lo puntúa como negativo.
Gráfico 2: Las puntuaciones de FinBERT y Bag-of-Words desglosadas por párrafos
| Puntuación de FinBERT | Sentimiento de FinBERT | Puntuación de Bag-of-Words | Sentimiento de Bag-of-Words | |
| Párrafo 1 | -0,58 | negativa | -0,08 | negativa |
| Párrafo 2 | 0,90 | positiva | -0,04 | negativa |
| Párrafo 3 | 0,82 | positiva | -0,05 | negativa |
| Calificación general comentario | 0,38 | positiva | -0,06 | negativa |
Tenga en cuenta que FinBERT y Bag-of-Words no están en la misma escala, pero ambos están centrados en 0 y estar cerca de 0 es un tono neutro, los números positivos implican un sentimiento positivo y los números negativos implican un sentimiento negativo.
Mientras que ambos modelos consideran negativo el primer párrafo, motivado por el «descenso de los ingresos orgánicos», el modelo FinBERT recoge los aspectos positivos de los dos párrafos segundos. Bag-of-Words adopta una postura neutra en muchas de las frases porque ninguna de las palabras está clasificada en el léxico financiero de Loughran McDonald, lo que puede conllevar que se pierdan importantes indicadores de sentimiento. Por ejemplo, las frases «elevar a un 1», «resto del negocio debería empezar a crecer orgánicamente» y «las reservas internacionales en radio aumentaron casi un 30% secuencialmente» se consideran neutras en Bag-of-Words porque ninguna de las palabras está etiquetada. FinBERT valora positivamente todas estas frases y capta con eficacia cómo los aspectos positivos de este comentario superan los negativos.
Bag-of-Words puede ser sensible al léxico utilizado en la puntuación y, en los comentarios más cortos, como el de este ejemplo, un número reducido de frases puede determinar la puntuación debido a que el modelo adopta un punto de vista neutro respecto a la mayoría de las frases. FinBERT parece captar el sentimiento más como un humano. Aunque en el ejemplo pueden verse algunas palabras o frases que podrían considerarse negativas, el punto principal del comentario es que el analista tiene una opinión positiva sobre el futuro de la acción.
Comparación de la precisión de la puntuación
En el marco del análisis, ponemos la mirada en los comentarios en los que los dos modelos discrepaban más y los puntuamos a mano como positivos, negativos o neutros. En estos casos, la puntuación de FinBERT no solo mostraba una mayor correlación con nuestros valores puntuados a mano, sino que las puntuaciones de FinBERT coincidían con nuestras puntuaciones positivas o negativas en el 85% de las ocasiones.
Gráfico 3: Puntuaciones de los modelos frente a las del equipo MFS Quant
| FinBERT Score | Bag-of-Words | |
| Correlación con las puntuaciones del equipo Quant | 0,43 | 0,22 |
| % total correcto | 85% | 38% |
La ventaja del análisis combinado
Aunque FinBERT supone un enfoque más sofisticado y eficaz para medir el sentimiento, también merece la pena destacar que el principal aspecto positivo en términos de ventaja inversora no es el modelo en sí, sino los datos a los que se aplica. MFS cuenta en su plantilla con un equipo global de analistas fundamentales para analizar los valores y las puntuaciones de sentimiento se calculan sobre el conjunto de datos propios de comentarios de analistas disponibles únicamente para los inversores de MFS. Al aprovechar herramientas sofisticadas como FinBERT para analizar los conjuntos de datos propios, creemos que podemos ofrecer una señal de alpha diferenciada que ofrezca exposición a los conocimientos desarrollados por nuestros equipos fundamentales.
Notas
1 El sentimiento se refiere a la manera en que los modelos de procesamiento del lenguaje natural entienden el texto de forma parecida a los humanos. Es diferente del factor sentimiento utilizado en el modelo MFS Blended Research Quantitative Alpha.
2 Malo, P., Sinha, A., Korhonen, P., Wallenius, J. y Takala, P. (2014), Good Debt or Bad Debt. J Assn Inf Sci Tec, 65: 782-796. https://doi.org/10.1002/asi.23062.
3 D. Araci, «Finbert: Financial sentiment analysis with pre-trained language models», arXiv prepublicación arXiv:1908.10063, 2019.
Las opiniones expresadas pertenecen al autor o autores y pueden variar en cualquier momento. Dichas opiniones se ofrecen exclusivamente a título informativo y no deberán considerarse una recomendación para comprar ningún título ni una incitación o asesoramiento de inversión. Las previsiones no están garantizadas. Las rentabilidades pasadas no garantizan los resultados futuros.
El análisis de inversión, el desarrollo y la utilización de modelos cuantitativos, así como la selección de inversiones de MFS podrían ofrecer resultados diferentes de los previstos y/o podrían desembocar en un enfoque de inversión que se traduzca en una rentabilidad de la cartera inferior a la de otras carteras con estrategias de inversión similares y/o a la de los mercados en los que invierte la cartera. Los modelos cuantitativos internos y de terceros utilizados por MFS podrían no deparar los resultados esperados por varios motivos, entre otros, los factores empleados en los modelos, el peso otorgado a cada factor, las cambiantes fuentes de rentabilidad de mercado, las variaciones en las tendencias históricas de los factores de mercado y los posibles problemas técnicos en el diseño, el desarrollo, la aplicación y el mantenimiento de los modelos (por ejemplo, datos incompletos o imprecisos, problemas informáticos o de programación y fallos tecnológicos).