Intelligenza artificiale e sentiment degli analisti
Il presente documento spiega come il team di ricerca azionaria quantitativa abbia recentemente studiato e ottimizzato il punteggio di sentiment degli analisti di ricerca utilizzato nei portafogli Blended Research di MFS. Il nuovo algoritmo di elaborazione del linguaggio naturale (NLP) è nettamente più efficace nel contestualizzare il testo all'interno di un documento e di conseguenza nel quantificarne il sentiment. Sfruttando strumenti sofisticati come FinBERT per analizzare set di dati proprietari di MFS, riteniamo di poter fornire un segnale di alpha differenziato.
Autori
Noah C. Rumpf, Direttore
Ricerca azionaria quantitativa
Nathan G. Bryant, CFA
Analista di ricerca quantitativa
Shruthi Saralaya
Analista di sistemi quantitativi
In breve
- Il team di ricerca azionaria quantitativa ha recentemente studiato e aggiornato il punteggio di sentiment degli analisti di ricerca utilizzato nei portafogli Blended Research.
- FinBERT è nettamente più efficace rispetto allo strumento precedente nel contestualizzare il testo all'interno di un documento e nel quantificarne il sentiment.
- Sfruttando strumenti sofisticati come FinBERT per analizzare set di dati proprietari di MFS, riteniamo di poter fornire un segnale di alpha differenziato.
Le strategie MFS® Blended Research sono strategie d'investimento azionario gestite utilizzando un segnale di alpha che combina dati quantitativi e fondamentali. L'alpha fondamentale comprende una serie di caratteristiche che rilevano le opinioni degli analisti sui titoli che coprono. Tra queste figurano i loro rating (buy, hold, sell), ma ci sono anche altre due componenti del segnale: un conviction boost per gli emittenti detenuti dall'analista nelle strategie di ricerca di MFS e un punteggio sul sentiment che utilizza l'elaborazione del linguaggio naturale (NLP) per "leggere" gli appunti degli analisti e valutarne il sentiment.
Il team di ricerca azionaria quantitativa ha recentemente studiato e ottimizzato questo punteggio sul sentiment. Prima di questa analisi, il sentiment veniva stimato utilizzando un algoritmo NLP chiamato "bag of words", un modello che assegna un punteggio al testo consultando un dizionario che classifica le parole a seconda che abbiano un sentiment positivo o negativo. Il modello che abbiamo aggiornato è un modello linguistico di grandi dimensioni chiamato FinBERT. Rispetto al modello bag of words, FinBERT è più efficace nel contestualizzare il testo all'interno di un documento e nel quantificarne il sentiment.1
In questo articolo spiegheremo in cosa consistono e come funzionano questi due modelli. Inoltre, forniremo un esempio tratto dal nostro database proprietario di appunti storici degli analisti, che mostra perché a nostro avviso FinBERT è più efficace nel rilevare il sentiment degli analisti.
Una panoramica dei modelli di elaborazione del linguaggio naturale
L'approccio bag of words utilizzato in precedenza dalle strategie Blended Research si avvale di un glossario finanziario sviluppato da Tim Loughran e Bill McDonald della University di Notre Dame che classifica le parole come positive o negative in base a come vengono comunemente impiegate nei documenti finanziari. Viene poi conteggiato il numero di queste parole all'interno di ciascun appunto per misurarne il sentiment. Il dizionario Loughran McDonald è un glossario relativamente breve perché cerca di evitare di classificare erroneamente le parole che possono essere interpretate in modo diverso a seconda che vengano utilizzate in un contesto commerciale o nel linguaggio corrente. Ad esempio, per la maggior parte di questi glossari "vice" (vizio) è una parola negativa, ma dal momento che "vicepresidente" è un'espressione ricorrente in ambito commerciale, "vice" non è incluso nel dizionario Loughran McDonald ed è considerato un termine neutro. L'analisi del sentiment attraverso il modello bag of words ha il vantaggio di essere facile da implementare e da comprendere e permette all'utente di controllare a quali parole viene assegnato un valore positivo o negativo. L'inconveniente del modello è che la sua semplicità non gli consente di comprendere il contesto ed è sensibile alle parole del glossario in uso.
Figura 1: I due modelli a confronto
| Bag of Words | FinBERT |
| Vantaggi | |
| Facile da implementare | Comprende meglio il contesto |
| Facile da capire | Ha maggiore familiarità con il gergo finanziario |
| L'utente controlla il metodo di classificazione | Misura meglio il sentiment |
| Svantaggi | |
| Non capisce il contesto | Più complesso |
FinBERT è un modello linguistico di grandi dimensioni (LLM) basato sul modello BERT (Bidirectional Encoder Representations from Transformers) di Google. I modelli BERT sono ampiamente utilizzati nelle attività legate al linguaggio, come la previsione della parola successiva in un messaggio di testo o in un'e‑mail, l'aiuto dei chatbot per rispondere alle domande, ecc. FinBERT è stato ottimizzato tramite fine tuning su un vasto corpus di testi finanziari e addestrato a prevedere il sentiment utilizzando il dataset Financial PhraseBank di Malo et al. (2014).2 Il fine tuning rende il modello linguistico di FinBERT più versato nel gergo finanziario e lo strato del sentiment gli insegna a misurare il sentiment come positivo o negativo. I modelli linguistici di grandi dimensioni sono composti da più strati ("layer") di reti neurali o pacchetti computazionali che lavorano in tandem per elaborare il testo in ingresso e generare il testo in uscita. Lo strato del sentiment è il risultato di processi computazionali che determinano l'atteggiamento dell'autore del testo nei confronti dell'argomento.
BERT è stato sviluppato come modello linguistico per codificare e prevedere il linguaggio ed è addestrato a rappresentare parole e frasi e le relazioni tra di esse. Affinando il modello su testi specifici per il settore finanziario e creando un modello di sentiment, FinBERT sfrutta la capacità di BERT di comprendere il linguaggio ordinario e lo aiuta a focalizzarsi sul compito di misurare il sentiment del testo finanziario. Il vantaggio di FinBERT è che non è sensibile a un elenco terminologico ed è in grado di comprendere il linguaggio corrente, il contesto e relazioni complesse, aspetti che il formato bag of words non coglie; l'inconveniente è che è più complesso ed è più difficile capire esattamente cosa determina i vari punteggi. Per maggiori dettagli sullo sviluppo di FinBERT, si veda Araci (2019).3
Va detto che FinBERT è un modello linguistico di grandi dimensioni, ma non è un modello generativo come ChatGPT. Di conseguenza, non risente di alcuni dei problemi di stabilità di quest'ultimo (ad es., non genera risposte "allucinate"). A parità di input, produrrà sempre lo stesso risultato.
Confronto tra i modelli utilizzando l'appunto di ricerca di un analista di MFS
Nel valutare i due modelli abbiamo esaminato sia la loro capacità di misurare efficacemente il sentiment, sia le performance a termine associate ai punteggi quando vengono utilizzati come fattore quantitativo sistematico. Le performance del modello FinBERT hanno superato quelle del modello bag of words, ma la differenza più importante che abbiamo notato è la capacità di FinBERT di misurare il sentiment in un modo più coerente con quello in cui noi esseri umani leggiamo gli appunti.
Abbiamo preso come esempio il seguente appunto, redatto da un analista di MFS su un'azienda di tecnologia e difesa statunitense nel novembre 2016:
Paragrafo 1 – "Ha registrato un trimestre in linea dopo la normalizzazione dell'aliquota fiscale. Il fatturato organico è diminuito del 2%, ma il tasso di declino sembra aver raggiunto un minimo. Gli ordini sono stati sostenuti (B2B a 1,17x).
Paragrafo 2– Ero preoccupato per le vendite di radio tattiche ad alto margine; questo trimestre sono aumentate per la prima volta in tre trimestri, con il B2B a 1,22x rispetto allo 0,92x dello scorso trimestre. Sono cauto sugli ordini di tutte le divisioni aziendali, che sono disomogenei, ma questa è per me una prova sufficiente che la situazione sta per cambiare. Gli ordini internazionali di radio sono aumentati di quasi il 30% su base sequenziale. I contratti firmati avevano fatto prospettare un 2018 all'insegna della crescita per il settore radio statunitense, ma il bacino che hanno generato non è poi così profondo. Il resto dell'attività dovrebbe iniziare a crescere in maniera organica e lo sfoltimento del portafoglio prosegue.
Paragrafo 3 – Il team continua ad attuare il piano di sinergie (margini +50 pb al 13,7%), mentre il calo del business complessivo sta rapidamente decelerando. La valutazione appare ancora buona a 17x per l'anno solare 2017. Rilevo una traiettoria verso un tasso di free cash flow di 1 miliardo di dollari entro l'anno prossimo, che colloca le azioni a un rendimento dell'8%. Alzare a 1."
L'appunto sull'azienda è chiaramente positivo; l'analista sta dicendo che le prospettive future dell'attività sono buone e ha alzato il rating a "Buy". FinBERT attribuisce giustamente a questo appunto un punteggio positivo, mentre il modello bag of words lo classifica come negativo.
Figura 2: I punteggi di FinBERT e Bag of words suddivisi per paragrafo
| Punteggio FinBERT | Sentiment FinBERT | Punteggio Bag of words | Sentiment Bag of words | |
| Paragrafo 1 | -0,58 | negativo | -0,08 | negativo |
| Paragraph 2 | 0,90 | positivo | -0,04 | negativo |
| Paragrafo 3 | 0,82 | positivo | -0,05 | negativo |
| Punteggio complessivo dell'appunto | 0,38 | positivo | -0,06 | negativo |
Si noti che FinBERT e Bag of words non sono sulla stessa scala ma entrambi sono centrati su 0, dove un valore vicino a 0 corrisponde a un tono neutrale,
numeri positivi implicano un sentiment positivo e numeri negativi implicano un sentiment negativo.
Se entrambi i modelli considerano il primo paragrafo come negativo, in quanto "il fatturato organico è diminuito", il modello FinBERT coglie gli aspetti positivi del secondo e terzo paragrafo. Bag of words qualifica come neutrali molte frasi, perché nessuna delle parole risulta classificata nel glossario finanziario di Loughran McDonald. In questo modo si rischia di non tenere conto di importanti indicatori di sentiment. Ad esempio, le frasi "alzare a 1", "il resto dell'attività dovrebbe iniziare a crescere in maniera organica" e "gli ordini internazionali di radio sono aumentati di quasi il 30% su base sequenziale" sono considerate neutrali dal modello bag of words perché nessuna delle parole è classificata. FinBERT valuta giustamente tutte queste frasi come positive e capisce che gli aspetti positivi di questo appunto superano quelli negativi.
Bag of words può essere sensibile al glossario utilizzato per l'attribuzione del punteggio e, per gli appunti più brevi come quello di questo esempio, la valutazione può essere determinata da un numero ridotto di frasi in quanto il modello considera neutrale gran parte delle frasi. FinBERT sembra rilevare il sentiment in modo più simile a un essere umano. Anche se l'esempio contiene alcune parole o frasi che potrebbero essere considerate negative, l'idea complessiva del commento è che l'analista ha una visione positiva sul futuro del titolo.
Precisione dei punteggi a confronto
Nell'ambito dell'analisi, abbiamo esaminato gli appunti in cui i due modelli erano maggiormente in disaccordo e li abbiamo classificati manualmente come positivi, negativi o neutrali. I punteggi FinBERT non solo hanno mostrato una maggiore correlazione con i valori rilevati a mano, ma corrispondevano anche ai nostri punteggi positivi o negativi nell'85% dei casi.
Figura 3: Punteggi del modello rispetto ai punteggi del team MFS Quant
| FinBERT | Bag-of-Words | |
| Correlazione con i punteggi del team Quant | 0,43 | 0,22 |
| Totale % corretta | 85% | 38% |
Il vantaggio della ricerca mista
Sebbene FinBERT costituisca un approccio più sofisticato ed efficace alla misurazione del sentiment, vale la pena di notare che il principale punto di forza in termini di vantaggio d'investimento non è il modello in sé, ma i dati a cui viene applicato. MFS dispone di un team globale di analisti fondamentali dediti all'analisi dei titoli e i punteggi di sentiment sono calcolati sul set di dati proprietari degli appunti degli analisti disponibili solo per gli investitori di MFS. Sfruttando strumenti sofisticati come FinBERT per analizzare set di dati proprietari, riteniamo di poter fornire un segnale di alpha differenziato che offre un'esposizione alle idee sviluppate dai nostri team fondamentali.
Note
1 Il termine "sentiment" si riferisce al modo in cui i modelli di elaborazione del linguaggio naturale comprendono il testo in modo simile a quello degli esseri umani. È diverso dal fattore sentiment utilizzato nel modello Blended Research Quantitative Alpha di MFS.
2 Malo, P., Sinha, A., Korhonen, P., Wallenius, J. e Takala, P. (2014), Good Debt or Bad Debt. J Assn Inf Sci Tec, 65: 782-796.https://doi.org/10.1002/asi.23062.
3 D. Araci, "Finbert: Financial sentiment analysis with pre-trained language models”, arXiv preprint arXiv:1908.10063, 2019.
Le opinioni espresse sono quelle del o degli autori e sono soggette a modifica in qualsiasi momento. Tali opinioni sono fornite a mero scopo informativo e non devono essere considerate una raccomandazione sulla quale basare l'acquisto di titoli né una sollecitazione o una consulenza d'investimento. Non vi è alcuna garanzia che le previsioni si avverino. I rendimenti passati non sono una garanzia dei risultati futuri.
L'analisi degli investimenti, lo sviluppo e l'uso di modelli quantitativi così come la selezione degli investimenti di MFS possono non produrre i risultati previsti e/o possono portare a una concentrazione degli investimenti che fa sì che il portafoglio sottoperformi altri portafogli con strategie di investimento simili e/o sottoperformi i mercati in cui il portafoglio investe. I modelli quantitativi proprietari e di terze parti utilizzati da MFS possono non produrre i risultati previsti per una serie di ragioni, compresi i fattori utilizzati, il peso attribuito a ciascun fattore, la variazione delle fonti di performance del mercato, i cambiamenti rispetto alle tendenze storiche dei fattori di mercato e questioni tecniche relative a sviluppo, applicazione e manutenzione dei modelli (ad esempio, dati incompleti o imprecisi, problemi di programmazione/software, errori di codifica e guasti tecnologici).