Un trasformatore visivo fondamentale migliora le prestazioni diagnostiche degli elettrocardiogrammi

npj Medicina Digitale volume 6, numero articolo: 108 (2023) Citare questo articolo

Dettagli sulle metriche

L’elettrocardiogramma (ECG) è una modalità diagnostica onnipresente. Le reti neurali convoluzionali (CNN) applicate all'analisi ECG richiedono campioni di grandi dimensioni e gli approcci di trasferimento di apprendimento per problemi biomedici possono comportare prestazioni non ottimali quando il pre-addestramento viene eseguito su immagini naturali. Abbiamo sfruttato la modellazione di immagini mascherate per creare un modello di trasformatore basato sulla visione, HeartBEiT, per l'analisi della forma d'onda dell'elettrocardiogramma. Abbiamo pre-addestrato questo modello su 8,5 milioni di ECG e poi abbiamo confrontato le prestazioni con le architetture CNN standard per la diagnosi di cardiomiopatia ipertrofica, frazione di eiezione ventricolare sinistra bassa e infarto miocardico con sopraslivellamento del tratto ST utilizzando diverse dimensioni di campioni di addestramento e set di dati di validazione indipendenti. Troviamo che HeartBEiT abbia prestazioni significativamente più elevate con campioni di dimensioni inferiori rispetto ad altri modelli. Troviamo anche che HeartBEiT migliora la spiegabilità della diagnosi evidenziando regioni biologicamente rilevanti dell'ECG rispetto alle CNN standard. I modelli di trasformatori pre-addestrati specifici del dominio possono superare le prestazioni di classificazione dei modelli addestrati su immagini naturali, soprattutto in regimi di dati molto bassi. La combinazione dell'architettura e di tale pre-addestramento consente una spiegabilità più accurata e granulare delle previsioni del modello.

L’elettrocardiogramma (ECG) è una registrazione a livello della superficie corporea dell’attività elettrica all’interno del cuore. Grazie al suo basso costo, alla non invasività e all’ampia applicabilità alle malattie cardiache, l’ECG è un’indagine onnipresente e ogni anno vengono eseguiti oltre 100 milioni di ECG solo negli Stati Uniti1 in vari contesti sanitari. Tuttavia, l’ECG ha una portata limitata poiché i medici non possono identificare in modo coerente modelli rappresentativi della malattia, soprattutto per condizioni che non hanno criteri diagnostici stabiliti o nei casi in cui tali modelli possono essere troppo sottili o caotici per l’interpretazione umana.

Il deep learning è stato applicato ai dati ECG per diversi casi d'uso diagnostici e prognostici2,3,4,5,6. La stragrande maggioranza di questo lavoro è stata basata sulle reti neurali convoluzionali (CNN)7. Come altre reti neurali, le CNN sono costrutti ad alta varianza8 e richiedono grandi quantità di dati per evitare un adattamento eccessivo9. Le CNN devono inoltre essere costruite appositamente per accogliere la dimensionalità dei dati in arrivo e sono state utilizzate per interpretare gli ECG sia come forme d'onda 1D che come immagini 2D10.

In questo contesto, interpretare gli ECG come immagini 2D presenta un vantaggio grazie ai modelli pre-addestrati ampiamente disponibili che spesso servono come punto di partenza per attività di modellazione su set di dati più piccoli11. Questa tecnica è descritta come apprendimento di trasferimento in cui un modello addestrato su un set di dati più grande, possibilmente non correlato, viene messo a punto su un set di dati più piccolo rilevante per un problema12. L'apprendimento del trasferimento è particolarmente utile nel settore sanitario poiché i set di dati sono di dimensioni limitate a causa delle coorti limitate di pazienti, della rarità dei risultati di interesse e dei costi associati alla generazione di etichette utili. Di conseguenza, i modelli visivi addestrati inizialmente in modo supervisionato su immagini naturali13 spesso costituiscono la base di modelli utilizzati in ambito sanitario. Sfortunatamente, il trasferimento dell'apprendimento con immagini così naturali non è una soluzione universale ed è noto che produce risultati non ottimali quando esistono differenze sostanziali nei set di dati di pre-addestramento e messa a punto14.

Le reti neurali basate su trasformatori utilizzano il meccanismo di attenzione15 per stabilire e definire relazioni tra unità discrete di dati di input note come token16. Un vantaggio significativo offerto dai trasformatori è l’apprendimento non supervisionato da grandi corpora di dati senza etichetta per apprendere le relazioni tra i token e quindi utilizzare queste informazioni per altre attività a valle16. Grazie alla facilità con cui il testo non strutturato può essere suddiviso in token, i trasformatori hanno avuto un enorme successo nelle attività di elaborazione del linguaggio naturale (NLP)17,18. Lavori recenti hanno esteso la funzionalità di tali modelli a compiti basati sulla visione, portando all'avvento del trasformatore di visione16,19.