Un nuovo metodo di machine learning consente di progettare proteine instabili ma cruciali, finora impossibili da prevedere con l’AI. La scoperta, guidata da Harvard e Northwestern, apre nuove strade nella cura di malattie come Parkinson e cancro
Ordine nel caos biologico: Harvard svela il segreto delle proteine disordinate.
Nel campo della biologia sintetica e strutturale, i progressi dell’intelligenza artificiale stanno rivoluzionando la progettazione di proteine con funzioni specifiche. Grazie a potenti algoritmi, oggi è possibile prevedere con precisione la struttura tridimensionale di qualsiasi sequenza di amminoacidi, aprendo la strada alla creazione di anticorpi, agenti coagulanti e molte altre molecole terapeutiche.
Tuttavia, circa il 30% delle proteine espresse dal genoma umano rimane una sfida anche per gli strumenti AI più avanzati, come il celebre AlphaFold premiato con il Nobel (1). Queste proteine, dette intrinsecamente disordinate, non assumono mai una forma stabile e si muovono costantemente. Nonostante la loro instabilità, svolgono ruoli fondamentali in processi biologici come il collegamento tra molecole, la trasduzione di segnali e la percezione cellulare, rendendole cruciali ma difficili da progettare da zero.
Un team della Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS)(2) e della Northwestern University ha sviluppato un innovativo metodo di machine learning capace di progettare proteine intrinsecamente disordinate con proprietà su misura. Questa scoperta apre nuove prospettive nella comprensione di biomolecole complesse e potrebbe offrire indizi cruciali sull’origine e sul trattamento di numerose malattie.
Lo studio, pubblicato su Nature Computational Science (3), è stato guidato dal dottor Ryan Krueger (dottorando SEAS) e dal dottor Krishna Shrinivas (4) (ex borsista NSF-Simons QuantBio, oggi professore associato alla Northwestern), in collaborazione con il dottor Michael P. Brenner (5), professore di matematica e fisica applicata a SEAS.
La sfida delle IDP e i limiti dell’AI
Il professor Krishna Shrinivas ha spiegato di essersi appassionato allo studio delle proteine intrinsecamente disordinate (IDP) perché sfuggono ai metodi attuali basati sull’intelligenza artificiale, come AlphaFold di Google DeepMind (6), nel prevedere e progettare proteine con conformazioni definite. Eppure, queste proteine svolgono ruoli essenziali nella biologia e si sa che mutazioni nelle IDP sono associate a malattie gravi come il cancro e le neurodegenerazioni.
Un esempio noto è l’alfa-sinucleina, da tempo collegata al morbo di Parkinson e ad altre patologie neurologiche. Per progettare IDP adatte a usi terapeutici o sintetici, Shrinivas ha dichiarato: «Dovevamo creare modelli di AI più avanzati oppure trovare un modo per usare modelli fisici che offrano non solo previsioni accurate, ma anche una comprensione profonda della fisica sottostante».
Algoritmi di differenziazione automatica
Un nuovo studio descrive un metodo computazionale avanzato basato su algoritmi capaci di eseguire la differenziazione automatica, ovvero il calcolo istantaneo delle derivate, per selezionare in modo razionale sequenze proteiche con proprietà specifiche. Questa tecnica, ampiamente utilizzata nel deep learning e nell’addestramento delle reti neurali, è stata reinterpretata dal laboratorio di Michael Brenner per applicazioni innovative come l’ottimizzazione delle simulazioni molecolari basate sulla fisica.
Grazie alla differenziazione automatica, i ricercatori hanno addestrato un computer a riconoscere come piccole variazioni nelle sequenze proteiche, anche un singolo amminoacido, possano influenzare le proprietà finali desiderate. Il metodo è stato paragonato a un motore di ricerca ultra-potente per sequenze di amminoacidi, capace di individuare quelle più adatte a svolgere funzioni specifiche: dalla creazione di loop e connettori, alla capacità di percepire stimoli ambientali.
Progettare proteine con precisione
«Non volevamo raccogliere enormi quantità di dati per addestrare un modello di machine learning», ha spiegato il dottor Ryan Krueger. «Volevamo sfruttare simulazioni già esistenti e sufficientemente accurate per progettare proteine direttamente a quel livello».
Il metodo si basa su un framework tradizionale per l’addestramento delle reti neurali chiamato ottimizzazione basata sul gradiente, che consente di identificare nuove sequenze proteiche con efficienza e precisione. Il risultato? Le proteine progettate sono differenziabili, cioè non semplici previsioni dell’AI, ma modelli basati su simulazioni di dinamica molecolare che utilizzano la fisica reale per rappresentare il comportamento dinamico delle proteine in natura.
La ricerca ha ricevuto il sostegno federale dalla National Science Foundation AI Institute of Dynamic Systems, dall’Office of Naval Research, dal Harvard Materials Research Science and Engineering Center e dal NSF-Simons Center for Mathematical and Statistical Analysis of Biology presso Harvard.
Riferimenti:
(2) Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS)
(3) Generalized design of sequence–ensemble–function relationships for intrinsically disordered proteins
(6) Google DeepMind’s AlphaFold
Descrizione foto: Rappresentazione artistica di proteine intrinsecamente disordinate. - Credit: Ramanna Shrinivas.
Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Order from disordered proteins