Mostra sommario Nascondi sommario
Al CES di Las Vegas Nvidia ha presentato Vera Rubin, un sistema di supercalcolo pensato per abbattere drasticamente il costo dell’AI e ristrutturare il progetto dei data center. Non si tratta solo di più potenza: l’obiettivo è spremere ogni watt disponibile e rendere sostenibili interi casi d’uso che finora erano troppo costosi.
La novità è rilevante oggi perché il ritmo di crescita dei modelli ha superato la capacità dell’hardware tradizionale; ridurre il costo per token e consumare meno elettricità sono diventati fattori decisivi per chi offre servizi di intelligenza artificiale su scala.
Perché il nome conta
Massimo Ambrosini in diretta su eBay Live con SportyCards: appuntamento imperdibile
Pentagono lancia l’allarme su Anthropic: Claude a rischio disattivazione in zone di conflitto
Chiamare il sistema Vera Rubin non è casuale: l’astronoma mise in luce un elemento invisibile che governa la dinamica delle galassie. Nvidia usa quell’immagine per dire che la vera sfida non è soltanto aggiungere calcolo visibile, ma ripensare l’architettura sottostante — ciò che non si vede ma che rende possibile tutta la capacità di calcolo.
I numeri dietro questa tesi sono netti: i modelli aumentano di ordine di grandezza ogni anno, il volume di token prodotti può moltiplicarsi per cinque, mentre il costo per token tende a crollare di un fattore dieci a ogni iterazione. Contemporaneamente, la legge di Moore non dà più i guadagni facili di un tempo: per progredire bisogna innovare a livello sistemico.
Un progetto che rompe le regole
Invece di aggiornare uno o due componenti per ciclo, Nvidia ha deciso di riprogettare simultaneamente i chip essenziali del rack. Al centro c’è una CPU Arm progettata internamente, battezzata semplicemente Vera. Non è una CPU generica: è ottimizzata per massimizzare il rapporto tra calcolo ed energia, cioè le prestazioni per watt — la vera moneta corrente dei data center.
Secondo l’azienda, rispetto alla generazione precedente la CPU raddoppia sia le prestazioni raw sia le prestazioni per watt, un guadagno che vale più in termini pratici di un aumento puramente numerico della potenza.
La CPU monta 88 core fisici ma introduce una soluzione di scheduling chiamata *spatial multi-threading*: le risorse del core vengono partizionate fisicamente, così che ogni thread disponga di blocchi dedicati di esecuzione. In pratica, ciò trasforma gli 88 core in un throughput paragonabile a oltre 160 core logici senza consumare più silicio né più energia.
Questa efficienza porta però a un nuovo vincolo: i collegamenti interni devono tenere il passo. Se la CPU elabora dati molto più rapidamente, la rete interna e i canali verso le GPU non possono più essere il tallone d’Achille.
ConnectX-9 e il networking pensato insieme al calcolo
Il chip di networking ConnectX-9 è stato sviluppato in parallelo alla CPU e alle GPU per evitare compromessi. Ogni GPU dispone di ampia banda — fino a 1,6 terabit al secondo — ma la vera novità è l’integrazione profonda di protocolli, gestione della memoria e sincronizzazione. Nvidia ha deciso di non consegnare Vera Rubin finché ConnectX-9 non fosse pronto: separare i due progetti avrebbe ridotto l’efficacia complessiva.
Accanto alla CPU troviamo la nuova GPU — chiamata Rubin — che dichiara miglioramenti in virgola mobile fino a cinque volte rispetto all’attuale generazione Blackwell, pur usando solo una volta e mezza il conteggio dei transistor. Il cuore di questo salto è un’unità di calcolo chiamata NVFP4 Tensor Core: non è solo un nuovo formato numerico a quattro bit, ma un meccanismo che decide dinamicamente la precisione richiesta per ogni operazione, in hardware e ciclo dopo ciclo.
La scelta di portare la logica di adattamento direttamente nel silicio permette di risparmiare tempo e potenza, mantenendo la qualità dei risultati dove serve e semplificando i calcoli dove è possibile.
Assemblaggio e raffreddamento ripensati
Non tutte le innovazioni sono visibili sul die. Vera Rubin riduce drasticamente la complessità di assemblaggio: via i cavi interni, due soli tubi per il raffreddamento e un tempo di montaggio che scende a pochi minuti. Il sistema usa raffreddamento a liquido con acqua calda a circa 45 °C, eliminando la necessità di chiller tradizionali e abbassando il consumo energetico complessivo del data center.
Questo approccio rende praticabile il raffreddamento a circuito chiuso con acqua tiepida, una scelta che può trasformare l’architettura degli impianti e ridurre costi operativi e impronta energetica.
Altro tassello: BlueField-4, un processore dedicato alla gestione della memoria contestuale. Fornisce accesso a centinaia di terabyte di memoria veloce che le GPU possono usare come se fosse locale, risolvendo il problema del contesto che cresce con conversazioni e prompt più lunghi.
E poi c’è la fotonica su silicio: Spectrum-X integra laser direttamente sui chip, eliminando i tradizionali transceiver ottici. Il risultato sono switch con centinaia di porte da 200 Gbit e capacità aggregate che superano i 100 Tbit/s per chip, una densità che le architetture classiche non raggiungono.
Che impatto avrà, nel concreto
I dati annunciati parlano di un throughput per watt circa dieci volte superiore rispetto a Blackwell, già a sua volta un salto rispetto a Hopper. Se le stime si confermano, il costo per token scenderà di un ordine di grandezza: molte applicazioni AI oggi insostenibili diventerebbero economicamente fattibili.
Per chi gestisce cloud e grandi data center il messaggio è semplice e urgente: l’efficienza energetica e l’integrazione verticale stanno diventando fattori competitivi centrali. Le scelte di progettazione — dal silicio al raffreddamento, passando per la fotonica — possono determinare chi riuscirà a offrire servizi AI a prezzi concorrenziali.
Vera Rubin è quindi più di una macchina potente: è una scommessa su un cambio di paradigma. Nvidia ha accettato rischi ingegneristici e investimenti massicci per ripensare l’intero stack. Se il mercato risponderà, la forma dei data center e la geografia del cloud potrebbero cambiare rapidamente nei prossimi anni.
Per gli sviluppatori e le aziende che consumano GPU la posta in gioco è pratica: costi operativi più bassi, latenza ridotta per modelli di grandi dimensioni e la possibilità di distribuire applicazioni AI su scala più ampia. Per i responsabili delle infrastrutture significa ripensare impianti, contratti energetici e strategie di procurement.
In sintesi: Vera Rubin non è solo un annuncio di prodotto al CES, ma un tentativo concreto di riscrivere le regole dell’hardware per l’AI. La sua riuscita determinerà quanto rapidamente il settore potrà spostare l’attenzione dalla mera potenza bruta a un calcolo veramente sostenibile e diffuso.












