NVIDIA

Le GPU Feynman di NVIDIA potrebbero includere le unità LPU di Groq entro il 2028

Secondo quanto svelato nel corso delle recenti ore, NVIDIA punta a dominare lo stack di inferenza con i chip Feynman di nuova generazione, poiché l’azienda potrebbe integrare unità LPU all’interno dell’architettura. L’esperto ritiene che l’implementazione potrebbe assomigliare a quella realizzata da AMD con le CPU X3D, utilizzando la tecnologia di incollaggio ibrido SoIC di TSMC per integrare i tile 3D V-Cache sul die di calcolo principale. AGF sostiene che l’integrazione della SRAM come die monolitico potrebbe non essere la mossa giusta per le GPU Feynman, considerando che il ridimensionamento della SRAM è limitato e che costruirla su nodi avanzati comporterebbe uno spreco di silicio di fascia alta e un aumento drastico del costo di utilizzo per area del wafer. AGF ritiene invece che NVIDIA impilerà le unità LPU sul die di calcolo Feynman.

Ora, l’approccio sembra sensato, considerando che con questo, chip come l’A16 (1,6 nm) saranno utilizzati per il die Feynman principale, che contiene i blocchi di calcolo (unità tensoriali, logica di controllo, ecc.), mentre die LPU separati conterranno grandi banchi SRAM. Inoltre, per collegare questi die tra loro, la tecnologia di incollaggio ibrido di TSMC si rivelerà fondamentale, poiché consentirà un’ampia interfaccia e un consumo energetico per bit inferiore rispetto alla memoria off-package. Per finire, poiché l’A16 è dotato di alimentazione sul lato posteriore, il lato anteriore sarebbe libero per connessioni SRAM verticali, garantendo una risposta di decodifica a bassa latenza. Tuttavia, con questa tecnica, ci sono preoccupazioni su come NVIDIA gestirà i limiti termici, poiché l’impilamento dei die su un processo che opera ad alta densità di calcolo è già una sfida. Inoltre, con le LPU che si concentrano sul throughput sostenuto, potrebbero crearsi dei colli di bottiglia. Ancora più importante, le implicazioni a livello di esecuzione cresceranno enormemente con un tale approccio, poiché le LPU si concentrano su un ordine di esecuzione fisso, il che, ovviamente, crea un conflitto tra determinismo e flessibilità.

NVIDIA