Dalle innovazioni nel networking ai cambiamenti nel design dei data center, AWS continua a ottimizzare la propria infrastruttura per supportare l’AI generativa su larga scala

redazione

L’intelligenza artificiale generativa (AI) ha trasformato il nostro mondo apparentemente da un giorno all’altro, poiché individui e imprese utilizzano questa nuova tecnologia per migliorare il processo decisionale, trasformare le esperienze dei clienti e stimolare la creatività e l’innovazione. Ma l’infrastruttura sottostante che alimenta l’AI generativa non è stata costruita in un giorno: in realtà, è il risultato di anni di innovazione.

L’intelligenza artificiale (AI) e il machine learning (ML) sono stati al centro dell’attenzione di Amazon per oltre 25 anni, migliorando funzionalità quotidiane come le raccomandazioni sugli acquisti e decisioni sull’imballaggio. All’interno di Amazon Web Services (AWS), ci siamo impegnati a trasferire questa conoscenza ai nostri clienti, mettendo il ML a disposizione di ogni sviluppatore, data scientist ed esperto del settore. Oggi, l’AI rappresenta un business miliardario per AWS. Più di 100.000 clienti in diversi settori, tra cui adidas, la Borsa di New York, Pfizer, Ryanair e Toyota, stanno utilizzando i servizi di AI e ML di AWS per trasformare le esperienze dei loro clienti. Inoltre, molti dei principali modelli di AI generativa vengono addestrati ed eseguiti su AWS.

Tutto questo lavoro è sostenuto dall’infrastruttura globale di AWS, che include i nostri data center, la rete globale e i chip progettati appositamente per l’AI. Non esiste un algoritmo di compressione per l’esperienza, e poiché costruiamo data center su larga scala da oltre 15 anni e server basati su GPU (unità di elaborazione grafica) da oltre 12 anni, disponiamo di un’enorme infrastruttura AI già esistente.

Man mano che il mondo cambia rapidamente, AWS continua ad adattarsi e a migliorare la nostra solida infrastruttura per offrire nuove innovazioni che supportano l’AI generativa su larga scala. Ecco quattro modi in cui stiamo raggiungendo questo obiettivo.

  1. Fornire reti su larga scala a bassa latenza

I modelli di AI generativa richiedono enormi quantità di dati per essere addestrati e funzionare in modo efficiente. Più grande e complesso è il modello, più lungo sarà il tempo di addestramento. Questo non solo incrementa i costi operativi, ma rallenta anche l’innovazione. Le reti tradizionali non sono sufficienti per garantire la bassa latenza e la scala necessarie per l’addestramento dei modelli di AI generativa.

Lavoriamo costantemente per ridurre la latenza della rete e migliorare le prestazioni per i nostri clienti. Il nostro approccio è unico poiché abbiamo costruito i nostri dispositivi di rete e sistemi operativi di rete per ogni livello dello stack, dalla scheda di interfaccia di rete, allo switch top-of-rack, alla rete del data center, fino al router rivolto verso Internet e ai nostri router backbone. Questo non solo ci consente di migliorare sicurezza, affidabilità e prestazioni per i clienti, ma ci permette anche di innovare più rapidamente rispetto agli altri.

Ad esempio, nel 2019 abbiamo introdotto Elastic Fabric Adapter (EFA), un’interfaccia di rete progettata su misura da AWS che offre funzionalità di bypass del sistema operativo alle istanze Amazon EC2. Questo consente ai clienti di eseguire applicazioni che richiedono alti livelli di comunicazione tra nodi su larga scala. EFA utilizza il Scalable Reliable Datagram (SRD), un protocollo di trasporto di rete ad alte prestazioni e bassa latenza progettato specificamente da AWS, per AWS.

Negli ultimi tempi, ci siamo mossi rapidamente per realizzare una nuova rete per i carichi di lavoro di AI generativa. La nostra rete di prima generazione, UltraCluster, costruita nel 2020, supportava 4.000 unità di elaborazione grafica (GPU) con una latenza di otto microsecondi tra i server. UltraCluster 2.0, invece, supporta oltre 20.000 GPU con una riduzione della latenza del 25%. È stata realizzata in soli sette mesi, e questa rapidità non sarebbe stata possibile senza un investimento a lungo termine nei nostri dispositivi di rete e software personalizzati. Internamente, chiamiamo UltraCluster 2.0 la rete “10p10u”, poiché offre decine di petabit al secondo di throughput, con un tempo di andata e ritorno inferiore ai 10 microsecondi. Questa nuova rete consente una riduzione di almeno il 15% nel tempo necessario per addestrare un modello.

  1. Migliorare continuamente l’efficienza energetica dei nostri data center

L’addestramento e l’esecuzione di modelli di AI può essere molto dispendioso in termini di energia, per questo è fondamentale migliorare l’efficienza, in modo da ridurre l’impatto ambientale. Non solo è la cosa giusta da fare per le comunità e il nostro pianeta, ma aiuta anche AWS a ridurre i costi, permettendoci di trasferire questi risparmi ai nostri clienti. Da molti anni ci concentriamo sul miglioramento dell’efficienza energetica della nostra infrastruttura. Ecco alcuni esempi:

  • Ottimizzazione della longevità e delle prestazioni del flusso d’aria dei sistemi di raffreddamento nei nostri data center.
  • Utilizzo di metodi di modellazione avanzati per prevedere le performance di un data center prima della costruzione e ottimizzare il posizionamento dei server nei rack e nelle sale dati, massimizzando così l’utilizzo dell’energia.
  • Costruzione di data center meno carbon-intensitive, utilizzando cemento e acciaio a basso impatto carbonico e passando all’olio vegetale idrotrattato per i generatori di emergenza.

Nuove ricerche condotte da Accenture mostrano che questi sforzi stanno dando risultati. La ricerca stima che l’infrastruttura di AWS è fino a 4,1 volte più efficiente rispetto a soluzioni on-premises. Ottimizzando le proprie attività con  AWS, l’impronta di carbonio può essere ridotta fino al 99%. Ma non possiamo fermarci qui, poiché la domanda di energia continua a crescere.

I chip AI eseguono calcoli matematici ad alta velocità, il che li rende fondamentali per i modelli ML. Inoltre, generano molto più calore rispetto ad altri tipi di chip, quindi i nuovi server AI che richiedono più di 1.000 watt di potenza per chip dovranno essere raffreddati con soluzioni a liquido. Tuttavia, alcuni servizi AWS utilizzano infrastrutture di rete e di archiviazione che non richiedono questo tipo di raffreddamento. Infatti, l’ultimo progetto di data center di AWS integra perfettamente soluzioni di raffreddamento ad aria ottimizzate insieme a capacità di raffreddamento a liquido per i chipset AI più potenti, come i Superchip NVIDIA Grace Blackwell. Questo design di raffreddamento flessibile e multimodale permette di ottenere il massimo delle prestazioni e dell’efficienza, sia che si eseguano carichi di lavoro tradizionali che modelli AI/ML. Il team di AWS ha progettato i data center – dal layout dei rack alla distribuzione elettrica alle tecniche di raffreddamento – in modo da aumentare costantemente l’efficienza energetica, indipendentemente dalle richieste di calcolo.

  1. Sicurezza by-design

Una delle domande più comuni che riceviamo dai clienti mentre esplorano l’AI generativa è come proteggere i propri dati altamente sensibili. La sicurezza è la nostra massima priorità ed è integrata in tutto ciò che facciamo. La nostra infrastruttura è monitorata 24/7 e quando i dati lasciano i nostri confini fisici e viaggiano tra le sedi della nostra infrastruttura, vengono crittografati a livello di rete. Non tutte le infrastrutture cloud sono uguali, ed è per questo che sempre più aziende stanno spostando la loro attenzione verso l’AI di AWS.

AWS è progettato per essere l’infrastruttura cloud globale più sicura e affidabile. Il nostro approccio per garantire la sicurezza dell’infrastruttura AI si basa su tre principi chiave: 1) Isolamento completo dei dati AI dall’operatore dell’infrastruttura, il che significa che l’operatore non deve avere alcuna possibilità di accedere ai contenuti dei clienti e ai dati AI, come la dimensione dei modelli e i dati elaborati con i modelli; 2) Possibilità per i clienti di isolare i dati AI da loro stessi, il che significa che i dati rimangono inaccessibili agli utenti e ai software dei clienti; e 3) Comunicazioni infrastrutturali protette, in modo che le comunicazioni tra i dispositivi nell’infrastruttura dell’acceleratore ML siano protette.

Nel 2017 abbiamo lanciato il sistema AWS Nitro, che protegge il codice e i dati dei clienti da accessi non autorizzati durante l’elaborazione, rispettando il primo principio di Secure AI Infrastructure. Inoltre, AWS Nitro Enclaves e AWS Key Management Service (AWS KMS) sono integrati, in modo da rispettare il secondo principio di Secure AI Infrastructure. I clienti possono crittografare i dati sensibili dell’intelligenza artificiale utilizzando chiavi di loro proprietà e controllo, archiviarli in un luogo di loro scelta e trasferirli in modo sicuro in ambiente di calcolo isolato per l’inferenza. Durante questo processo, i dati sono crittografati e isolati dai loro utenti e dal software sulla loro istanza EC2 e gli operatori AWS non possono accedervi. In precedenza, Nitro Enclaves operava solo nella CPU. Recentemente abbiamo annunciato l’intenzione di estendere il flusso crittografato end-to-end di Nitro per includere un’integrazione di prima classe con acceleratori ML e GPU, soddisfacendo il terzo principio.

  1. Chip AI di AWS

I chip che alimentano l’AI generativa sono fondamentali in quanto influiscono sulla velocità, i costi e il grado di sostenibilità con cui è possibile addestrare e eseguire i modelli.

Per molti anni, AWS ha innovato per ridurre i costi dei suoi servizi. Questo non è diverso per l’AI: aiutando i clienti a tenere sotto controllo i costi, possiamo garantire che l’AI sia accessibile ai clienti di ogni dimensione e settore. Per questo motivo, negli ultimi anni abbiamo progettato i nostri chip AI, tra cui AWS Trainium e AWS Inferentia. Questi chip offrono prestazioni di prezzo superiore e rendono più efficiente dal punto di vista energetico l’addestramento e l’esecuzione di modelli generativi di AI. AWS Trainium è progettato per accelerare e ridurre il costo dell’addestramento dei modelli ML fino al 50% rispetto ad altre istanze Amazon EC2, mentre AWS Inferentia consente ai modelli di generare inferenze più rapidamente e a costi inferiori, con prestazioni di prezzo fino al 40% migliori rispetto ad altre istanze Amazon EC2. La domanda dei nostri chip AI è piuttosto elevata, visti i vantaggi in termini di prezzo e prestazioni rispetto alle alternative disponibili. Trainium2 è il nostro chip AI di terza generazione e sarà disponibile nel corso dell’anno. Questo è progettato per fornire un addestramento fino a 4 volte più veloce rispetto ai chip di prima generazione e potrà essere distribuito in UltraCluster EC2 fino a 100.000 chip, rendendo possibile l’addestramento di modelli di base e modelli linguistici di grandi dimensioni in una frazione del tempo, migliorando al contempo l’efficienza energetica, che, in alcuni casi, potrà essere raddoppiata.

Inoltre, AWS collabora con partner quali NVIDIA, Intel, Qualcomm e AMD per offrire la più ampia gamma di acceleratori nel cloud per applicazioni di ML e AI generativa. E continueremo a innovare per offrire le future generazioni di chip progettati da AWS in grado di garantire prestazioni ancora migliori ai clienti.

In seguito al boom dell’intelligenza artificiale, è importante che le organizzazioni scelgano la giusta infrastruttura di elaborazione per ridurre i costi e garantire prestazioni elevate. Siamo orgogliosi di offrire ai nostri clienti l’infrastruttura più sicura, performante, conveniente ed efficiente dal punto di vista energetico per la creazione e il ridimensionamento delle applicazioni ML.