Home
» Wiki
»
Cerebras lancia la tecnologia di inferenza AI più veloce al mondo, con prestazioni 20 volte superiori a quelle di NVIDIA
Cerebras lancia la tecnologia di inferenza AI più veloce al mondo, con prestazioni 20 volte superiori a quelle di NVIDIA
Cerebras Systems ha appena annunciato ufficialmente Cerebras Inference, considerata la soluzione di inferenza AI più veloce al mondo. Questa inferenza Cerebras garantisce prestazioni fino a 1.800 token al secondo per i modelli Llama 3.1 8B (8 miliardi di parametri) e 450 token al secondo per Llama 3.1 70B, ovvero fino a quasi 20 volte più veloce delle soluzioni di inferenza AI basate su GPU NVIDIA disponibili negli attuali cloud iperscalabili in tutto il mondo, tra cui Microsoft Azure.
Oltre alle incredibili prestazioni, il prezzo del servizio di questa nuova soluzione di inferenza è anche molto conveniente, a una frazione del prezzo delle popolari piattaforme cloud GPU. Ad esempio, un cliente può ottenere un milione di token per soli 10 centesimi, ottenendo così un rapporto prezzo/prestazioni 100 volte superiore per i carichi di lavoro di intelligenza artificiale.
La precisione a 16 bit e la velocità di inferenza 20 volte superiore di Cerebras consentiranno agli sviluppatori di creare applicazioni di intelligenza artificiale ad alte prestazioni di nuova generazione senza compromettere velocità o costi. Questo rapporto prezzo/prestazioni rivoluzionario è reso possibile dal sistema Cerebras CS-3 e dal processore AI Wafer Scale Engine 3 (WSE-3). CS-3 offre una larghezza di banda di memoria 7.000 volte maggiore rispetto a Nvidia H100, risolvendo la sfida tecnica della larghezza di banda di memoria per l'intelligenza artificiale generativa.
Cerebras Inference è attualmente disponibile ai seguenti tre livelli:
Il livello gratuito offre a chiunque si iscriva l'accesso gratuito all'API e generosi limiti di utilizzo.
Il livello Developer è progettato per distribuzioni flessibili e senza server, offrendo agli utenti endpoint API a una frazione del costo delle alternative esistenti sul mercato, con i modelli Llama 3.1 8B e 70B al prezzo rispettivamente di soli 10 centesimi e 60 centesimi per milione di token.
I piani Enterprise Tier offrono modelli ottimizzati, accordi di servizio personalizzati e supporto dedicato. Ideale per carichi di lavoro persistenti, le aziende possono accedere a Cerebras Inference tramite il cloud privato gestito da Cerebras o in locale.
Grazie a prestazioni record, prezzi competitivi e accesso API aperto, Cerebras Inference stabilisce un nuovo standard per lo sviluppo e l'implementazione di LLM aperti. Essendo l'unica soluzione in grado di fornire sia formazione che inferenza ad alta velocità, Cerebras apre possibilità completamente nuove per l'intelligenza artificiale.
Con le tendenze dell'intelligenza artificiale in rapida evoluzione e con NVIDIA che attualmente detiene una posizione dominante sul mercato, l'emergere di aziende come Cerebras e Groq segnala un potenziale cambiamento nelle dinamiche dell'intero settore. Con l'aumento della domanda di soluzioni di inferenza AI più rapide e convenienti, soluzioni come Cerebras Inference sono ben posizionate per tentare la fortuna di NVIDIA, soprattutto nel settore dell'inferenza.