Cerebras lancia la tecnologia di inferenza AI più veloce al mondo, con prestazioni 20 volte superiori a quelle di NVIDIA

Cerebras Systems ha appena annunciato ufficialmente Cerebras Inference, considerata la soluzione di inferenza AI più veloce al mondo. Questa inferenza Cerebras garantisce prestazioni fino a 1.800 token al secondo per i modelli Llama 3.1 8B (8 miliardi di parametri) e 450 token al secondo per Llama 3.1 70B, ovvero fino a quasi 20 volte più veloce delle soluzioni di inferenza AI basate su GPU NVIDIA disponibili negli attuali cloud iperscalabili in tutto il mondo, tra cui Microsoft Azure.

Oltre alle incredibili prestazioni, il prezzo del servizio di questa nuova soluzione di inferenza è anche molto conveniente, a una frazione del prezzo delle popolari piattaforme cloud GPU. Ad esempio, un cliente può ottenere un milione di token per soli 10 centesimi, ottenendo così un rapporto prezzo/prestazioni 100 volte superiore per i carichi di lavoro di intelligenza artificiale.

La precisione a 16 bit e la velocità di inferenza 20 volte superiore di Cerebras consentiranno agli sviluppatori di creare applicazioni di intelligenza artificiale ad alte prestazioni di nuova generazione senza compromettere velocità o costi. Questo rapporto prezzo/prestazioni rivoluzionario è reso possibile dal sistema Cerebras CS-3 e dal processore AI Wafer Scale Engine 3 (WSE-3). CS-3 offre una larghezza di banda di memoria 7.000 volte maggiore rispetto a Nvidia H100, risolvendo la sfida tecnica della larghezza di banda di memoria per l'intelligenza artificiale generativa.

Cerebras lancia la tecnologia di inferenza AI più veloce al mondo, con prestazioni 20 volte superiori a quelle di NVIDIA

Cerebras Inference è attualmente disponibile ai seguenti tre livelli:

  • Il livello gratuito offre a chiunque si iscriva l'accesso gratuito all'API e generosi limiti di utilizzo.
  • Il livello Developer è progettato per distribuzioni flessibili e senza server, offrendo agli utenti endpoint API a una frazione del costo delle alternative esistenti sul mercato, con i modelli Llama 3.1 8B e 70B al prezzo rispettivamente di soli 10 centesimi e 60 centesimi per milione di token.
  • I piani Enterprise Tier offrono modelli ottimizzati, accordi di servizio personalizzati e supporto dedicato. Ideale per carichi di lavoro persistenti, le aziende possono accedere a Cerebras Inference tramite il cloud privato gestito da Cerebras o in locale.

Grazie a prestazioni record, prezzi competitivi e accesso API aperto, Cerebras Inference stabilisce un nuovo standard per lo sviluppo e l'implementazione di LLM aperti. Essendo l'unica soluzione in grado di fornire sia formazione che inferenza ad alta velocità, Cerebras apre possibilità completamente nuove per l'intelligenza artificiale.

Con le tendenze dell'intelligenza artificiale in rapida evoluzione e con NVIDIA che attualmente detiene una posizione dominante sul mercato, l'emergere di aziende come Cerebras e Groq segnala un potenziale cambiamento nelle dinamiche dell'intero settore. Con l'aumento della domanda di soluzioni di inferenza AI più rapide e convenienti, soluzioni come Cerebras Inference sono ben posizionate per tentare la fortuna di NVIDIA, soprattutto nel settore dell'inferenza.

Sign up and earn $1000 a day ⋙

Leave a Comment

Modi in cui la musica stimola il cervello

Modi in cui la musica stimola il cervello

La maggior parte delle persone sa che la musica non ha solo uno scopo di intrattenimento, ma ha anche molti altri benefici. Ecco alcuni modi in cui la musica stimola lo sviluppo del nostro cervello.

I nutrienti più comunemente carenti nella dieta

I nutrienti più comunemente carenti nella dieta

La dieta è molto importante per la nostra salute. Tuttavia, la maggior parte delle nostre diete è spesso carente di questi sei nutrienti importanti.

Come utilizzare lapp CK Club di Circle K per ricevere offerte interessanti

Come utilizzare lapp CK Club di Circle K per ricevere offerte interessanti

Per ricevere più velocemente le informazioni promozionali da Circle K, dovresti installare l'app CK Club. L'applicazione salva i pagamenti effettuati durante lo shopping o presso Circle K, nonché il numero di francobolli raccolti.

Instagram consentirà reel lunghi fino a 3 minuti

Instagram consentirà reel lunghi fino a 3 minuti

Instagram ha appena annunciato che consentirà agli utenti di pubblicare video Reels lunghi fino a 3 minuti, il doppio del precedente limite di 90 secondi.

Come visualizzare le informazioni sulla CPU del Chromebook

Come visualizzare le informazioni sulla CPU del Chromebook

Questo articolo ti guiderà su come visualizzare le informazioni sulla CPU e controllarne la velocità direttamente sul tuo Chromebook.

8 cose fantastiche che puoi fare con un vecchio tablet Android

8 cose fantastiche che puoi fare con un vecchio tablet Android

Se non vuoi vendere o regalare il tuo vecchio tablet, puoi utilizzarlo in 5 modi: come cornice digitale di alta qualità, lettore musicale, lettore di e-book e riviste, assistente per le faccende domestiche e come schermo secondario.

Come ottenere unghie bellissime in modo rapido

Come ottenere unghie bellissime in modo rapido

Vuoi avere unghie belle, lucide e sane in tempi rapidi. Di seguito troverai dei semplici consigli utili per avere delle unghie bellissime.

I segreti dellispirazione per i colori che solo i designer conoscono

I segreti dellispirazione per i colori che solo i designer conoscono

In questo articolo elencheremo suggerimenti ispirati al colore, condivisi dai migliori designer della community Creative Market, per consentirti di ottenere ogni volta la combinazione di colori perfetta.

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

Tutto ciò che ti serve per sostituire il tuo laptop con un telefono

È davvero possibile sostituire il computer portatile con il telefono? Sì, ma per trasformare il tuo telefono in un laptop avrai bisogno degli accessori giusti.

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

ChatGPT sarà presto in grado di vedere tutto ciò che accade sul tuo schermo

Una cosa importante nel video completo dell'evento è che è stata fatta una demo della futura funzionalità dell'app ChatGPT, ma non sono stati condivisi dettagli concreti. È la capacità di ChatGPT di vedere tutto ciò che accade sullo schermo del dispositivo dell'utente.

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Lintelligenza artificiale sta imparando a ingannare gli umani nonostante sia stata addestrata ad essere onesta

Secondo un nuovo studio, molte delle migliori IA, nonostante siano state addestrate ad essere oneste, imparano a ingannare durante l'addestramento e inducono sistematicamente gli utenti a credere in false credenze.

Come modificare le domande su ChatGPT

Come modificare le domande su ChatGPT

ChatGPT ora offre un'opzione per modificare le domande, così gli utenti possono modificare la domanda o il contenuto che stanno scambiando con ChatGPT.

Come riconoscere i codici QR falsi e proteggere i tuoi dati

Come riconoscere i codici QR falsi e proteggere i tuoi dati

I codici QR sembrano piuttosto innocui, finché non ne scansioni uno dannoso e ti ritrovi con qualcosa di pericoloso nel sistema. Se vuoi proteggere il tuo telefono e i tuoi dati, ecco alcuni modi per identificare i codici QR falsi.

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Qualcomm lancia il modem X85 5G con una serie di notevoli miglioramenti

Sul palco del MWC 2025, Qualcomm ha fatto scalpore presentando l'ottava generazione del suo modem 5G, denominato X85, che dovrebbe essere utilizzato negli smartphone di punta in arrivo entro la fine dell'anno.

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

La nuova tecnologia consente ai telefoni di cambiare colore in modo flessibile

Hai un iPhone 16 "Ultramarine" alla moda, ma un bel giorno all'improvviso ti senti stufo di quel colore; Cosa farai?