Foxconn, l'azienda nota per la produzione di iPhone e altri prodotti hardware Apple, ha appena sorpreso tutti annunciando il suo primo modello linguistico di grandi dimensioni (LLM), denominato FoxBrain, che dovrebbe essere utilizzato per migliorare la produzione e la gestione della catena di fornitura.
Il produttore taiwanese afferma che FoxBrain è stato addestrato con solo 120 GPU H100 di Nvidia. Questo LLM è fondamentalmente sviluppato sulla base dell'architettura Llama 3.1 di Meta, con 70 miliardi di parametri tramite distillazione. Il concetto di perfezionamento dell'LLM prevede l'utilizzo di un modello "genitore" e l'addestramento di un modello "figlio" in base alle sue risposte. Anche Foxconn ha ammesso che il suo LLM non è buono quanto il modello raffinato di DeepSeek (Cina), ma le prestazioni complessive sono molto vicine agli standard di livello mondiale.
Parlando di questo risultato, il Dott. Yung-Hui Li, Direttore del Centro di ricerca sull'intelligenza artificiale presso l'Hon Hai Research Institute (Foxconn), ha affermato:
Negli ultimi mesi, il miglioramento delle capacità di ragionamento e l'uso efficiente delle GPU sono gradualmente diventati una tendenza importante nel campo dell'intelligenza artificiale. Il nostro modello FoxBrain ha adottato una strategia di formazione molto efficiente, concentrandosi sull'ottimizzazione del processo di formazione anziché accumulare ciecamente potenza di calcolo.
Grazie a metodi di formazione attentamente progettati e all'ottimizzazione delle risorse, siamo riusciti a creare un modello di intelligenza artificiale locale dotato di forti capacità di ragionamento."

Foxconn non si limita ad assemblare i prodotti Apple, ma produce anche i server AI di Nvidia. Insieme a 120 GPU H100, FoxBrain è scalabile utilizzando la rete Quantum-2 InfiniBand di Nvidia e l'addestramento richiede circa 4 settimane (per un costo di elaborazione totale di 2.688 giorni GPU). Foxconn ha generato 98 miliardi di token di dati di pre-addestramento di alta qualità in cinese tradizionale con una finestra di contesto di lunghezza massima di 128.000 token.
La partnership tra Foxconn e Nvidia non è nuova e le due aziende stanno lavorando anche ad altri progetti, tra cui la costruzione del più grande stabilimento di produzione di GPU al mondo, Blackwell.
Nvidia ha inoltre fornito a Foxconn il supercomputer Taipei-1 per completare il processo di pre-addestramento del modello. Foxconn ha affermato che FoxBrain diventerà un "motore chiave" per aggiornare le tre piattaforme principali dell'azienda: Smart Manufacturing, Smart Electric Vehicles e Smart Cities.