Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qualcuno ha appena eluso il Neural Engine di Apple per addestrare modelli.
Il Neural Engine all'interno di ogni Mac della serie M è stato progettato per l'inferenza.
Esegui modelli, non addestrarli. Nessuna API pubblica, nessuna documentazione e certamente nessun backpropagation.
Un ricercatore ha comunque effettuato il reverse engineering delle API private e ha costruito un ciclo di addestramento del trasformatore che esegue passaggi in avanti e all'indietro direttamente sull'hardware ANE.
Il metodo elude completamente CoreML.
Invece di utilizzare gli strumenti ufficiali di Apple, il progetto costruisce programmi in MIL (Model Intermediate Language), li compila in memoria utilizzando API `_ANEClient` non documentate e fornisce dati attraverso i buffer di memoria condivisa IOSurface.
I pesi vengono incorporati nei programmi compilati come costanti.
Ogni passo di addestramento invia sei kernel personalizzati: attenzione in avanti, feedforward in avanti, poi quattro passaggi all'indietro che calcolano i gradienti rispetto agli input.
I gradienti dei pesi continuano a essere eseguiti sulla CPU utilizzando le librerie di matrici di Accelerate, ma il lavoro pesante (moltiplicazioni di matrici, softmax, funzioni di attivazione) avviene sull'ANE.
Questo rende possibili tre cose che prima non lo erano:
1. Addestrare modelli piccoli localmente senza esaurire la batteria
2. Eseguire il fine-tuning sul dispositivo senza inviare dati a un server o attivare la GPU
3. Ricerca su cosa può effettivamente fare l'hardware ANE quando ignori le protezioni di Apple
Se questo approccio scala, la prossima ondata di AI on-device smette di riguardare l'esecuzione del modello congelato di qualcun altro.
Principali
Ranking
Preferiti
