Alguém acabou de contornar o Neural Engine da Apple para treinar modelos. O Neural Engine dentro de cada Mac da série M foi projetado para inferência. Executar modelos, não treiná-los. Sem API pública, sem documentação e certamente sem retropropagação. Um pesquisador fez engenharia reversa das APIs privadas de qualquer forma e construiu um loop de treinamento de transformador que executa passes para frente e para trás diretamente no hardware do ANE. O método contorna completamente o CoreML. Em vez de usar as ferramentas oficiais da Apple, o projeto constrói programas em MIL (Model Intermediate Language), compila-os na memória usando APIs `_ANEClient` não documentadas e alimenta dados através de buffers de memória compartilhada IOSurface. Os pesos são incorporados nos programas compilados como constantes. E cada passo de treinamento despacha seis núcleos personalizados: atenção para frente, feedforward para frente, e depois quatro passes para trás que computam gradientes em relação às entradas. Os gradientes de peso ainda são executados na CPU usando as bibliotecas de matriz do Accelerate, mas o trabalho pesado (multiplicações de matriz, softmax, funções de ativação) acontece no ANE. Isso torna três coisas possíveis que não eram antes: 1. Treinar pequenos modelos localmente sem esgotar a sua bateria 2. Ajustar finamente no dispositivo sem enviar dados para um servidor ou ativar a GPU 3. Pesquisar sobre o que o hardware do ANE pode realmente fazer quando você ignora as barreiras da Apple Se essa abordagem escalar, a próxima onda de IA no dispositivo deixa de ser sobre executar o modelo congelado de outra pessoa.