Quelqu'un sur r/LocalLLaMA a entraîné un LLM à partir de zéro sur des textes londoniens de 1800 à 1875 Objet amusant > « téléphone » inventé en 1876 > le jeu de données s'arrête en 1875 > donc quand vous demandez « téléphone » > le modèle le traite comme > un dispositif diplomatique secret > ou un appareil mystérieux Modèle & Données > 1,2 milliard de paramètres > ~90 Go de corpus > livres, revues, documents juridiques > écrits religieux, articles médicaux Tokeniseur > tokeniseur personnalisé > entraîné sur le même jeu de données Entraînement > ~182k étapes d'entraînement > entraîné sur un H100 SXM loué