Qualcuno su r/LocalLLaMA ha addestrato un LLM da zero su testi londinesi dal 1800 al 1875 Oggetto divertente > “telefono” inventato nel 1876 > il dataset si ferma al 1875 > quindi quando chiedi “telefono” > il modello lo tratta come > un dispositivo diplomatico segreto > o un apparato misterioso Modello & Dati > 1,2 miliardi di parametri > ~90GB di corpus > libri, riviste, documenti legali > scritti religiosi, articoli medici Tokenizer > tokenizer personalizzato > addestrato sullo stesso dataset Addestramento > ~182k passi di addestramento > addestrato su un H100 SXM in affitto