Veldig innsiktsfullt blogginnlegg! IMO-tokenisering er en del av NLP-rørledninger som får mye mindre oppmerksomhet enn den burde Som en side, mens jeg leste sammendraget av SuperBPE, innså jeg at romagnostisk tokenisering og andre nylige forbedringer går helt tilbake til pre-LLM-tider: