Velmi pronikavý příspěvek na blogu! IMO tokenizace je součástí NLP pipelines, kterým se dostává mnohem méně pozornosti, než by měla Mimochodem, při čtení shrnutí SuperBPE jsem si uvědomil, že space-agnostická tokenizace a další nedávná vylepšení sahají daleko do dob před LLM: