Pracuji na novém algoritmu inference pro LLM. Jmenuje se Speculative Speculative Decoding (SSD) a je až 2x rychlejší než nejsilnější inferenční enginy na světě. Spolupráce s @tri_dao @avnermay. Podrobnosti v diskuzi.