Twierdziłem, że modele LLM o autoregresji są procesami dyfuzji, które eksponencjalnie się rozpraszają. Oto argument: Niech e będzie prawdopodobieństwem, że jakikolwiek wygenerowany token opuści drzewo "poprawnych" odpowiedzi. Wtedy prawdopodobieństwo, że odpowiedź o długości n jest poprawna, wynosi (1-e)^n 1/