Сегодняшний голосовой ввод действительно показывает, как важно прорабатывать крайние случаи в продуктах, несмотря на кажущееся снижение отдачи от улучшения пользовательского опыта за пределами "достаточно хорошего". Раньше ненавидел диктовку и другие форматы ввода голосом в текст, пока не появились последние поколения продуктов ИИ. Объяснял это тем, что странно говорить с компьютером, но теперь понимаю, что проблема заключалась в качестве транскрипции (ввод) и понимании контекста (вывод). Теперь, когда транскрипция почти идеальна, а LLM действительно могут извлекать то, что я имею в виду из неструктурированного бреда, очевидно, что это превосходит набор текста в большинстве ситуаций.