Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Різниця між демонстраційним програмним забезпеченням на основі ШІ та продуктами, які дійсно працюють, — це не сама модель. Важливо, чи має ваша команда дисципліну в оцінці.
Більшість функцій штучного інтелекту з'являються на перевірці атмосфери. Хтось пише запит, результат виглядає розумним, і він потрапляє в продакшн. Через три тижні крайні випадки починають накопичуватися, і ніхто не має систематичного способу виміряти, що зламалося і чому.
Команди, які випереджають, ставляться до оцінок так само, як найкращі продуктові команди ставилися до експериментів п'ять років тому. Не як крок у якості наприкінці. Як основний цикл прийняття рішень. Кожна зміна підказки, кожна зміна моделі, кожне редагування системного запиту отримує оцінку від 0 до 1 перед відправленням.
Анкур Гоял побудував BrainTrust навколо цієї тези, коли більшість людей сумнівалися, що оцінки взагалі мають значення. Цей скептицизм залишився з часом. BrainTrust тепер забезпечує інфраструктуру оцінювання Vercel, Replit, Ramp, Zapier, Notion та Airtable. Оцінка $800 млн.
Номер, який мені запам'ятався: вони склали оцінку з нуля на камері і підняли оцінку з 0 до 0,75 менш ніж за 20 хвилин. Це те, чого більшість команд пропускають. Оцінки не дорогі у будівництві. Їх дорого пропускати.
Навичка PM, яка виникає з цього, — це дизайн оцінювання. Знати, які вхідні дані тестувати, як виглядає «добре» як число і як ітерувати функцію оцінювання. Це той самий зсув навичок, що стався, коли слово «кероване даними» перестало бути модним словом і стало фільтром найму.
Якщо ви впроваджуєте функції ШІ і ваш процес якості — «чи виглядає це правильно», ви створюєте демо-програмне забезпечення.
Найкращі
Рейтинг
Вибране
