1/ Оценка LLM другими LLM кажется эффективной… пока вы не спросите, кто устанавливает правила. Предвзятость, намеки и эффекты поставщиков быстро проникают.
2/ В Inference Labs мы считаем, что само оценивание должно быть проверяемым. Если ИИ оценивает ИИ, нам нужно криптографическое доказательство, а не метрики "доверяй мне".
81