1/ النماذج الكبيرة التي تحكم على نماذج لغوية أخرى تبدو فعالة... حتى تسأل من يضع القواعد. الانحياز، التلميح، وتأثيرات البائعين تتسلل بسرعة.
2/ في مختبرات الاستدلال، نعتقد أن التقييم نفسه يجب أن يكون قابلا للتحقق. إذا كان الذكاء الاصطناعي يحكم على الذكاء الاصطناعي، فنحن بحاجة إلى دليل تشفير، وليس مقاييس الثقة بي.
‏‎85‏