إضافة ضوضاء غاوسية إلى نماذج اللغة الكبيرة (خطوة واحدة—بدون تكرارات، بدون معدل تعلم، بدون تدرجات تدرجية) وتركيبها يمكن أن يحقق أداء مماثلا أو حتى أفضل من GRPO/PPO القياسية في مهام الاستدلال الرياضي، والترميز، والكتابة، والكيمياء. نسمي هذه الخوارزمية RandOpt. للتحقق من أن هذا لا يقتصر على نماذج محددة، قمنا باختباره على أجهزة Qwen وLlama وOLMo3 وVLMs. ما وراء هذا؟ نجد أنه في مجتمع البحث الغاوسي حول نماذج اللغة الكبيرة المدربة مسبقا، يتوزع خبراء المهام المتنوعون بشكل كثيف — وهو نظام نسميه "الشجيرات العصبية". الورقة: الرمز: الموقع الإلكتروني: