سؤال صادق للجميع هنا: هل ترغب في سلسلة عن تحسين الاستدلال في ماجرات اللغة الكبيرة (LLM)؟ أفكر في أشياء مثل: - كيف يعمل التكميم فعليا (GGUF مقابل AWQ مقابل bitsandbytes، شرح بسيط، بدون تفاصيل زائدة) - Ollama مقابل vLLM للنشر المحلي ومتى يستخدم أي - فك الترميز التأميني: زيادة تسريع 2-3 مرات دون فقدان الجودة - ذاكرة التخزين المؤقت KV والتخزين المؤقت للمطالبات - توليد المخرجات المنظمة - المقارنة والتحليل التفصيلي لاستدلال نماذج اللغة الكبيرة إذا كان هذا سيساعدك أو يثير فضولك، فقط رد علي وأنت تخبرني باهتمامك الرئيسي، أو فقط إذا كنت توافق أو تختلف مع هذه الفكرة. إذا كان هناك عدد كاف من الناس، سأبدأ هذا في العام الجديد.