البيئات الظاهرية لوكلاء المشغلين: $CODEC لطالما تركزت أطروحتي الأساسية حول انفجار الذكاء الاصطناعي على صعود وكلاء المشغلين. ولكن لكي ينجح هؤلاء الوكلاء ، فإنهم يحتاجون إلى وصول عميق إلى النظام ، مما يمنحهم بشكل فعال التحكم في جهاز الكمبيوتر الشخصي والبيانات الحساسة ، مما يؤدي إلى مخاوف أمنية خطيرة. لقد رأينا بالفعل كيف تتعامل شركات مثل OpenAI وعمالقة التكنولوجيا الآخرين مع بيانات المستخدم. في حين أن معظم الناس لا يهتمون ، فإن الأفراد الذين سيستفيدون أكثر من وكلاء المشغلين ، فإن أعلى 1٪ يفعلون ذلك تماما. شخصيا ، ليس هناك أي فرصة لمنح شركة مثل OpenAI وصولا كاملا إلى جهازي ، حتى لو كان ذلك يعني زيادة الإنتاجية بمقدار 10×. فلماذا برنامج الترميز؟ تتمحور بنية برنامج الترميز على إطلاق "أجهزة سطح المكتب السحابية" المعزولة عند الطلب لوكلاء الذكاء الاصطناعي. في جوهرها ، توجد خدمة تنسيق مستندة إلى Kubernetes (تحمل الاسم الرمزي Captain) والتي توفر أجهزة افتراضية خفيفة الوزن (VMs) داخل كبسولات Kubernetes. يحصل كل عامل على بيئة معزولة خاصة به على مستوى نظام التشغيل (مثيل نظام تشغيل Linux كامل) حيث يمكنه تشغيل التطبيقات أو المستعرضات أو أي تعليمات برمجية ، في وضع الحماية بالكامل من الوكلاء الآخرين والمضيف. يتعامل Kubernetes مع الجدولة والقياس التلقائي والإصلاح الذاتي لكبسولات الوكيل هذه ، مما يضمن الموثوقية والقدرة على تدوير العديد من مثيلات العامل لأعلى / لأسفل حسب متطلبات التحميل يتم استخدام بيئات التنفيذ الموثوق بها (TEEs) لتأمين هذه الأجهزة الظاهرية، مما يعني أنه يمكن عزل جهاز العامل بشكل مشفر، ويمكن حماية ذاكرته وتنفيذه من نظام التشغيل المضيف أو موفر السحابة. هذا أمر بالغ الأهمية للمهام الحساسة: على سبيل المثال ، يمكن أن يحتفظ الجهاز الظاهري الذي يعمل في جيب بمفاتيح واجهة برمجة التطبيقات أو أسرار محفظة التشفير بشكل آمن. عندما يحتاج عامل الذكاء الاصطناعي ("دماغ") المستند إلى LLM إلى تنفيذ إجراءات، فإنه يرسل طلبات واجهة برمجة التطبيقات إلى خدمة Captain، والتي تقوم بعد ذلك بتشغيل أو إدارة جراب الجهاز الظاهري للعامل. سير العمل: يطلب العامل جهازا، ويخصص Captain (من خلال Kubernetes) جرابا ويعلق وحدة تخزين ثابتة (لقرص الجهاز الظاهري). يمكن للعامل بعد ذلك الاتصال بالجهاز الظاهري الخاص به (عبر قناة آمنة أو واجهة دفق) لإصدار الأوامر. يعرض Captain نقاط النهاية للعامل لتنفيذ أوامر shell وتحميل/تنزيل الملفات واسترداد السجلات وحتى لقطة الجهاز الظاهري لاستعادتها لاحقا. يمنح هذا التصميم العامل نظام تشغيل كامل للعمل فيه ، ولكن مع وصول متحكم فيه ومدقق. نظرا لأنه مبني على Kubernetes، يمكن ل Codec التوسع تلقائيا أفقيا، إذا احتاج 100 وكيل إلى بيئات، فيمكنه جدولة 100 pod عبر نظام المجموعة، ومعالجة حالات الفشل عن طريق إعادة تشغيل pods. يمكن تجهيز الجهاز الظاهري للوكيل بخوادم MCP مختلفة (مثل "منفذ USB" ل الذكاء الاصطناعي). على سبيل المثال ، وحدة Codec's Conductor هي حاوية تشغل متصفح Chrome جنبا إلى جنب مع خادم Microsoft Playwright MCP للتحكم في المتصفح. يسمح هذا لوكيل الذكاء الاصطناعي بفتح صفحات الويب والنقر فوق الروابط وملء النماذج وكشط المحتوى عبر مكالمات MCP القياسية ، كما لو كان إنسانا يتحكم في المتصفح. يمكن أن تتضمن عمليات تكامل MCP الأخرى نظام الملفات/المحطة الطرفية MCP (للسماح للوكيل بتشغيل أوامر CLI بشكل آمن) أو MCPs الخاصة بالتطبيق (لواجهات برمجة التطبيقات السحابية وقواعد البيانات وما إلى ذلك). بشكل أساسي ، يوفر برنامج الترميز "أغلفة" البنية التحتية (الأجهزة الافتراضية ، الجيوب ، الشبكات) بحيث يمكن تنفيذ خطط الوكيل عالية المستوى بأمان على البرامج والشبكات الحقيقية. حالات الاستخدام أتمتة المحفظة: يمكن لبرنامج الترميز تضمين محافظ أو مفاتيح داخل جهاز ظاهري محمي بواسطة TEE ، مما يسمح لوكيل الذكاء الاصطناعي بالتفاعل مع شبكات blockchain (التداول على DeFi ، وإدارة الأصول المشفرة) دون الكشف عن المفاتيح السرية. تمكن هذه البنية الوكلاء الماليين على السلسلة من تنفيذ معاملات حقيقية بشكل آمن ، وهو أمر قد يكون خطيرا للغاية في إعداد الوكيل النموذجي. يسرد شعار المنصة صراحة دعم "المحافظ" كقدرة رئيسية. يمكن للوكيل، على سبيل المثال، تشغيل واجهة سطر أوامر (CLI) لمحفظة Ethereum داخل جيبه، وتوقيع المعاملات، وإرسالها، مع التأكد من أنه إذا أساء العامل التصرف، فإنه يقتصر على الجهاز الظاهري الخاص به وأن المفاتيح لا تغادر TEE أبدا. أتمتة المتصفح والويب: يمكن لوكلاء CodecFlow التحكم في مستعرضات الويب الكاملة في الجهاز الظاهري الخاص بهم. يوضح مثال Conductor وكيلا يقوم بتشغيل Chrome وبث شاشته إلى Twitch في الوقت الفعلي. من خلال Playwright MCP ، يمكن للوكيل التنقل في مواقع الويب والنقر فوق الأزرار وكشط البيانات تماما مثل المستخدم البشري. يعد هذا مثاليا لمهام مثل تجريف الويب خلف عمليات تسجيل الدخول أو معاملات الويب الآلية أو اختبار تطبيقات الويب. تعتمد الأطر التقليدية عادة على استدعاءات واجهة برمجة التطبيقات أو نصوص المتصفح البسيطة مقطوعة الرأس. في المقابل ، يمكن ل CodecFlow تشغيل متصفح حقيقي بواجهة مستخدم مرئية ، مما يسهل التعامل مع تطبيقات الويب المعقدة (على سبيل المثال مع تحديات JavaScript أو CAPTCHA الثقيلة) تحت سيطرة الذكاء الاصطناعي. أتمتة واجهة المستخدم الرسومية في العالم الحقيقي (الأنظمة القديمة): نظرا لأن كل وكيل لديه نظام تشغيل سطح مكتب فعلي، يمكنه أتمتة تطبيقات واجهة المستخدم الرسومية القديمة أو جلسات سطح المكتب البعيد، وتعمل بشكل أساسي مثل أتمتة العمليات الروبوتية (RPA) ولكن مدفوعة ب الذكاء الاصطناعي. على سبيل المثال، يمكن للوكيل فتح جدول بيانات Excel في جهاز Windows الظاهري الخاص به، أو واجهة مع تطبيق طرفي قديم لا يحتوي على واجهة برمجة تطبيقات. يذكر موقع الترميز تمكين "الأتمتة القديمة" صراحة. يفتح هذا باستخدام الذكاء الاصطناعي لتشغيل البرامج التي لا يمكن الوصول إليها عبر واجهات برمجة التطبيقات الحديثة ، وهي مهمة ستكون مخترقة للغاية أو غير آمنة بدون بيئة مضمنة. يشير تكامل noVNC المضمن إلى أنه يمكن ملاحظة العوامل أو التحكم فيها عبر VNC ، وهو أمر مفيد لمراقبة الذكاء الاصطناعي الذي يقود واجهة المستخدم الرسومية. محاكاة مهام سير عمل SaaS: غالبا ما يكون لدى الشركات عمليات معقدة تتضمن تطبيقات SaaS متعددة أو أنظمة قديمة. على سبيل المثال ، قد يأخذ الموظف بيانات من Salesforce ، ويدمجها مع بيانات من تخطيط موارد المؤسسات الداخلي ، ثم يرسل ملخصا بالبريد الإلكتروني إلى العميل. يمكن أن يمكن برنامج الترميز عامل الذكاء الاصطناعي من تنفيذ هذا التسلسل بأكمله عن طريق تسجيل الدخول الفعلي إلى هذه التطبيقات من خلال متصفح أو برنامج عميل في الجهاز الظاهري الخاص به ، تماما كما يفعل الإنسان. هذا يشبه RPA ، ولكنه مدعوم ب LLM يمكنه اتخاذ القرارات والتعامل مع التباين. الأهم من ذلك ، يمكن توفير بيانات اعتماد هذه التطبيقات إلى الجهاز الظاهري بشكل آمن (وحتى مرفقة في TEE) ، بحيث يمكن للوكيل استخدامها دون "رؤية" بيانات اعتماد النص العادي أو تعريضها خارجيا. يمكن أن يؤدي ذلك إلى تسريع أتمتة مهام المكتب الخلفي الروتينية مع إرضاء تكنولوجيا المعلومات التي يقوم كل وكيل بتشغيلها بأقل امتياز وقابلية تدقيق كاملة (حيث يمكن تسجيل كل إجراء في الجهاز الظاهري أو تسجيله). خارطة الطريق - إطلاق العرض التوضيحي العام في نهاية الشهر - مقارنة الميزات مع الأنظمة الأساسية المماثلة الأخرى (لا يوجد منافس ل web3) - تكامل TAO - شراكة ألعاب كبيرة من حيث الأصالة ، تم بناء برنامج الترميز على أساس التقنيات الحالية ولكنه يدمجها بطريقة جديدة لاستخدام عامل الذكاء الاصطناعي. فكرة بيئات التنفيذ المعزولة ليست جديدة (الحاويات والأجهزة الافتراضية وTEEs قياسية في الحوسبة السحابية) ، ولكن تطبيقها على وكلاء الذكاء الاصطناعي المستقلين باستخدام طبقة واجهة برمجة التطبيقات السلسة (MCP) أمر جديد للغاية. تستفيد المنصة من المعايير والأدوات المفتوحة حيثما أمكن ذلك: فهي تستخدم خوادم MCP مثل Playwright من Microsoft للتحكم في المتصفح بدلا من إعادة اختراع تلك العجلة ، وتخطط لدعم أجهزة Firecracker الصغيرة من AWS للمحاكاة الافتراضية بشكل أسرع. كما أنها تشعبت الحلول الحالية مثل noVNC لبث أجهزة الكمبيوتر المكتبية. إثبات أن المشروع يقف على أسس التكنولوجيا التي أثبتت جدواها (Kubernetes ، وأجهزة الجيب ، والمكتبات مفتوحة المصدر) ، مع التركيز على تطويره الأصلي على منطق الغراء والتنسيق ("الصلصة السرية" هي الطريقة التي يعمل بها كل شيء معا). إن الجمع بين المكونات مفتوحة المصدر والخدمة السحابية القادمة (التي تم التلميح إليها من خلال ذكر أداة مساعدة $CODEC للرمز المميز والوصول إلى المنتج العام) يعني أن برنامج الترميز سيكون متاحا قريبا بأشكال متعددة (كخدمة ومستضاف ذاتيا). فريق Moyai: 15+ عاما من الخبرة في التطوير ، يقود حاليا تطوير الذكاء الاصطناعي في Elixir Games. lil'km: 5+ سنوات مطور الذكاء الاصطناعي ، يعمل حاليا مع HuggingFace في مشروع LeRobot. HuggingFace هي شركة روبوتات ضخمة ويعمل Moyai كرئيس للذكاء الاصطناعي في ألعاب الإكسير (بدعم من Square enix و solanafdn. لقد اتصلت شخصيا بالفيديو بالفريق بأكمله وأحب حقا الطاقة التي يجلبونها. صديقي الذي وضعهم على الرادار الخاص بي التقى بهم جميعا أيضا في Token2049 ولم يكن لديه سوى أشياء جيدة ليقولها. افكار اخيرة لا يزال هناك الكثير لتغطيته ، والذي سأحفظه للتحديثات والمنشورات المستقبلية في قناة Telegram الخاصة بي. لطالما اعتقدت أن البنية التحتية السحابية هي مستقبل وكلاء المشغلين. لطالما احترمت ما تقوم Nuit ببنائه ، لكن برنامج الترميز هو أول مشروع أظهر لي القناعة الكاملة التي كنت أبحث عنها. من الواضح أن الفريق من المهندسين من الدرجة الأولى. لقد قالوا صراحة إن التسويق ليس قوتهم ، وهذا على الأرجح هو السبب في أن هذا قد طار تحت الرادار. سأعمل معهم عن كثب للمساعدة في تشكيل استراتيجية GTM التي تعكس في الواقع عمق ما يبنونه. مع القيمة السوقية البالغة 4 ملايين دولار وهذا المستوى من البنية التحتية ، يبدو أنه أقل من قيمته بشكل كبير. إذا تمكنوا من تقديم منتج قابل للاستخدام ، أعتقد أنه يمكن أن يمثل بسهولة بداية دورة البنية التحتية التالية لنظام الذكاء الاصطناعي. كما هو الحال دائما ، هناك خطر ، وبينما قمت بفحص الفريق خلسة خلال الأسابيع القليلة الماضية ، لا يوجد مشروع مقاوم تماما على الإطلاق. أهداف الأسعار؟ أعلى بكثير.
‏‎21.28‏K