لو كنت في a16z أو yc أو sequoia، لكنت استثمرت بشكل مكثف في الشركات الناشئة التي تبني طرقا جديدة لجمع وتدوين بيانات العالم الحقيقي. > مليارات الساعات من بيانات القيادة > عمال المصنع يتفاعلون مع الأجهزة والآلات الثقيلة > تقسيم الصوت مع فهم عميق جدليا وثقافيا > بيانات التجارب في المختبر الرطب > الجمع المستمر والتوضيح لآثار الوكيل على نطاق الحوسبة عندما بنينا نماذج اللغة الكبيرة (LLMs)، كانت معظم البيانات موجودة بالفعل على الإنترنت. كان علينا فقط أن نكشط، وننظف، ونتكشر. ولكن مع تقدمنا نحو نماذج المؤسسات العالمية، يكون عنق الزجاجة هو بيانات حقيقية عالية الجودة، وموثقة جيدا. وجودة التعليقات مهمة. هناك فرق كبير بين: "تفاحة على شجرة" و "تفاح ناضج على شجرة. الرياح تهب بسرعة 2 ميل في الساعة. درجة الحرارة حوالي 18°C. ” السؤال بسيط. كم من العالم يمكنك التقاطه فعليا؟ اليوم، يعرف النماذج الكبيرة أن التفاح يسقط بسبب الجاذبية، ليس لأنه يفهم السببية، بل لأنه يفهم الارتباطات اللغوية بشكل ممتاز. فهم البنية السببية يأتي بعد ذلك. لو كنت أبني نحو ذلك المستقبل، لكنت ركزت على جمع البيانات في الهند ومناطق جنوب وجنوب شرق آسيا الأخرى. كنت أنشر الأجهزة، وأجمع آلاف الساعات من بيانات النشاط البشري، والإشارات الصحية، والعلامات الحيوية، وأشغل خطوط التعليق بشكل مستمر. ليلا ونهارا. لو كنت a16z، لكنت مولت المؤسسين للقيام بذلك. ربما لدي رغبة في القيام بذلك.