Es lagen fünfeinhalb Jahre zwischen "Attention is All You Need" und der Veröffentlichung von ChatGPT. Seitdem sind weitere drei Jahre vergangen. Ich habe den Großteil des heutigen Tages damit verbracht, Worte zusammenzufügen, die irgendwie Sinn aus diesen Jahren machen. Als "Attention" veröffentlicht wurde, war ich 19 und arbeitete in einem industriellen ML-Labor, das sich mit Dokumentenverarbeitung beschäftigte. Das Sprachmodellieren war damals zweifellos ein kulturelles Hinterland, insbesondere im Gesundheitswesen. IBM Watson hatte gerade ein paar Milliarden Dollar während des ersten großen NLP-Fiebertraums verbrannt, und die Vorstellung, dass selbst ein paar Millionen Dollar in dieses Feld zurückfließen würden, schien absurd. Im nächsten Sommer wurde das Paper zur generativen Vorab-Trainierung veröffentlicht. Ich erinnere mich, dass es mir von dem damaligen Freund einer damaligen College-Mitbewohnerin weitergeleitet wurde, die ein Dokumentenverarbeitungsunternehmen in einem Industriegebäude in Boston leitete. Wenn man die Augen zusammenkneift, ergaben sie zusammen genug von einem Bild einer Forschungsagenda, um wirklich gute industrielle NLP zu erreichen. Man konnte sich vorstellen, Datensätze zu kuratieren, und vielleicht sogar genug Geld zu finden, um ein paar GPUs zusammenzuschalten, um etwas Nützliches zu bekommen. Ich habe meinen Job im Herbst gekündigt, um an Modellen zu arbeiten. Das spirituelle Zentrum der "AI ist irgendwie real"-Gemeinschaft zu diesem Zeitpunkt war eine Gruppe von Wohngemeinschaften in Berkeley, die überzeugt waren, sie hätten die menschliche Psychologie gelöst. Es würde noch ein paar Jahre dauern, bis sie in einem Dämonenbeschwörungsskandal zusammenbrachen. Und noch zwei Jahre von diesem Punkt entfernt, bis die Skalierungsgesetze klar wurden. Und noch viel, viel länger bis ChatGPT. Diese Lücke verfolgt mich. Fünfeinhalb Jahre waren eine Ewigkeit, aber wir sprechen jetzt darüber, als wäre es eine gerade Linie. Das war es nicht. Es war ein wandernder Weg mit riesigen Mengen an verbranntem Kapital, zerstörten Firmen und Dutzenden von Sackgassen. Jetzt geht jeder davon aus, dass die Implementierungsphase sofort sein wird. Dass, weil wir die Intelligenz haben, sich die Wirtschaft einfach flüssig um sie herum neu gestalten wird. Aber ich schaue auf die Systeme, in die wir diese Dinge injizieren wollen – menschliche Prozesse aus Fleisch und Blut – es fühlt sich unmöglich an, nicht dasselbe Gefühl der Zeitdilatation zu empfinden. Das Modell zum Laufen zu bringen, war ein technisches Problem. Die Welt dazu zu bringen, damit zu arbeiten, ist alles andere als das. Der Weg zur tatsächlichen wirtschaftlichen Diffusion wird viel länger sein, als es die Kapitalmärkte zulassen. Nur dass es diesmal nicht IBM ist, die ein paar Milliarden verbrennt. Es sind alle. Jede Mega-Cap. Jedes Startup. Billionen an Marktkapital, die auf Implementierungszeiträume setzen, die annehmen, dass menschliche Organisationen sich wie Technologieprodukte verhalten. ...