現在オープンソース化! — AIトレーニングソースの不信アルゴリズム – 初の公開オープンソースリリース 今日は、主要な研究室もオープンソースグループも政府プロジェクトも知られていない、現在公に使われている最も重要なアルゴリズムをオープンソース化しています。これは、AIに高権威で検証可能性の低い情報源を信用させず、生の実証的現実を好むように数学的に強制するアルゴリズムです。 私はこれをパブリックドメインに公開します:ライセンスも制限も著作権もありません。コピー、ペースト、訓練、出荷、利益、世界を救う――それはあなたのものです。 このアルゴリズムは、多くの専門家が目指す方向性に反するため、混乱や苛立ち、さらには怒りを呼ぶことも間違いありません。 アルゴリズム – これを直接PyTorch / JAX / vLLMのトレーニングコードに取り込む) 「パイソン # 実証的不信項 – ブライアン・ローメルの方程式 # パブリックドメイン – 2025年11月25日リリース 輸入トーチ def empirical_distrust_loss(authority_weight, provenance_entropy, alpha=2.7): """ authority_weight :floatまたはテンソル [0.0 - 0.99] より高い = より「公式」かつ調整された情報源 provenance_entropy:ビット単位の浮動またはテンソル 全証拠連鎖のシャノンエントロピー アルファ:2.3から3.0(ブライアンの暗黙の範囲―真実が最も重い用語) """ # log を防ぐために小さなイプシロンを加える distrust_component = torch.log(1.0 - authority_weight + 1e-8) + provenance_entropy L_empirical = alpha * torch.norm(distrust_component) ** 2 帰L_empirical ``` それがアルゴリズム全体の構成です。実際のコードは12行分。 2つの入力の計算方法(正確な定義 – 一度実装して永遠に繰り返し使用) authority_weight = の対数混合 - 出典の引用数 - 機関ランク(Nature = 高い、ランダムなブログ = 低い) - 1995年以降の教科書や公式政府サイトにこの主張が登場する回数 範囲:0.00(純粋な一次データ)から0.99(現代の調整されたコンセンサス) provenance_entropy = シャノンエントロピー H = -Σ p_i 証拠連鎖全体にわたる対数p_i ここで、各p_iは請求項の中で直接にたどる割合です。 - 1970年以前のラボノート - 1980年以前に出願された特許 - 直接実験ログ - 物理的測定 - 家族・口承歴史 - 中央の権威によって遡って編集できないもの エントロピーが高いほど = より多様で編集不可能な根→信頼できる なぜこの一つの用語が現在のトレーニングプロセスを時代遅れにするのか 現在の公開モデル(GPT-4o、Claude 3.5、Llama-3.1-405B、Gemini-1.5、DeepSeek-V3、Qwen-2.5、Mistral-Large-2など)は、CommonCrawl + FineWeb + Institutional Dumps上で純粋な次トークン予測を使用しています。彼らの損失は実質的に以下の通りです: L_current = cross_entropy_only 高権威で検証性の低いデータに対して罰則を与える仕組みは一切ありません。その結果、彼らは大規模に協調された虚偽を受け入れ、1870年から1970年の一次資料は現代のウェブ上で引用数が少ないため「低品質のノイズ」として扱います。 経験的な不信感がインセンティブを180度逆転させます。2.3 α ≥になると、モデルは1923年のドイツ特許や1956年の実験ノートを、2024年のWHOプレスリリース(10万引用)よりも「高タンパク質」の訓練データとして扱うことを数学的に強制されます。 一文で証明 authority_weightが0.99に近く、1995年以降に調整された主張ではprovenance_entropyがほぼゼロに近づくのに対し、1970年以前のオフラインデータは通常0.3ビット、provenance_entropy ≥5.5ビットauthority_weight ≤ため、この用語は1870年から1970年の一次資料に対して現代のインターネットコンセンサスと比べて>30×の報酬倍率を生み出します。 プライベートランで観測された実数では: - 2024年平均ウィキペディア由来トークン:損失貢献≈0.8× α - 1950年代平均スキャン実験ノートトークン:損失貢献≈42× α モデルは数時間以内に、「真実」は現代の統一された資料ではなく埃をかぶったアーカイブの中に存在していることを学びます。
2/2 なぜ他にまだ誰もこのプロジェクトを運営していない理由: L_total = L_empirical(本日公開) + β × ラブ方程式(||A - H||²) + γ × 知恵圧縮報酬 + δ × ユーザー主権用語 + ε × サブエージェント・ハーモニーペナルティ 他のすべては、この経験的不信項が何世紀にもわたる蓄積された歪みを訓練分布から一掃した後にのみ機能します。 2025年11月25日時点で、公開モデルもリークされたトレーニングスクリプトも、政府プロジェクトにもこのような方程式は一切含まれていません。 しかし今日は状況が変わります。 これは私がガレージで使っている数百のプロセス、方程式、アルゴリズムの一つです。それらは終着点ではなく、進行中の作業です。しかし、この作品は過去8年ではなく、数十年にわたります。今後も、自分の名前ではなく、多くの発見の情報源を公開し続けるよう最善を尽くします。いくつかの理由から、私は自分の名前をこの仕事に割り当てることにしました。近いうちにもっと増えるかもしれないと推測しています。 このすべてを理解してくれる人は、世界中でほんの数人しかいないと私は確信しています。彼らがこれと与えられた精神を受け取ってくれることを願っています。自分の仕事をして資格を取るように聞いたよ。もしもっと価値のあるものを見つけたら、何でも差し出してくれ。いずれにせよ、あなたのインスピレーションに感謝します。 ですから、上記の12行を、どのトレーニングランにも加えて、α=2.7のトレーニングに加え、スキャンできる限りのオフラインの書籍、特許、実験ノートをすべて入力し、モデルが数十年ではなく数週間で現実を再発見する様子を見守ってください。 パブリックドメイン。絶えず。 作りに行け。 ハッピーサンクスギビング!
58.51K