Một thiếu sót thú vị và tiết lộ ngay cả ở những LLM đa phương thức tiên tiến nhất hiện nay (ví dụ: GPT-5 và Claude Opus 4.1) là điều mà tôi sẽ gọi là sự phân tách phương thức của nhận thức. Những mô hình này dường như giống như những mô hình Frankenstein, được ghép lại một cách thô sơ từ những phần được đào tạo riêng biệt và được kết hợp thông qua việc định tuyến yêu cầu đến thành phần đúng, thay vì được tích hợp một cách sâu sắc. Điều “bật mí” lớn đối với tôi trong vấn đề này là tất cả những mô hình này đều rất tệ trong việc tạo ra nghệ thuật ASCII gốc có tính nhất quán, hoặc thậm chí là sửa đổi nghệ thuật hiện có theo cách mà một đứa trẻ có thể làm dễ dàng nếu có công cụ phù hợp (ví dụ: trình chỉnh sửa asciiflow, rất tuyệt và miễn phí trên trình duyệt). Gần đây, tôi đã tạo ra một tiện ích tốt để kiểm tra các tệp mã cho các vấn đề bằng cách sử dụng ast-grep theo những cách mạnh mẽ (tôi sẽ đăng về nó nhiều hơn khi nó hoàn thành), và tôi muốn tạo một banner đẹp cho mỗi ngôn ngữ lập trình bao gồm một linh vật hoặc logo ASCII khác nhau cho mỗi ngôn ngữ (rắn cho Python, gopher cho Golang, v.v.). Nhiệm vụ này của việc thay thế nghệ thuật bằng nghệ thuật mới trong khi vẫn duy trì tính nhất quán là hoàn toàn không thể đối với mọi mô hình. Ngay cả khi tôi đã làm cho điều tôi muốn trở nên rất rõ ràng (tôi đã kiên trì một thời gian nữa vì sự tò mò bệnh hoạn, như một nhà thần kinh học thực hiện chẩn đoán trên một bệnh nhân bị tổn thương não), họ đã rất tệ trong việc đó. Họ thậm chí đã tạo ra một số lỗi thực sự kỳ lạ mà một con người sẽ không bao giờ mắc phải, chẳng hạn như thay thế các chữ cái khối nghệ thuật ASCII cho từ “BUG” bằng các trường hợp lặp lại của chuỗi “BUG,” cho thấy một sự nhầm lẫn tồn tại kỳ lạ mà có thể hiểu được nếu bạn xem xét cách họ được đào tạo trên việc khớp ký tự tiếp theo tự động theo chuỗi. Khi một con người cố gắng thực hiện nhiệm vụ này, anh ta thực hiện một loại chuyển đổi gestalt qua lại liên tục giữa “không gian ký hiệu” và “không gian (màn hình) vật lý.” Chúng tôi thực hiện một thay đổi về mặt ký hiệu để thêm hoặc di chuyển một ký tự ASCII, nhưng sau đó quan sát và nhận thức những gì chúng tôi vừa làm một cách trực quan để xem liệu nó có đúng không. Nó diễn ra một cách liền mạch đến mức chúng tôi thậm chí không nhận ra nhiều. Những LLM đa phương thức này dường như không làm được điều đó, hoặc thậm chí không thể, ít nhất là trong một lần suy diễn. Họ bị mắc kẹt trong một phương thức này hay phương thức khác và dường như không thể kết hợp chúng lại với nhau. Nếu họ có thể, nhiệm vụ mà tôi đã mô tả sẽ trở nên tầm thường đối với họ thay vì hoàn toàn không thể vượt qua. Tôi cho rằng các LLM đa phương thức thế hệ tiếp theo phải có một loại tương tự kỹ thuật số với thể chất gọi là corpus callosum trong não, cái mà thống nhất hai bán cầu não và giúp phối hợp các phương thức nhận thức khác nhau trong một ý thức thống nhất. Tức là, các kết nối dày đặc, có thể đào tạo cho phép các phương thức khác nhau liên tục điều chỉnh lẫn nhau trong quá trình xử lý. Nếu bạn muốn, đó là liên phương thức.