Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Kirill Balakhonov | Nethermind
Người tạo ra AuditAgent | AI x Crypto x Sản phẩm | Xây dựng nền kinh tế đại lý
Tại sao OpenAI lại phát hành các mô hình với trọng số mở? Để tự giết chết doanh nghiệp của họ... (hay không?)
Vâng, @OpenAI vừa phát hành hai mô hình với trọng số mở, có nghĩa là các nhà phát triển có thể sử dụng chúng mà không phải trả cho OpenAI bất kỳ khoản nào. Cụ thể, nó được phát hành dưới giấy phép thương mại tự do nhất, Apache 2.0. Vậy tại sao OpenAI lại làm điều này? Có một số khía cạnh.
Nhưng, tôi muốn làm rõ rằng khi một công ty phát hành một mô hình với trọng số mở, điều đó không có nghĩa là mô hình đó mở nguồn như mã nguồn mở mà bạn có thể tự chạy, như hệ điều hành @Linux. Không, với các mô hình AI thì có chút khác biệt. Cụ thể, một mô hình là một hộp đen, một tập hợp các trọng số. Và trong khi bạn có thể thử nghiệm nó trên các nhiệm vụ khác nhau và xem nó hoạt động như thế nào, nếu bạn không thể tái tạo quy trình đào tạo, bạn sẽ không bao giờ biết liệu có bất kỳ lỗ hổng hoặc điểm yếu bảo mật nào đã vô tình hoặc cố ý lọt vào mô hình này hay không. Vì vậy, hãy tách biệt điều này khỏi mã nguồn mở ngay lập tức. Thật không may, các mô hình với trọng số mã nguồn mở không thể hoàn toàn được tin cậy (chúng có thể rẻ hơn).
Khía cạnh khác mà tôi nhận thấy, được thể hiện trong bức tranh, là chất lượng của các mô hình mã nguồn mở không khác biệt nhiều so với các mô hình hàng đầu của OpenAI chỉ có sẵn thông qua API. Điều này thật tuyệt! Điều này thật bất ngờ! Bạn có thể nghĩ rằng OpenAI có thể mất bao nhiêu tiền khi cho phép các nhà phát triển sử dụng các mô hình của họ? Tuy nhiên, đây không phải là tất cả. Các mô hình không phải là tất cả những gì bạn nhận được khi sử dụng OpenAI thông qua API. Ví dụ, khi bạn sử dụng ChatGPT qua giao diện người dùng và chọn mô hình o3, thực tế có một tác nhân phức tạp hoạt động bên dưới, mà trong khi sử dụng các mô hình này, có rất nhiều logic được viết thêm để thực sự hoạt động tốt với tài liệu và công cụ của bạn. Bạn không truy cập chúng qua các mô hình mà OpenAI đã công bố.
Vậy tại sao OpenAI lại phát hành các mô hình với trọng số mở? Đầu tiên, các đối thủ chính của họ, đặc biệt là @Meta, @MistralAI và @deepseek_ai (ồ, và @Google), đã phát hành các mô hình cạnh tranh với trọng số mở mà mọi người đang sử dụng. Và sự phổ biến của OpenAI trong số những người sử dụng các mô hình mở không tăng lên. Tuy nhiên, đối với các nhà phát triển cần cả mô hình với trọng số mở (cho các tính toán cục bộ/riêng tư) bên cạnh các mô hình có thể truy cập qua API (cho những thứ khó hơn), nếu họ cần cả hai, họ đơn giản không thể sử dụng OpenAI. Thật dễ dàng hơn cho họ khi sử dụng các đối thủ như Google hoặc DeepSeek.
Thứ hai, có áp lực đáng kể từ cả người dùng và các nhà quản lý muốn có sự minh bạch hơn. Mọi người lo ngại rằng AI có thể vượt khỏi tầm kiểm soát hoặc rơi vào tay một nhóm công ty hẹp ở Silicon Valley, và mọi người muốn có sự minh bạch hơn. Mặc dù tôi dám nói rằng ngay cả khi chỉ lo lắng về sự cạnh tranh và doanh số giảm, một động thái hướng tới sự mở cửa như vậy có thể sẽ làm cho doanh nghiệp của OpenAI còn lớn hơn.
Và thứ ba, tất nhiên, có một câu đùa về tên công ty của OpenAI. Xét theo cách mọi thứ phát triển, công ty có tên OpenAI lại là công ty AI kín đáo nhất trong số các công ty hàng đầu. Điều này thật buồn cười, nhưng bây giờ điều này đã thay đổi. Bạn nghĩ sao?

278
Hầu hết mọi người hoàn toàn không hiểu cách thức thay thế con người bằng AI hoạt động (hoặc cách nó KHÔNG hoạt động). Ngay cả khi mọi thứ mà một chuyên gia làm được tăng tốc gấp mười lần, điều đó cũng không tự động xóa bỏ công việc đó—nó chỉ viết lại kinh tế xung quanh nó. Khi giá hiệu quả của một sản phẩm giảm mạnh, nhu cầu tiềm ẩn mà trước đây nằm trên kệ bỗng trở nên khả thi. Tôi chưa bao giờ gặp một chủ sản phẩm nào nghĩ rằng các kỹ sư của họ đang giao hàng nhiều tính năng hơn những gì lộ trình cần; danh sách mong muốn luôn dài hơn số lượng nhân viên cho phép. Làm cho mỗi tính năng rẻ hơn mười lần để xây dựng và bạn không cắt giảm đội ngũ theo tỷ lệ mười—bạn làm sáng tỏ mọi "điều tốt để có" mà trước đây trông có vẻ không thể chi trả, cộng với toàn bộ sản phẩm mới mà không ai quan tâm đến việc định hình.
Một nghiên cứu gần đây của @Microsoft Research về việc sử dụng Copilot trong thực tế nhấn mạnh cùng một điểm. Người dùng đến để được giúp đỡ trong việc soạn thảo mã hoặc thu thập thông tin, nhưng mô hình cuối cùng lại huấn luyện, tư vấn và dạy dỗ—gộp những loại lao động hoàn toàn mới vào một phiên. Các nghề nghiệp không phải là những khối đơn nhất; chúng là những gói quy trình con, mỗi quy trình chỉ được bao phủ một phần (và không hoàn hảo) bởi các mô hình hiện tại. Khi các công cụ AI phát triển, phạm vi của vai trò cũng phát triển theo, thường mở rộng hơn là thu hẹp.
Ngay cả trong một công cụ kiểm toán hợp đồng thông minh AI mà chúng tôi đã xây dựng tại @NethermindEth, bất chấp cái tên của nó, chúng tôi nhắm đến một phần rất cụ thể trong quy trình: tìm kiếm các lỗ hổng tiềm ẩn. Trong khi đó, các chuyên gia bảo mật sử dụng điều này như một công cụ và thực hiện nhiều công việc phức tạp và đa diện hơn—xây dựng chiến lược, xác thực phát hiện, sửa chữa AI, thêm ngữ cảnh ngầm, giao tiếp với các nhà phát triển, phát hiện ý định ẩn giấu và quản lý kỳ vọng.
Vì vậy, thay vì đếm xem những công việc nào sẽ "biến mất", sẽ hữu ích hơn khi hỏi những vấn đề nào trở nên đáng giải quyết khi chi phí biên để giải quyết chúng giảm xuống một cách đột ngột. Lịch sử cho thấy câu trả lời là "nhiều hơn chúng ta có thể tuyển dụng", và điều đó lập luận cho một tương lai mà tài năng được tái phân bổ và nhân lên, không bị loại bỏ.


311
Andrej Karpathy ủng hộ việc giới thiệu một thuật ngữ mới liên quan đến "kỹ thuật ngữ cảnh" trong phát triển phần mềm AI sử dụng LLMs.
Và thuật ngữ này từ lâu đã có vẻ rất cần thiết. Mỗi khi tôi giải thích cho mọi người cách chúng tôi phát triển AuditAgent của Nethermind, một trong những khía cạnh chính, bên cạnh việc sử dụng chuyên môn trong lĩnh vực (bảo mật web3) và sử dụng các mô hình AI tốt nhất có sẵn (từ OpenAI, Anthropic và Google), và các công cụ cho LLM, chính là "kỹ thuật ngữ cảnh".
Đôi khi có một câu nói "ngữ cảnh là vua," và điều đó thực sự đúng. LLMs, dù là những mô hình lớn tiên tiến hay những LLM nhỏ được tối ưu hóa, đều là một công cụ mạnh mẽ, nhưng giống như bất kỳ công cụ nào, nếu nó nằm trong tay sai, bạn sẽ nhận được kết quả kém hứa hẹn hơn nhiều so với những gì bạn có thể đạt được nếu làm việc với chúng một cách chính xác. Và quản lý (hoặc kỹ thuật) ngữ cảnh thực sự là một lĩnh vực phức tạp và không được mô tả rõ ràng, đang liên tục phát triển, và nó thực sự xuất hiện như một sự mở rộng của khái niệm kỹ thuật prompt, vốn đã có một số ý nghĩa tiêu cực.
Tổng thể, Andrej đã liệt kê các khía cạnh chính liên quan đến kỹ thuật ngữ cảnh (trên ảnh chụp màn hình thứ hai), nhưng trong mỗi nhiệm vụ cụ thể, mọi người đạt được kết quả xuất sắc phần lớn thông qua thử nghiệm và sai sót, mỗi lần đơn điệu cố gắng chọn các yếu tố ngữ cảnh phù hợp thực sự cần thiết ở giai đoạn giải quyết vấn đề này, thu thập các tiêu chuẩn cho mỗi giai đoạn, xem xét các chỉ số, chia tập dữ liệu thành kiểm tra, xác thực, và nhiều hơn nữa.
Bạn nghĩ gì về "kỹ thuật ngữ cảnh"?

Andrej Karpathy25 thg 6, 2025
+1 cho "kỹ thuật ngữ cảnh" hơn là "kỹ thuật nhắc nhở".
Mọi người liên kết các nhắc nhở với những mô tả nhiệm vụ ngắn mà bạn sẽ đưa cho một LLM trong việc sử dụng hàng ngày của bạn. Khi mà trong mọi ứng dụng LLM công nghiệp, kỹ thuật ngữ cảnh là nghệ thuật và khoa học tinh tế của việc lấp đầy cửa sổ ngữ cảnh với thông tin chính xác cho bước tiếp theo. Khoa học vì làm điều này đúng đắn liên quan đến mô tả nhiệm vụ và giải thích, ví dụ ít shot, RAG, dữ liệu liên quan (có thể đa phương thức), công cụ, trạng thái và lịch sử, nén... Quá ít hoặc sai hình thức và LLM không có ngữ cảnh đúng cho hiệu suất tối ưu. Quá nhiều hoặc không liên quan và chi phí của LLM có thể tăng lên và hiệu suất có thể giảm xuống. Làm điều này tốt là rất không đơn giản. Và nghệ thuật vì trực giác hướng dẫn xung quanh tâm lý LLM của tinh thần con người.
Ngoài kỹ thuật ngữ cảnh, một ứng dụng LLM phải:
- phân chia vấn đề một cách chính xác thành các luồng điều khiển
- đóng gói các cửa sổ ngữ cảnh một cách chính xác
- gửi các cuộc gọi đến các LLM đúng loại và khả năng
- xử lý các luồng UIUX tạo ra-xác minh
- còn nhiều hơn nữa - rào chắn, bảo mật, đánh giá, song song, tiền lấy trước, ...
Vì vậy, kỹ thuật ngữ cảnh chỉ là một phần nhỏ trong một lớp phần mềm dày đang nổi lên không đơn giản mà phối hợp các cuộc gọi LLM riêng lẻ (và nhiều hơn nữa) thành các ứng dụng LLM đầy đủ. Thuật ngữ "bọc ChatGPT" đã trở nên nhàm chán và thực sự, thực sự sai.
368
Hôm qua, chúng tôi đã đưa một sản phẩm mới vào sản xuất—I.R.I.S. (Máy quét Thông tin Rủi ro & Tính toàn vẹn), đại lý AI đầu tiên trên X (trước đây là Twitter) mà:
• Chấp nhận một kho smart-contract hoặc địa chỉ của một hợp đồng đã triển khai
• Chạy mã qua nền tảng SaaS của chúng tôi, AuditAgent—giải pháp hàng đầu trên thị trường được sử dụng bởi các kiểm toán viên bên ngoài và các nhóm phát triển
• Xuất bản một báo cáo đầy đủ về lỗ hổng mà không rời khỏi nguồn xã hội
Tại sao?
• Một kênh không ma sát. Các nhà phát triển nhận được một cuộc kiểm toán nơi họ đã nói về mã—không có biểu mẫu, không có chuỗi email.
• AuditAgent ở phía sau. Không chỉ là một "công cụ quét", mà là dịch vụ chủ lực của chúng tôi cung cấp các cuộc kiểm toán thực tế.
• Thông tin trong khoảng ~30 phút. Phân loại hoàn hảo trước khi xem xét thủ công sâu.
• Tăng cường ra mắt thị trường. Đại lý Twitter giới thiệu sức mạnh của AuditAgent và dẫn dắt người dùng đến nền tảng đầy đủ.
16 giờ đầu tiên trên dòng thời gian
✨ 2.7 triệu lượt hiển thị
🔥 49 nghìn tương tác
📊 85 % cảm xúc tích cực (214 tweet)
🛠️ ≈150 tweet chia sẻ các trường hợp sử dụng thực tế
🔍 33 cuộc kiểm toán nhanh
📋 38,454 dòng mã đã quét
⚠️ 377 lỗ hổng được phát hiện
Một ghi chú cá nhân
Đúng một năm trước, tôi gia nhập Nethermind với một giả thuyết có vẻ rủi ro: "AI sẽ trở thành một phần thiết yếu của bảo mật smart-contract, nhưng chỉ có các công cụ chuyên biệt, phù hợp với quy trình làm việc mới thực sự giúp đỡ các chuyên gia."
Mười hai tháng sau, chúng tôi có hai sản phẩm trong sản xuất—AuditAgent (và bây giờ là I.R.I.S.(@UndercoverIRIS))—và một tác động rõ rệt đến bảo mật Web3.
Cảm ơn rất nhiều đến toàn bộ đội ngũ AI @NethermindEth và @virtuals_io. Kiên trì + một giả thuyết vững chắc + chuyên môn kết hợp = kết quả mà ngành công nghiệp có thể thấy.
Chúng tôi sẽ tiếp tục xây dựng các công cụ mang lại sự an toàn cho các nhà phát triển trước tiên—để Web3 trở nên an toàn hơn với mỗi lần cam kết.

736
Vừa trở về từ Hội nghị AI London—và bức tranh về AI Doanh Nghiệp trông rất khác khi nhìn gần
3 điều khiến tôi chú ý:
1️⃣ Kệ sản phẩm quá đông đúc.
Mỗi gian hàng đều hứa hẹn một "nền tảng AI" cắm và chạy mà kỳ diệu phù hợp với bất kỳ hệ thống nào. Nhưng đi dạo quanh sàn đủ lâu, bạn sẽ nghe thấy cùng một rào cản: hệ thống cũ không có API, dữ liệu phân tán, logic kinh doanh không rõ ràng. Thực tế sẽ rất khắc nghiệt cho các giải pháp SaaS một kích thước phù hợp với tất cả.
2️⃣ Các cửa hàng xây dựng tùy chỉnh tỏa sáng một cách âm thầm.
Các công ty kết hợp tư vấn chuyên sâu với phát triển tùy chỉnh nhanh chóng có lợi thế rõ ràng. Họ có thể nhảy vào giữa những rắc rối, kết nối mọi thứ lại với nhau, và giao hàng một sản phẩm thực sự hoạt động bên trong cơ sở hạ tầng mong manh của khách hàng.
3️⃣ Công việc tùy chỉnh đang trở nên rẻ hơn, không đắt hơn.
Với các mô hình tạo mã viết các bộ điều hợp, bài kiểm tra và khung, các lập trình viên cấp cao giờ đây chỉ cần điều phối thay vì gõ tay. Kinh nghiệm của chúng tôi về việc liên tục sử dụng các công cụ AI trong tổ chức chỉ xác nhận điều này.
Điều rút ra
Những người chiến thắng trong AI Doanh Nghiệp sẽ không phải là những "đại lý" nổi bật nhất "cắm và chạy"—họ sẽ là những đội ngũ linh hoạt có thể đồng sáng tạo các giải pháp theo thời gian thực, được hướng dẫn bởi những ràng buộc rắc rối của công nghệ cũ.

265
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất