Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nếu tôi là a16z, yc, hoặc sequoia, tôi sẽ đầu tư mạnh mẽ vào các startup đang xây dựng những cách mới để thu thập và chú thích dữ liệu thế giới thực.
> Hàng tỷ giờ dữ liệu lái xe
> Công nhân nhà máy tương tác với thiết bị và máy móc nặng
> Phân đoạn âm thanh với sự hiểu biết sâu sắc về phương ngữ và văn hóa
> Dữ liệu thí nghiệm trong phòng ướt
> Thu thập và chú thích liên tục các dấu vết của tác nhân ở quy mô tính toán
Khi chúng tôi xây dựng LLMs, hầu hết dữ liệu đã tồn tại trên internet. Chúng tôi chỉ cần thu thập, làm sạch và mở rộng. Nhưng khi chúng ta tiến tới các mô hình nền tảng thế giới, nút thắt là dữ liệu chất lượng cao, thực tế và được chú thích tốt.
Và chất lượng chú thích rất quan trọng. Có một sự khác biệt lớn giữa:
"Quả táo trên cây"
và
"Quả táo chín trên cây. Gió đang thổi với tốc độ 2 dặm một giờ. Nhiệt độ khoảng 18°C."
Câu hỏi rất đơn giản. Bạn có thể thực sự ghi lại bao nhiêu phần của thế giới?
Ngày nay, LLMs biết rằng táo rơi xuống vì trọng lực, không phải vì chúng hiểu nguyên nhân, mà vì chúng hiểu mối tương quan ngôn ngữ cực kỳ tốt. Hiểu cấu trúc nguyên nhân sẽ đến sau.
Nếu tôi đang xây dựng hướng tới tương lai đó, tôi sẽ tập trung thu thập dữ liệu ở Ấn Độ và các khu vực Nam và Đông Nam Á khác. Tôi sẽ triển khai phần cứng, thu thập hàng nghìn giờ dữ liệu hoạt động của con người, tín hiệu sức khỏe và các chỉ số quan trọng, và chạy các quy trình chú thích liên tục. Ngày và đêm.
Nếu tôi là a16z, tôi sẽ tài trợ cho các nhà sáng lập để làm điều này.
Tôi có thể chỉ có cảm giác muốn tự mình làm điều đó.
Hàng đầu
Thứ hạng
Yêu thích
