Điều này thật điên rồ: 42% trong GPQA cho một mô hình 2.6B! Điều này có thể chạy trên iPhone của bạn và có kiến thức như tiến sĩ. Thật điên rồ.