Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Saat ini Kepala AI @cline | Grafik Pengetahuan @meta Sebelumnya | Pencipta Vault // @usc Alum
Ini adalah 48 jam yang intens bagi saya dan tim saya.
Untuk lebih jelasnya, saya tidak akan meminta maaf karena membuat lelucon yang tidak berbahaya tentang hackathon yang berbau tidak sedap. Saya telah ke 4 tahun ini, semuanya berbau tidak sedap.
Saya mengharapkan permintaan maaf dari orang-orang seperti @deedydas, yang telah banyak berinteraksi positif dengan saya. Alih-alih beramal dengan saya, memberi saya simulacrum rahmat, mereka menempel pada saya dan memfasilitasi ancaman pembunuhan yang lebih tidak masuk akal dan benar-benar menjijikkan terhadap saya, keluarga saya, dan tim saya.
Ini konyol, dan tampaknya dengan X yang dimonetisasi, orang diberi insentif untuk mengamuk umpan dan memperkuat ancaman kekerasan yang tidak masuk akal di platform ini.
@elonmusk bukankah inti dari akuisisi twitter Anda adalah BIARKAN kami membuat lelucon dan bersenang-senang dengan damai? Tampaknya itu tidak berfungsi.
Terima kasih kepada semua orang yang masuk akal yang berdiri bersama saya. Saya menghargai Anda semua.
209
Kami mengumumkan cline-bench, tolok ukur open source dunia nyata untuk pengkodean agen.
Cline-Bench dibangun dari tugas rekayasa dunia nyata dari pengembang yang berpartisipasi di mana model Frontier gagal dan manusia harus turun tangan.
Setiap tugas yang diterima menjadi lingkungan RL yang dapat direproduksi sepenuhnya dengan snapshot repo awal, prompt nyata, dan tes kebenaran dasar dari kode yang akhirnya dikirim.
Untuk laboratorium dan peneliti, ini berarti:
> Anda dapat mengevaluasi model pada pekerjaan teknik asli, bukan teka-teki leetcode.
> Anda mendapatkan lingkungan yang kompatibel dengan Harbor dan perkakas eval modern untuk perbandingan berdampingan.
> Anda dapat menggunakan tugas yang sama untuk SFT dan RL sehingga pelatihan dan evaluasi tetap didasarkan pada alur kerja rekayasa yang nyata.
Hari ini kami membuka kontribusi dan mulai mengumpulkan tugas melalui Penyedia Cline. Partisipasi bersifat opsional dan terbatas pada repositori open source.
Ketika tugas sulit membingungkan model dan Anda campur tangan, kegagalan itu dapat diubah menjadi lingkungan standar yang dapat dipelajari, diukur dan dilatih oleh seluruh komunitas.
Jika Anda mengerjakan masalah open source yang sulit, terutama OSS komersial, saya secara pribadi ingin mengundang Anda untuk membantu. Kami berkomitmen $1 juta untuk mensponsori pengelola open source untuk mengambil bagian dalam inisiatif cline-bench.
"Cline-bench adalah contoh bagus tentang bagaimana tolok ukur dunia nyata yang terbuka dapat memajukan seluruh ekosistem. Tugas pengkodean terverifikasi berkualitas tinggi yang didasarkan pada alur kerja pengembang yang sebenarnya adalah apa yang kami butuhkan untuk mengukur model perbatasan secara bermakna, mengungkap mode kegagalan, dan mendorong canggih."
– @shyamalanadkat, Kepala Edal Terapan @OpenAI
"Nous Research difokuskan pada pelatihan dan proliferasi model yang unggul dalam tugas-tugas dunia nyata. Cline-bench akan menjadi alat integral dalam upaya kami untuk memaksimalkan kinerja dan memahami kemampuan model kami."
– @Teknium, Kepala Pasca Pelatihan @nousresearch
"Kami adalah penggemar berat dari semua yang telah dilakukan Cline untuk memberdayakan ekosistem AI open source, dan sangat bersemangat untuk mendukung rilis cline-bench. Lingkungan terbuka berkualitas tinggi untuk pengkodean agen sangat jarang. Rilis ini akan sangat membantu baik sebagai evaluasi kemampuan maupun sebagai testbed pasca-pelatihan untuk tugas-tugas dunia nyata yang menantang, memajukan pemahaman dan kemampuan kolektif kami seputar pengembangan perangkat lunak otonom."
– @willccbb, Pemimpin Penelitian @PrimeIntellect:
"Kami berbagi komitmen Cline terhadap open source dan percaya bahwa tolok ukur ini tersedia untuk semua orang akan membantu kami terus mendorong kemampuan pengkodean perbatasan LLM kami."
– @b_roziere, Ilmuwan Riset @MistralAI:
Detail lengkapnya ada di blog:

463
Teratas
Peringkat
Favorit

