Anda dapat membuat inferensi AI 3x lebih cepat tanpa pelatihan tambahan. Peneliti dari SJTU & Huawei menghadirkan LoPA hanya untuk itu! Metode "Lookahead Parallel Decoding" baru mereka adalah trik plug-and-play. Ini dengan cerdas memprediksi urutan terbaik untuk menghasilkan beberapa token sekaligus, alih-alih satu per satu, membuka komputasi paralel besar-besaran. Ini meningkatkan model D2F-Dream untuk menghasilkan 10+ token per langkah, mencapai lebih dari 1070 token/detik—secara signifikan mengungguli sistem inferensi teratas lainnya pada tolok ukur pengkodean (MBPP) dan matematika (GSM8K). LoPA: Penskalaan Inferensi dLLM melalui Decoding Paralel Lookahead Kertas: Kode: Blog: Laporan kami: 📬 #PapersAccepted oleh Jiqizhixin