Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Berpikir melalui serangkaian pemikiran (COT)-proses yang dengannya model pembentukan disimpan untuk “ide” yang dapat dikendalikan sebelum mengurangi jawaban-bagian integral dari generasi terbaru dari model bahasa perbatasan besar (LLM).

Namun, biaya penalaran untuk model berpikir dapat menumpuk dengan cepat karena model menghasilkan simbol yang semarak. di dalam Kertas baruPara peneliti di Universitas Carnegie Mellon menyarankan teknologi pelatihan LLM yang memberi pengembang lebih banyak kontrol atas cradle.

Peningkatan kebijakan yang dikontrol kebijakan (LCPO), dan ketentuan teknologi model untuk memberikan jawaban yang benar sambil mempertahankan “gagasan” juga dalam anggaran simbolik yang telah ditentukan sebelumnya. Eksperimen menunjukkan bahwa model terlatih LCPO memberikan perbandingan yang lancar antara akurasi dan biaya dan dapat mengungguli model terbesar dengan panjang berpikir yang sama. LCPO dapat secara signifikan membantu mengurangi biaya inferensi dalam aplikasi lembaga dengan menghemat ribuan simbol dalam setiap putaran percakapan dengan LLM.

Kinerja LLM mengarah pada transplantasi kecepatan yang lebih lama

Model berpikir seperti OpenAI O1 dan Deepseek-R1 dilatih melalui Penguatan Penguatan (RL) untuk menggunakan penskalaan waktu tes dan membuat efek COT sebelum menghasilkan jawaban. Bukti eksperimental menunjukkan bahwa ketika model berpikir untuk periode yang lebih lama, mereka cenderung berkinerja lebih baik dalam tugas berpikir.

Sebagai contoh, R1 awalnya dilatih pada RL murni tanpa contoh manusia. Salah satu idenya adalah bahwa dengan peningkatan kinerja model, ia juga belajar menciptakan efek yang lebih lama.

Sementara secara umum, rantai COT yang panjang mengarah pada respons yang lebih akurat, mereka juga membuat kemacetan dalam penerapan model berpikir dalam skala besar. Saat ini ada sangat sedikit kontrol atas anggaran akun waktu pengujian, dan urutannya dapat dengan mudah meluas hingga puluhan ribu simbol tanpa menghasilkan keuntungan besar. Ada beberapa upaya untuk mengendalikan lamanya rantai berpikir, tetapi biasanya menganalisis kinerja model.

Jelaskan panjang kebijakan yang dikendalikan (LCPO)

Melatih RL Classic LLMS hanya untuk mencapai respons yang benar. LCPO mengubah model ini dengan memasukkan dua tujuan pelatihan: 1) Dapatkan hasil yang benar dan 2) simpan rantai COT terbatas dalam panjang simbol tertentu. Oleh karena itu, jika model hasil dari respons yang benar, tetapi menghasilkan banyak simbol khas, ia akan menerima penalti dan harus mencapai serangkaian pemikiran yang mencapai jawaban yang sama, tetapi dengan anggaran simbolik yang lebih kecil.

Para peneliti menulis: “Model terlatih LCPO puas dengan pembatasan panjang yang memuaskan sambil meningkatkan kinerja berpikir, alih -alih mengandalkan menyimpulkan teknik tangan,” tulis para peneliti.

Mereka menyarankan rasa dua LCPO: (1) persepsi LCPO, yang mensyaratkan bahwa pemikiran yang dihasilkan sepenuhnya sama dengan panjang target, dan (2) LCPO-MAX, yang mengharuskan output lebih panjang dari panjang target.

Untuk menguji teknologi ini, para peneliti menetapkan model pemikiran 1.5B (Qwen-Deslanted-R1-1.5B) pada skema LCPO yang diusulkan untuk membuat model L1-Max dan L1. Pelatihan didasarkan pada masalah matematika dengan hasil yang dibedakan dan terverifikasi. Namun, evaluasi termasuk masalah matematika serta tugas distribusi eksternal seperti mengukur bahasa banyak tugas (mmlu) Teknologi, standar pertanyaan dan jawaban resistensi di tingkat studi pascasarjana (GPQU).

Hasil mereka menunjukkan bahwa model L1 dapat secara akurat menyeimbangkan anggaran simbol yang khas dan kinerja pemikiran, dan interkoneksi yang lancar antara pemikiran pendek, efektif dan lebih lama dan pemikiran yang lebih lama, dan lebih akurat dengan menuntut model dengan pembatasan panjang yang berbeda. Lebih penting lagi, dalam beberapa tugas, model L1 dapat mereproduksi kinerja model pemikiran asli dengan anggaran simbolis yang lebih rendah.

Model L1 mengungguli model S1 dan biaya dasar berdasarkan biaya (Sumber: ARXIV)

Dibandingkan dengan S1 – satu -satunya cara yang membatasi model COT – model L1 menunjukkan hingga 150 % dari keuntungan kinerja pada anggaran simbolik yang berbeda.

“Perbedaan besar ini dapat dikaitkan dengan dua faktor utama,” tulis para peneliti. (1) L1 secara cerdas beradaptasi dengan tempat tidurnya agar sesuai dengan pembatasan panjang terbatas tanpa mengganggu proses berpikir, sementara S1 sering dipotong di tengah periode;

L1 juga mengungguli mitra yang tidak kompatibel sebesar 5 % dan GPT-4O sebesar 2 % di sepanjang generasi yang sama. “Berkenaan dengan pengetahuan kami, ini adalah bukti pertama bahwa model 1.5B dapat mengungguli model perbatasan seperti GPT-4O, meskipun menggunakan panjang yang sama,” tulis para peneliti.

Menariknya, cot cot menunjukkan bahwa ia belajar mengendalikan proses berpikir berdasarkan anggaran simbolisnya. Misalnya, pada anggaran yang panjang, model ini kemungkinan akan menghasilkan simbol khas yang terkait dengan koreksi dan verifikasi diri (mis. “Tapi” dan “tunggu”) dan gambarkan ringkasan (“SO” dan “SO”).

Model LCPO menyesuaikan seri pemikiran mereka berdasarkan anggaran simbolik mereka (Sumber: Arxiv)

Selain meningkatkan panjang panjang dalam mempersiapkan pemikiran matematika standar, mengedarkan model L1 yang luar biasa luar biasa untuk tugas distribusi, termasuk GPQA dan MMLU.

Jalur penelitian baru tentang model bahwa anggaran pemikiran mereka dapat menyesuaikan penggunaan aplikasi penting di dunia nyata, memberi institusi kemampuan untuk memperluas ruang lingkup model pemikiran tanpa biaya yang melarikan diri. Ini adalah alternatif yang kuat untuk menerbitkan model yang lebih besar dan lebih mahal-dan ini bisa menjadi faktor penting dalam membuat kecerdasan buatan lebih aplikasi secara ekonomi untuk aplikasi di dunia nyata.

Para peneliti telah membuka sumber Kode LCPO Dan Beratnya untuk model L1.


Tautan sumber

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini