Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Model bahasa dapat diedarkan lebih baik ketika mereka dibiarkan membuat solusi mereka sendiri Studi baru Diposting oleh Universitas Hong Kong dan Universitas California, Berkeley. Hasil, yang berlaku untuk model LLMS dan model VLMS, menantang salah satu kepercayaan utama dari model LLM-yang memerlukan contoh pelatihan beracun secara manual. Faktanya, para peneliti menjelaskan bahwa model pelatihan pada banyak contoh borgol dapat memiliki efek berbahaya pada kemampuan model untuk menggeneralisasi data yang tidak terlihat.
Sft vs rl dalam pelatihan khas
Untuk waktu yang lama, kontrol kontrol (SFT) adalah standar emas untuk pelatihan LLMS dan VLMS. Setelah model pra -terlatih dalam data dan gambar teks mentah, biasanya diimplementasikan di bidang data teks mentah dan laboratorium pada sejumlah besar data dari contoh buatan tangan dalam mengoordinasikan pertanyaan/jawaban atau permintaan/respons. Setelah SFT, model dapat menjalani tahapan pelatihan tambahan, seperti Belajar penguatan dari reaksi manusia (RLHF), di mana model mencoba mempelajari preferensi manusia implisit berdasarkan sinyal seperti klasifikasi jawaban atau kekaguman/pengulangan dalam respons model.
SFT berguna untuk mengarahkan perilaku model menuju jenis tugas yang dirancang oleh model kreatif. Namun, pengumpulan data adalah proses yang lambat dan mahal, yang merupakan hambatan bagi banyak perusahaan dan laboratorium.
Perkembangan modern di LLM telah menciptakan perhatian dalam pendekatan pembelajaran penguatan murni (RL), di mana model diberi tugas dan dibiarkan untuk mempelajarinya sendiri tanpa contoh buatan tangan. Contoh yang paling penting adalah Deepseek-R1, pesaing Openai O1 yang sebagian besar menggunakan pembelajaran untuk memperkuat tugas pemikiran yang kompleks.
Melingkar terhadap menghafal
Salah satu masalah utama Sistem Pembelajaran Otomatis (ML) adalah untuk mengatasi model mengatasi, karena model bekerja dengan baik pada data pelatihannya tetapi gagal menggeneralisasi dalam contoh yang tidak terlihat. Selama pelatihan, model memberi kesan yang salah tentang mempelajari tugas, sementara dalam praktiknya ia telah menghafal contoh pelatihan. Dalam model kecerdasan buatan yang besar dan kompleks, generalisasi generalisasi bisa sulit.
Studi baru ini berfokus pada kemampuan pelatihan RL dan SFT dalam tugas -tugas berpikir tekstual dan visual. Untuk pemikiran tekstual, LLM, dilatih pada seperangkat aturan, harus dapat menggeneralisasi variabel aturan ini. Dalam pemikiran visual, VLM harus tetap konsisten dalam melakukan tugas untuk perubahan dalam berbagai aspek input visual, seperti warna dan perencanaan spasial.
Dalam pengalaman mereka, para peneliti menggunakan dua tugas yang representatif. Yang pertama adalah titik umum, standar yang mengevaluasi kemampuan berpikir komputasi model. Formulir ini diberikan empat kartu, sebagai deskripsi teks atau gambar, dan diminta untuk menggabungkannya untuk mencapai nomor target. Untuk mempelajari surat edaran berbasis berkuasa, para peneliti melatih model menggunakan satu set aturan, kemudian mengevaluasinya menggunakan basis yang berbeda. Untuk sirkulasi visual, mereka melatih model menggunakan satu kartu warna dan menguji kinerjanya pada warna lain dan rencana penomoran.
Tugas kedua V-flickYang menguji kemungkinan pemikiran spasial dari model di bidang gerakan di dunia terbuka yang menggunakan input visual yang realistis. Tugas ini juga datang dalam versi murni dan bahasa. Para peneliti menilai surat edaran dengan mengubah jenis instruksi dan representasi visual, model dilatih dan diuji.
![](https://venturebeat.com/wp-content/uploads/2025/02/image_5eb42e.png?w=800)
Mereka melakukan tes mereka di LLAMA-3.2-Vision-11b, menaikkan model dengan melatihnya pada set data SFT kecil, kemudian membuat versi terpisah untuk setiap tugas dan formulir pelatihan. Untuk setiap tugas, mereka memperluas jangkauan pelatihan secara terpisah pada RL dan SFT. Model SFT dilatih dalam solusi buatan tangan, sementara RL memungkinkan model untuk membuat banyak solusi untuk setiap masalah, mengevaluasi hasil dan melatih dirinya sendiri pada jawaban yang tepat.
Hasil menunjukkan bahwa pembelajaran penguatan terus meningkatkan kinerja pada contoh yang sangat berbeda dari data pelatihan. Di sisi lain, SFT tampaknya melestarikan aturan pelatihan dan tidak digeneralisasi pada contoh di luar distribusi. Catatan ini berlaku untuk masing -masing pengaturan teks dan multi -media.
![](https://venturebeat.com/wp-content/uploads/2025/02/image_30908f.png?w=800)
Efek dari aplikasi dunia nyata
Meskipun pengalaman mereka menunjukkan bahwa RL lebih baik dalam melingkar dari SFT, para peneliti juga menemukan bahwa SFT berguna untuk memasang format format format, yang sangat penting untuk memungkinkan RL membuat perolehan kinerja. Para peneliti menemukan bahwa tanpa tahap SFT awal, RL tidak mencapai hasil yang diinginkan.
Ini sedikit berbeda dari hasil yang diperoleh oleh Deepseek-R1-Zero, yang dilatih setelah RL murni. Para peneliti menyarankan bahwa ini bisa disebabkan oleh berbagai model tulang belakang yang mereka gunakan dalam percobaan mereka.
Jelas bahwa ada banyak kemampuan yang tidak dieksploitasi dalam pendekatan yang berat. Adapun hasil penggunaan yang diverifikasi, memungkinkan model untuk belajar sendiri dapat menyebabkan hasil yang tidak terduga yang tidak dapat dibuat oleh orang. Ini bisa sangat berguna dalam pengaturan karena dapat dibuat dengan contoh manual yang membosankan dan mahal.
Tautan sumber