Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Memikirkan model kecerdasan buatan-yang menghasilkan “ranjang” dalam teks dan merenungkan analisisnya sendiri untuk mencoba mengambil kesalahan di tengah jalan sebelum respons-yang semuanya marah sekarang berkat peribahasa Deepseeek dan Openai ” “Seri.”

Namun, sungguh menakjubkan bagi saya kecepatan di mana pendekatan model berpikir telah menyebar melalui industri kecerdasan buatan, dengan pengumuman minggu ini tentang keberadaannya Model baru lainnya untuk dicobaIni adalah salah satu koleksi penelitian nous untuk insinyur misterius dan awal, yang telah menjadi seluruh misinya sejak diluncurkan di New York City pada tahun 2023 membuat model model kecerdasan buatan seperti seri meta Llama dan yang dihasilkan dari awal dari Mistral Prancis.

https://www.youtube.com/watch?

Itu juga diterbitkan di Akun penelitian nous di x Di saluran perselisihan perusahaan, model berpikir terbuka baru ini disebut “Deephermes-3”, digambarkan sebagai “model LLM (model bahasa besar) yang menyatukan kemampuan model bahasa intuitif”, dan memungkinkan pengguna untuk beralih di antara Pemikiran dan respons terpanjang lebih pendek, lebih cepat dan lebih sedikit akun.

Ini adalah variabel dari 8 miliar parameter (jumlah pengaturan) dari Hermes 3, dan dengan sendirinya merupakan variabel dari meta lama yang dikeluarkan oleh Nous pada bulan Agustus 2024. Pertukaran sampel telah menunjukkan bahwa ia dapat masuk ke dalam layar yang mirip dengan itu dari dirinya sendiri dan perannya AI dibandingkan dengan kesadaran manusia.

Pengguna dapat mengunduh Kode model lengkap di lugingface Dan salinannya Jumlah (lebih sedikit bit) Dan diawetkan Koordinasi terpadu dari GPT (GGUF)Ini dirancang untuk menjalankan kesimpulan model (pembangunan produksi aktual, alih -alih pelatihan) pada komputer dan gelar konsumen.

Nous Today menulis bahwa para peneliti “berharap bahwa metode pemikiran dan pemikiran yang unik dan kecantikan kami meningkatkan misi kami untuk memberi mereka yang menggunakan lebih banyak bimbingan untuk segala kebutuhan yang mereka miliki.”

Berdasarkan Hermes 3: Pendekatan Data dan Pelatihan

Deephermes-3 tergantung pada Hermes 3, yang merupakan koleksi data multi-bidang dengan sponsor nous penelitian yang cermat untuk seri Hermes 3 yang lebih luas.

Menurut Laporan Teknis Hermes 3 Pengumpulan data ini dirilis pada bulan Agustus, yang terdiri dari sekitar 390 juta simbol yang meluas di bidang pendidikan dan berpikir.

Kumpulan data dibagi menjadi kategori kunci berikut:

  • Instruksi Umum (60,6 %)Klaim luas dan terbuka yang mirip dengan yang ada dalam model obrolan AI untuk tujuan umum.
  • Data Ahli Domain (12,8 %)Pengetahuan khusus di bidang -bidang seperti sains, hukum dan teknik.
  • Matematika (6,7 %)Grup data pemecahan masalah canggih bertujuan untuk meningkatkan pemikiran numerik dan logis.
  • Play Roles and Creative Writing (6,1 %)Data yang dirancang untuk meningkatkan narasi cerita dan dialog simulasi.
  • Pengembangan Pengkodean dan Perangkat Lunak (4,5 %): Tugas menghasilkan kode dan mengoreksi kesalahan.
  • Gunakan alat, agen berpikir dan generasi nutrisi (RAG) (4,3 %) (4,3 %)Pelatihan untuk menghubungi pekerjaan, merencanakan dan memulihkan pengetahuan.
  • Pembuatan konten (3,0 %): Menulis, meringkas tugas output yang terorganisir.
  • Bimbingan dan Penyelarasan (2,5 %)Data berfokus pada membuat model sangat dan menanggapi permintaan pengguna.

Selain itu, nous nous (Teknium@Teknium1 pada xBuku Tanggapan terhadap Pengguna Perusahaan Perselisihan Hamba Model ini dilatih pada “1M non COT dan 150 K COT”, atau 1 juta output non -medis dan 150.000 output COT.

Campuran data ini mendukung kemampuan Deephermes-3 yang unik untuk beralih antara respons intuitif dan pemikiran terorganisir yang dalam, fitur utama yang membedakannya dari LLM lainnya.

Bagaimana bekerja untuk menjadi mode pemikiran ibadah

Deephermes-3 memungkinkan pengguna untuk mengontrol kedalaman pemikiran menggunakan router sistem. Pengguna harus memasukkan teks berikut sebelum mode “beralih ke” dalam bentuk:

Anda adalah kecerdasan buatan yang mendalam, Anda dapat menggunakan rantai yang sangat panjang untuk berpikir secara mendalam dalam masalah dan berdagang dengan diri Anda melalui pemikiran sistematis untuk membantu mencapai solusi yang benar sebelum balasan. Anda harus melampirkan ide -ide dan monolog internal Anda di dalam tanda -tanda, kemudian memberikan solusi atau menanggapi masalah tersebut.

Saat Anda mengaktifkan mode berpikir, model memproses informasi dalam cot panjang, memungkinkannya untuk mengedarkan secara sistematis sebelum membuat jawaban.

Ini dicapai menggunakan Tanda -tanda, di mana monolog internal model diatur sebelum solusi akhir disajikan.

Dalam mode respons standar, model ini berfungsi seperti obrolan AI tradisional, memberikan respons berbasis intuisi tercepat untuk perawatan logis yang mendalam.

Visi Kinerja dan Komentar Komunitas

Kriteria awal dan tes komunitas memberikan visi dasar kemampuan mendalam 3:

  • Pemikiran olahraga: Setan Deep 3 67 % berdasarkan standar matematika, dibandingkan dengan 89,1 % untuk model Deepsek R1 yang disuling. Sementara Deepseek mengungguli ini dalam tugas matematika murni, penelitian ini secara mendalam sebagai model yang lebih umum dengan keterampilan dan pemikiran percakapan yang lebih luas.
  • Beberapa putaran percakapan: Beberapa laboratorium menginformasikan bahwa situasi berpikir aktif dengan baik pada respons pertama, tetapi mungkin gagal untuk melanjutkan percakapan yang diperpanjang. Anggota masyarakat menyarankan penegakan hukum \ n di awal setiap respons, juga digunakan dalam Deepseek-R1.
  • Undangannya adalah pekerjaan: Deephermes-3 mendukung penggunaan alat, meskipun belum secara eksplisit dilatih untuk mengintegrasikan mode berpikir dan koneksi pekerjaan secara bersamaan. Beberapa pengguna melaporkan bahwa meskipun kombinasi kedua fitur meningkatkan akurasi dalam implementasi alat, hasilnya tetap tidak konsisten.

Nous Research mengumpulkan catatan pengguna secara aktif untuk meningkatkan stabilitas berpikir dan meningkatkan reaksi berganda.

Penerbitan dan kinerja perangkat

Deephermes-3 tersedia untuk uji ungkapan, karena kuantitatif GGUF ditingkatkan untuk perangkat berenergi rendah. Model ini kompatibel dengan VLLM untuk inferioritas dan menggunakan format Llama-Cat untuk multi-turn.

Salah satu pengguna telah melaporkan kecepatan pemrosesan 28,98 ikon per detik pada MacBook Pro M4 Max, menunjukkan bahwa model tersebut dapat bekerja secara efisien pada perangkat konsumen.

Deephermes-3 tergantung pada model meta Llama 3 dan diatur oleh lisensi komunitas meta llama 3.

  • Redistribusi: Setiap model turunan atau publikasi lisensi asli harus mencakup dan menampilkan secara jelas “dirancang dengan meta llama 3.”
  • Pengaturan pada pelatihan khas: Pengguna tidak dapat menggunakan Deephermes-3 (atau Llama 3) untuk melatih LLM lain, kecuali untuk karya yang diturunkan secara eksplisit di Llama 3.
  • Lisensi Komersial untuk Perusahaan Besar: Lembaga dengan lebih dari 700 juta pengguna bulanan harus mendapatkan persetujuan eksplisit dari meta sebelum menggunakan model secara komersial.
  • Kebijakan Penggunaan yang Dapat Diterima: Pengguna harus mematuhi batasan meta AI, yang melarang aplikasi di bidang -bidang seperti informasi yang salah, memantau dan menghasilkan konten berbahaya.

Aturan distribusi ulang dan pembatasan komersial ini berarti bahwa Deephermes-3 tidak sepenuhnya terbuka dalam arti tradisional, meskipun tersedia dalam menghadapi pelukan, tidak seperti kompetisi kompetisi kompetisi Cina R1, yang tersedia, dan tersedia Di bawah Lisensi Massachusetts Institute of Technology.

Kami menantikan Hermes 4

Deephermes-3 dikembangkan oleh Teknium, Emozilla, @gummed Gummy Bee, @hjc-puro dan jsupha, dengan penelitian nous yang dikaitkan dengan sumber terbuka kontribusi untuk set data, evaluasi dan alat pelatihan yang khas.

Nous Research percaya bahwa model pratinjau ini adalah langkah -dengan batu, Hermes 4, yang diharapkan dapat meningkatkan pemikiran dan percakapannya.


Tautan sumber

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini