Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Deepseek-R1 tentu saja telah menciptakan banyak kegembiraan dan kecemasan, terutama untuk lawan Opnai O1. Oleh karena itu, kami menempatkan mereka dalam tes dibandingkan dengan beberapa tugas analisis data kecil dan tugas riset pasar.
Untuk menempatkan model secara setara, kami menggunakan pencarian yang membingungkan untuk para profesional, yang sekarang mendukung O1 dan R1. Tujuan kami adalah untuk melihat melampaui standar dan mengetahui apakah model dapat benar -benar melakukan tugas -tugas khusus yang memerlukan pengumpulan informasi dari web, memilih bagian data yang tepat dan melakukan tugas -tugas sederhana yang memerlukan upaya manual yang hebat.
Kedua model itu mengesankan tetapi membuat kesalahan ketika klaim kurang privasi. O1 sedikit lebih baik dalam tugas berpikir, tetapi transparansi R1 memberikan keuntungan dalam kasus (dan akan ada beberapa) karena membuat kesalahan.
Di bawah ini adalah runtuhnya sejumlah kecil pengalaman dan tautan kami ke halaman kebingungan di mana Anda dapat meninjau hasilnya sendiri.
Hitung pengembalian investasi dari web
Tes pertama kami diukur apakah model dapat menghitung pengembalian investasi (ROI). Kami melihat skenario di mana pengguna menginvestasikan $ 140 di The Wonderful Seven (Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia, Tesla) pada hari pertama setiap bulan Januari hingga Desember 2024. Kami meminta formulir untuk menghitung nilai portofolio pada tanggal saat ini.
Untuk menyelesaikan tugas ini, model harus menarik informasi harga MAG 7 untuk hari pertama setiap bulan, dan membagi investasi bulanan secara merata melalui saham ($ 20 per saham), dan keindahannya dan menghitung nilai portofolio sesuai ke nilai saham pada tanggal saat ini.
Dalam tugas ini, kedua model gagal. O1 mengembalikan daftar harga saham Pada Januari 2024 dan Januari 2025 bersama dengan formula untuk menghitung nilai portofolio. Namun, saya gagal menghitung nilai yang benar dan mengatakan terutama bahwa tidak akan ada pengembalian investasi. Di sisi lain, R1 membuat kesalahan investasi hanya pada Januari 2024 dan menghitung pendapatan untuk Januari 2025.
Namun, yang menarik adalah proses berpikir tentang model. Sementara O1 belum memberikan banyak detail tentang bagaimana ia mencapai hasilnya, Logika R1 telah dilacak Dia menunjukkan bahwa dia tidak memiliki informasi yang benar karena mesin pengambilan dalam kebingungan gagal mendapatkan data stok bulanan (banyak aplikasi generasi yang dilengkapi tidak gagal karena kurangnya model dalam kemampuan tetapi karena pemulihan yang buruk). Ini telah terbukti menjadi bagian penting dari komentar yang membawa kami ke pengalaman berikutnya.
Pikirkan tentang konten file
Kami memutuskan untuk menjalankan pengalaman yang sama seperti sebelumnya, tetapi alih -alih menuntut model untuk memulihkan informasi dari web, kami memutuskan untuk menyediakannya dalam file teks. Untuk ini, kami menyalin data bulanan untuk setiap bagian Yahoo! Pendanaan dalam file teks dan memberikannya kepada model. File tersebut berisi nama masing -masing saham selain tabel HTML, yang berisi harga untuk hari pertama setiap bulan dari Januari hingga Desember 2024 dan harga terdaftar terakhir. Data belum dibersihkan untuk mengurangi tegangan manual dan menguji apakah model dapat memilih bagian yang tepat dari data.
Sekali lagi, kedua model gagal memberikan jawaban yang benar. Tampaknya O1 telah mengekstraksi data Dari file, tetapi sarankan secara manual melakukan akun dalam alat seperti Excel. Berpikir sangat misterius dan tidak memiliki informasi yang berguna untuk mengeksplorasi model. R1 juga gagal Itu tidak memberikan jawaban, tetapi pelacakan logika berisi banyak informasi yang berguna.
Sebagai contoh, jelas bahwa model tersebut telah menganalisis data HTML dengan benar untuk setiap stok dan dapat mengekstraksi informasi yang benar. Itu juga berhasil melakukan investasi selama sebulan secara terpisah, dan mempercantik dan menghitung nilai akhir sesuai dengan harga saham terbaru dalam tabel. Namun, nilai akhir ini tetap dalam rantai berpikir dan gagal mencapai jawaban akhir. Model ini juga bingung dengan barisan di grafik NVIDIA, yang ditandai oleh divisi 10: 1 saham perusahaan pada 10 Juni 2024, dan akhirnya memperkirakan nilai akhir dompet.
Sekali lagi, khas yang sebenarnya bukanlah hasil yang sama, tetapi kemampuan untuk menyelidiki bagaimana model mencapai responsnya. Dalam hal ini, R1 memberi kami pengalaman yang lebih baik, memungkinkan kami untuk memahami pembatasan model dan bagaimana kami dapat merumuskan kembali klaim kami dan mengoordinasikan data kami untuk mendapatkan hasil yang lebih baik di masa depan.
Perbandingan data web
Pengalaman lain yang kami butuhkan oleh model untuk membandingkan statistik empat posisi terkemuka di American Professional League dan untuk menentukan mana yang memiliki peningkatan terbaik dalam tujuan lapangan (FG %) dari 2022/2023 hingga musim 2023/2024. Tugas model ini membutuhkan pemikiran multi -step pada titik data yang berbeda. Memancing dalam klaim itu termasuk Victor dan Yumanama, yang baru saja memasuki liga sebagai lift pada tahun 2023.
Pemulihan klaim ini jauh lebih mudah, karena statistik pemain dilaporkan secara luas di internet dan biasanya termasuk dalam profil Wikipedia dan NBA. Kedua model menjawab dengan benar (itu Giannis jika Anda penasaran), meskipun mereka didasarkan pada sumber yang mereka gunakan, jumlah mereka agak berbeda. Namun, mereka tidak menyadari bahwa Wemby tidak memenuhi syarat untuk membandingkan dan mengumpulkan statistik lain pada waktunya di Liga Eropa.
Dalam jawabannya, R1 Itu membuat keruntuhan yang lebih baik Dari hasil dengan jadwal perbandingan bersama dengan tautan ke sumber yang ia gunakan untuk menjawabnya. Kami mengaktifkan konteks yang ditambahkan untuk memperbaiki klaim. Setelah kami memodifikasi klaim spesifik bahwa kami mencari FG % dari musim Liga Profesional Amerika, formulir Wemby dengan benar mengecualikan hasilnya.
Putusan terakhir
Model yang berpikir adalah alat yang kuat, tetapi mereka masih memiliki cara untuk pergi sebelum sepenuhnya dapat diandalkan dengan tugas, terutama karena komponen lain dari aplikasi model bahasa besar (LLM) terus berkembang. Dari pengalaman kami, baik O1 dan R1 masih dapat membuat kesalahan dasar. Meskipun menunjukkan hasil yang mengesankan, mereka masih membutuhkan sedikit tangan untuk memberikan hasil yang akurat.
Idealnya, model berpikir harus dapat menjelaskan pengguna ketika tidak memiliki informasi untuk tugas tersebut. Sebaliknya, melacak pemikiran dalam model harus dapat mengarahkan pengguna untuk lebih memahami kesalahan dan memperbaiki klaim mereka untuk meningkatkan akurasi dan stabilitas respons model. Dalam hal ini, R1 adalah unggul. Kami berharap dapat memberikan model berpikir di masa depan, termasuk serangkaian O33 OpenAI, untuk pengguna lebih banyak visi dan kontrol.