Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Saat ini, setiap produk dan model kecerdasan buatan yang canggih menggunakan hampir struktur transformator. Big Linguistic Models (LLMS) seperti GPT-4O, Llama, Gemini dan Claud sebagai teknologi dasar mereka.

Dengan kebisingan di sekitar kecerdasan buatan, tidak mungkin melambat dalam waktu dekat, sekarang saatnya untuk memberikan transformer karena, dan untuk alasan ini saya ingin menjelaskan sedikit tentang bagaimana mereka bekerja, dan mengapa sangat penting bagi mereka Pertumbuhan solusi yang dapat dikembangkan dan mengapa mereka adalah tulang belakang LLMS.

Transformer lebih dari sekadar memenuhi mata

Singkatnya, transformator adalah struktur jaringan saraf yang dirancang untuk pemodelan urutan data, yang membuatnya ideal untuk tugas -tugas seperti terjemahan bahasa, penyelesaian kalimat, mengidentifikasi ucapan otomatis dan banyak lagi. Transformers benar -benar merupakan struktur dominan dari banyak tugas pemodelan urutan ini karena mekanisme perhatian dasar dapat dengan mudah diseimbangkan, memungkinkan ukuran yang sangat besar saat pelatihan dan inferensi.

Awalnya disajikan dalam makalah 2017, “Perhatian adalah semua yang Anda butuhkanDari para peneliti Google, transformator disajikan sebagai kode-kode enkripsi, dirancang khusus untuk menerjemahkan bahasa tersebut. Tahun berikutnya, Google merilis Transformers (Bert), yang dapat dianggap sebagai salah satu LLM pertama – meskipun sekarang kecil sesuai dengan standar hari ini.

Sejak itu – terutama percepatan dengan tampilan model GPT dari OpenAI – trennya adalah melatih model yang lebih besar dan lebih besar dengan lebih banyak data, lebih banyak parameter dan jendela konteks yang lebih lama.

Untuk memfasilitasi pengembangan ini, ada banyak inovasi seperti: perangkat GPU yang lebih maju dan program pelatihan GPU yang lebih baik; Teknik seperti pengukuran kuantitatif dan campuran ahli (MEE) untuk mengurangi konsumsi memori; Pelatihan baru yang ditingkatkan, seperti Shampoo dan Adamo; Teknik perhatian yang efisien, seperti Flashatten dan KV Cache. Tren ini kemungkinan akan berlanjut di masa mendatang.

Pentingnya Kemandirian dalam Transformers

Bergantung pada aplikasi, model transformator mengikuti pengkodean pengkodean enkripsi. Komponen enkripsi belajar untuk mewakili data yang kemudian dapat digunakan dalam tugas klinik seperti klasifikasi dan analisis emosional. Unit unit pengkodean mengambil konveyor atau representasi yang melekat dari teks atau gambar dan menggunakannya untuk membuat teks baru, yang membuatnya berguna untuk tugas -tugas seperti menyelesaikan kalimat dan meringkas. Untuk alasan ini, banyak model yang akrab dalam model terbaru, seperti keluarga GPT, hanya unit pengkodean.

Model enkripsi dan perintis menggabungkan dua komponen, membuatnya berguna untuk terjemahan dan tugas urutan lainnya. Untuk masing -masing struktur pengkodean dan pengkodean, komponen utama adalah lapisan perhatian, karena inilah yang memungkinkan model untuk menjaga konteks kata -kata yang muncul di awal teks.

Perhatian datang dalam rasa: diri sendiri dan akhir. Kemerdekaan diri digunakan untuk menangkap hubungan antara kata -kata dalam urutan yang sama, sementara pendaftaran timbal balik digunakan untuk menangkap hubungan antara kata -kata melalui dua seri yang berbeda. Crossbar menghubungkan komponen enkripsi dan pengkodean dalam model dan selama terjemahan. Misalnya, kata Inggris “Strawberry” diizinkan untuk terhubung dengan kata Prancis “Fraise”. Olahraga, baik pendaftaran diri dan penurunan timbal balik adalah bentuk yang berbeda dari reproduksi matriks, yang dapat dilakukan dengan sangat efisien menggunakan unit pemrosesan grafis.

Karena lapisan perhatian, transformer dapat menangkap hubungan yang lebih baik antara kata -kata yang dipisahkan oleh jumlah teks yang panjang, sementara kehilangan model sebelumnya seperti jaringan saraf berulang (RNN) dan model memori jangka panjang (LSTM) melacak konteks kata sebelumnya dalam teks .

Masa depan model

Saat ini, Transformers adalah arsitektur dominan dari banyak kasus penggunaan yang membutuhkan LLM dan manfaat dari sebagian besar penelitian dan pengembangan. Meskipun ini tampaknya tidak mungkin berubah dalam waktu dekat, kategori model yang berbeda yang baru -baru ini mendapatkan minat adalah model ruang negara (SSM) seperti Mamba. Algoritma yang sangat efisien ini dapat menangani urutan data yang sangat panjang, sedangkan transformator dibatasi oleh jendela konteks.

Bagi saya, aplikasi paling menarik untuk model transformator adalah model multimedia. Misalnya, GPT-4O Openai dapat menangani teks, suara dan gambar-dan mereka memulai penyedia lain untuk diikuti. Aplikasi multimedia sangat beragam, mulai dari komentar video hingga kloning suara hingga fragmentasi gambar (dan banyak lagi). Ini juga memberikan kesempatan untuk membuat kecerdasan buatan dalam jangkauan mereka yang cacat. Misalnya, orang yang sebagian besar buta dapat disajikan dengan kemampuan untuk berinteraksi melalui bahan suara dan suara untuk aplikasi multimedia.

Ini adalah ruang yang menarik dengan banyak kemampuan untuk mendeteksi kasus penggunaan baru. Tetapi ingat bahwa, setidaknya untuk masa mendatang, sebagian besar didukung oleh arsitektur transformator.

Terrence Alsup adalah dunia data besar Venastra.

DatadecisionMakers

Selamat datang di komunitas VentureBeat!

DatadecisionMakers adalah tempat di mana para ahli, termasuk teknisi yang membuat data, berbagi data, dan inovasi yang terkait dengan data.

Jika Anda ingin membaca tentang ide -ide canggih dan informasi modern, praktik terbaik, dan masa depan teknologi data dan teknologi data, bergabunglah dengan kami di DatadecisionMakers.

Anda bahkan mungkin berpikir tentang berkontribusi pada artikel Anda sendiri!

Baca lebih lanjut DatadecisionMakers


Tautan sumber

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini