Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, menurut penelitian yang menganggap GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru; dibandingkan dengan desain kode yang tepat di masa lalu, desain perangkat lunak saat ini lebih banyak mengintegrasikan kerangka model besar yang digeneralisasi ke dalam perangkat lunak, yang mampu memberikan kinerja yang lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa gelombang kemakmuran baru bagi industri AI, dan gelombang ini juga telah merambah ke industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta pengaruh teknologi pembelajaran mendalam terhadap industri. Kemudian, kita akan menganalisis secara mendalam rantai pasokan hulu dan hilir dari pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, perangkat tepi, serta keadaan dan tren perkembangannya. Selanjutnya, kita akan membahas secara mendalam hubungan antara cryptocurrency dan industri AI, serta menyusun pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri dalam berbagai era dan latar belakang disiplin ilmu yang berbeda, telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana filosofi teknologi ini adalah untuk memungkinkan mesin belajar dari data dengan berulang kali melakukan iterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirim data ke algoritma, menggunakan data ini untuk melatih model, menguji model yang diterapkan, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah bahwa arsitektur ini memiliki satu lapisan input dan satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Ketika jumlah lapisan dan neuron ( serta parameter ) cukup banyak, maka ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut dengan "kerja keras menghasilkan keajaiban", dan ini juga merupakan asal usul dari kata "dalam" - cukup banyak lapisan dan neuron.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, seperti jaringan saraf awal, jaringan saraf feedforward, RNN, CNN, GAN yang akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikannya. Kemudian nilai tersebut dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, satu dekade setelah teknologi AI diajukan. Gelombang ini dipicu oleh perkembangan teknologi simbolisme, yang menyelesaikan masalah pemrosesan bahasa alami yang umum dan dialog antara manusia dan mesin. Pada waktu yang sama, sistem pakar lahir, yang merupakan sistem pakar DENRAL yang diselesaikan di bawah pengawasan Universitas Stanford dan NASA. Sistem ini memiliki pengetahuan kimia yang sangat kuat, dan dapat melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama seperti pakar kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf Amerika keturunan Israel, Judea Pearl(, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Garry Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, memperkenalkan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi dari data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson ) dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy" (.
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Generatif Adversarial, Generative Adversarial Network(, yang dapat menghasilkan foto-foto yang tampak nyata dengan cara membiarkan dua jaringan saraf berkompetisi satu sama lain dalam proses pembelajaran. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, beberapa tokoh terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, perusahaan teknologi robotika Hanson Robotics ) yang berbasis di Hong Kong, Cina, mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang memperoleh status warga negara kelas satu, dengan kemampuan ekspresi wajah yang kaya serta pemahaman bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah "Attention is all you need" yang mengusulkan algoritma Transformer, dan model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind meluncurkan AlphaGo yang berbasis pembelajaran mendalam, mampu memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja mutakhir dalam berbagai tugas pemrosesan bahasa alami ( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel ).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dipimpin oleh GPT, model besar ini menciptakan gelombang tren kecerdasan buatan, dengan banyak pemain yang masuk ke jalur ini. Kami juga menemukan bahwa pasar mengalami ledakan besar dalam permintaan data dan daya komputasi. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana hulu dan hilirnya terbentuk, serta bagaimana kondisi dan hubungan penawaran dan permintaan hilir dan hulu tersebut, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita jelas adalah bahwa dalam melakukan pelatihan model besar LLM berbasis GPT yang dipimpin oleh teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sedangkan setiap karakter Han dapat dianggap secara kasar sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di model ini, saat ini membutuhkan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, umumnya akan menggunakan batch data yang sama untuk pelatihan ulang guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data, tetapi dengan kualitas yang sangat tinggi, untuk melatih, perubahan semacam ini akan meningkatkan kualitas output model, karena pra-pelatihan memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun model baru yang kita sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga paling banyak, sedangkan penyesuaian memerlukan data yang berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter yang ada, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya tetap merupakan garis lurus. Jika jumlah neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Inilah alasan mengapa model besar bisa menghasilkan keajaiban, dan ini juga mengapa istilah model besar digunakan, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, yang sekaligus memerlukan daya komputasi yang besar.
Oleh karena itu, pengaruh kinerja model besar ditentukan oleh tiga aspek utama: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan umum, sehingga kita dapat memperkirakan kondisi daya komputasi yang perlu kita beli dan waktu pelatihan yang diperlukan.
Kekuatan komputasi biasanya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian angka non-integer, seperti 2.5+3.557, di mana floating point menunjukkan angka yang dapat memiliki desimal. FP16 mewakili presisi yang mendukung desimal, sedangkan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis, pre-training ) Pre-traning ( satu ) biasanya akan dilatih beberapa kali ( model besar, yang memerlukan sekitar 6np Flops, di mana 6 disebut sebagai konstanta industri. Sedangkan inference ) Inference, adalah proses di mana kita memasukkan data dan menunggu output dari model besar (, dibagi menjadi dua bagian, memasukkan n token, dan mengeluarkan n token, sehingga secara total memerlukan sekitar 2np Flops.
Pada awalnya, pelatihan dilakukan dengan menggunakan chip CPU untuk memberikan dukungan daya komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai pengganti, seperti chip A100, H100 dari beberapa perusahaan. Karena CPU berfungsi sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, dalam hal efisiensi konsumsi daya jauh melebihi CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core. Oleh karena itu, chip umum memiliki data Flops pada akurasi FP16 / FP32, ini
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Integrasi AI dan Aset Kripto: Analisis Panorama Rantai Industri Pembelajaran Mendalam
AI x Crypto: dari nol ke puncak
Pendahuluan
Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh sebagian orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, menurut penelitian yang menganggap GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Sementara itu, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru; dibandingkan dengan desain kode yang tepat di masa lalu, desain perangkat lunak saat ini lebih banyak mengintegrasikan kerangka model besar yang digeneralisasi ke dalam perangkat lunak, yang mampu memberikan kinerja yang lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa gelombang kemakmuran baru bagi industri AI, dan gelombang ini juga telah merambah ke industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta pengaruh teknologi pembelajaran mendalam terhadap industri. Kemudian, kita akan menganalisis secara mendalam rantai pasokan hulu dan hilir dari pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, perangkat tepi, serta keadaan dan tren perkembangannya. Selanjutnya, kita akan membahas secara mendalam hubungan antara cryptocurrency dan industri AI, serta menyusun pola rantai industri AI yang terkait dengan cryptocurrency.
Sejarah Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri dalam berbagai era dan latar belakang disiplin ilmu yang berbeda, telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana filosofi teknologi ini adalah untuk memungkinkan mesin belajar dari data dengan berulang kali melakukan iterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirim data ke algoritma, menggunakan data ini untuk melatih model, menguji model yang diterapkan, dan menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah bahwa arsitektur ini memiliki satu lapisan input dan satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Ketika jumlah lapisan dan neuron ( serta parameter ) cukup banyak, maka ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang disebut dengan "kerja keras menghasilkan keajaiban", dan ini juga merupakan asal usul dari kata "dalam" - cukup banyak lapisan dan neuron.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknologi, seperti jaringan saraf awal, jaringan saraf feedforward, RNN, CNN, GAN yang akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikannya. Kemudian nilai tersebut dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, satu dekade setelah teknologi AI diajukan. Gelombang ini dipicu oleh perkembangan teknologi simbolisme, yang menyelesaikan masalah pemrosesan bahasa alami yang umum dan dialog antara manusia dan mesin. Pada waktu yang sama, sistem pakar lahir, yang merupakan sistem pakar DENRAL yang diselesaikan di bawah pengawasan Universitas Stanford dan NASA. Sistem ini memiliki pengetahuan kimia yang sangat kuat, dan dapat melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang sama seperti pakar kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf Amerika keturunan Israel, Judea Pearl(, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan kepercayaan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Garry Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, memperkenalkan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk belajar representasi dari data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson ) dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy" (.
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Generatif Adversarial, Generative Adversarial Network(, yang dapat menghasilkan foto-foto yang tampak nyata dengan cara membiarkan dua jaringan saraf berkompetisi satu sama lain dalam proses pembelajaran. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam di majalah "Nature", yang segera memicu reaksi besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, beberapa tokoh terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4-1.
Pada tahun 2017, perusahaan teknologi robotika Hanson Robotics ) yang berbasis di Hong Kong, Cina, mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang memperoleh status warga negara kelas satu, dengan kemampuan ekspresi wajah yang kaya serta pemahaman bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah "Attention is all you need" yang mengusulkan algoritma Transformer, dan model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI merilis GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind meluncurkan AlphaGo yang berbasis pembelajaran mendalam, mampu memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja mutakhir dalam berbagai tugas pemrosesan bahasa alami ( seperti menjawab pertanyaan, menerjemahkan, dan menulis artikel ).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dipimpin oleh GPT, model besar ini menciptakan gelombang tren kecerdasan buatan, dengan banyak pemain yang masuk ke jalur ini. Kami juga menemukan bahwa pasar mengalami ledakan besar dalam permintaan data dan daya komputasi. Oleh karena itu, dalam bagian laporan ini, kami terutama menjelajahi rantai industri algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana hulu dan hilirnya terbentuk, serta bagaimana kondisi dan hubungan penawaran dan permintaan hilir dan hulu tersebut, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita jelas adalah bahwa dalam melakukan pelatihan model besar LLM berbasis GPT yang dipimpin oleh teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat dianggap sebagai satu Token, sedangkan setiap karakter Han dapat dianggap secara kasar sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di model ini, saat ini membutuhkan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, umumnya akan menggunakan batch data yang sama untuk pelatihan ulang guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data, tetapi dengan kualitas yang sangat tinggi, untuk melatih, perubahan semacam ini akan meningkatkan kualitas output model, karena pra-pelatihan memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun model baru yang kita sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga paling banyak, sedangkan penyesuaian memerlukan data yang berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter yang ada, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya tetap merupakan garis lurus. Jika jumlah neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Inilah alasan mengapa model besar bisa menghasilkan keajaiban, dan ini juga mengapa istilah model besar digunakan, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, yang sekaligus memerlukan daya komputasi yang besar.
Oleh karena itu, pengaruh kinerja model besar ditentukan oleh tiga aspek utama: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan umum, sehingga kita dapat memperkirakan kondisi daya komputasi yang perlu kita beli dan waktu pelatihan yang diperlukan.
Kekuatan komputasi biasanya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian angka non-integer, seperti 2.5+3.557, di mana floating point menunjukkan angka yang dapat memiliki desimal. FP16 mewakili presisi yang mendukung desimal, sedangkan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis, pre-training ) Pre-traning ( satu ) biasanya akan dilatih beberapa kali ( model besar, yang memerlukan sekitar 6np Flops, di mana 6 disebut sebagai konstanta industri. Sedangkan inference ) Inference, adalah proses di mana kita memasukkan data dan menunggu output dari model besar (, dibagi menjadi dua bagian, memasukkan n token, dan mengeluarkan n token, sehingga secara total memerlukan sekitar 2np Flops.
Pada awalnya, pelatihan dilakukan dengan menggunakan chip CPU untuk memberikan dukungan daya komputasi, tetapi kemudian mulai secara bertahap menggunakan GPU sebagai pengganti, seperti chip A100, H100 dari beberapa perusahaan. Karena CPU berfungsi sebagai komputasi umum, tetapi GPU dapat berfungsi sebagai komputasi khusus, dalam hal efisiensi konsumsi daya jauh melebihi CPU. GPU menjalankan operasi floating point terutama melalui modul yang disebut Tensor Core. Oleh karena itu, chip umum memiliki data Flops pada akurasi FP16 / FP32, ini