Son zamanlarda yapay zeka endüstrisindeki gelişmeler, bazı insanlar tarafından Dördüncü Sanayi Devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı; araştırmalara göre GPT, Amerika'da yaklaşık %20'lik bir iş verimliliği artışı sağladı. Aynı zamanda, büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul ediliyor; geçmişteki hassas kod tasarımına kıyasla, günümüz yazılım tasarımı daha çok genelleştirilmiş büyük model çerçevelerinin yazılımlara entegre edilmesi üzerine kurulu. Bu yazılımlar, daha iyi performans sergileyebilir ve daha geniş modalitelerde giriş ve çıkışları destekleyebilir. Derin öğrenme teknolojisi gerçekten de AI endüstrisine yeni bir refah dalgası getirdi ve bu dalga kripto para endüstrisine de yayıldı.
Bu rapor, AI sektörünün gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin sektöre etkisini detaylı bir şekilde inceleyecektir. Ardından, derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını, ayrıca gelişim durumu ve eğilimlerini derinlemesine analiz edeceğiz. Daha sonra, özünde kripto para birimleri ile AI sektörü arasındaki ilişkiyi detaylı bir şekilde inceleyeceğiz ve kripto para birimleri ile ilgili AI endüstri zinciri yapısını ele alacağız.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllarda başlamış olup, yapay zeka vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplin arka planlarında pek çok yapay zeka akımı geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır. Bu teknolojinin temel prensibi, makinelerin verilere dayanarak görevlerde sürekli olarak yineleme yaparak sistemin performansını iyileştirmesidir. Temel adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcıcılık, sembolizm ve davranışçılık. Bu akımlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder.
Şu anda, sinir ağları gibi bağlayıcı yöntemler öne çıkmaktadır. ( derin öğrenme olarak da adlandırılmaktadır. Bunun başlıca nedeni, bu yapının bir girdi katmanı ve bir çıktı katmanı olmasına rağmen birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri modellemek için yeterli fırsat elde edilir. Veri girişi ile, nöronların parametreleri sürekli olarak ayarlanabilir. Sonuç olarak, birden fazla veri deneyimledikten sonra, nöron en iyi duruma ulaşacaktır. ) parametre (. Bu, "özgüvenle mucizeler yaratma" olarak adlandırılır ve bu, "derinlik" kelimesinin kaynağıdır - yeterince katman ve nöron sayısı.
Ve sinir ağlarına dayanan derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyon ve evrim geçirdi ve nihayet günümüz büyük modelleri gibi GPT'nin kullandığı Transformer teknolojisine evrildi. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür, bir dönüştürücü ekleyerek ) Transformer (, tüm modları ), ses, video, resim gibi ( verileri karşılık gelen sayılara kodlamak için kullanılır. Daha sonra bu veriler sinir ağlarına入力 edilir, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilir.
![Yeni başlayanlar için bilgilendirme丨AI x Crypto: Sıfırdan zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Yapay zekanın gelişimi üç teknolojik dalga geçirmiştir. İlk dalga 20. yüzyılın 60'lı yıllarında, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra meydana gelmiştir. Bu dalga, sembolist teknolojinin gelişimi ile ilişkili olup, genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözmüştür. Aynı dönemde, uzman sistemler doğmuştur. Bu, Stanford Üniversitesi'nin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir. Bu sistem, çok güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanı gibi yanıtlar üretmektedir. Bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin bir birleşimi olarak görülebilir.
Uzman sistemlerden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl ), inanç ağları olarak da bilinen Bayes ağını önerdi. Aynı dönemde, Brooks, davranışa dayalı robotik önerdi ve bu davranışçılığın doğuşunu işaret etti.
1997'de, IBM'in Deep Blue, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek (Kasparov), bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi, AI teknolojisi ikinci gelişim dalgasının zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağları mimarisine dayanan, verileri temsil öğrenimi için bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu, bağlantıcılığın altın çağıdır.
Birçok ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte giderek ortaya çıkmıştır, bunlar arasında:
2011 yılında, IBM'in Watson( Jeopardy) adlı bilgi yarışmasında insanları yenerek birinci oldu.
2014 yılında, Goodfellow GAN( Üretici Karşıtı Ağ, Generative Adversarial Network)'ı önerdi. Bu yöntem, iki sinir ağının karşılıklı olarak rekabet etmesi yoluyla öğrenim sağlayarak gerçek gibi sahte fotoğraflar üretebiliyor. Ayrıca, Goodfellow "Deep Learning" adlı bir kitap yazdı ve bu kitap derin öğrenme alanındaki önemli başlangıç kitaplarından biri olarak "Çiçek Kitabı" olarak adlandırılmaktadır.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmalarını önerdiler; bu derin öğrenme yönteminin ortaya çıkışı, akademik çevrelerde ve sanayide büyük yankı uyandırdı.
2015 yılında OpenAI kuruldu, birçok tanınmış kişi 1 milyar dolar ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insana karşı makine savaşına girdi ve toplamda 4-1'lik bir skorla kazandı.
2017 yılında, Hong Kong'daki Hanson Robotics şirketi (Hanson Robotics) tarafından geliştirilen Sophia adlı insansı robot, tarih boyunca birinci sınıf vatandaşlık elde eden ilk robot olarak adlandırılmaktadır ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin insan kaynağı ve teknik birikime sahip olan Google, "Attention is all you need" başlıklı bir makale yayınladı ve Transformer algoritmasını tanıttı; büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de, OpenAI, Transformer algoritmasına dayanan GPT( Generative Pre-trained Transformer)'ı yayınladı, bu, o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu tanıttı ve bu, proteinlerin yapı tahminini yapabilme yeteneğine sahip olup yapay zeka alanında büyük bir ilerleme olarak kabul edildi.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahiptir, bu da önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiştir ve çoklu NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) alanında en gelişmiş performansa ulaşabilir.
2021 yılında, OpenAI GPT-4'ü piyasaya sürdü, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarih boyunca en hızlı bir milyar kullanıcıya ulaşan uygulama oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, tamamen sinir ağı tabanlı derin öğrenme yöntemlerine dayanmaktadır. GPT'nin öncülük ettiği büyük modeller, yapay zeka alanında bir dalga yarattı ve birçok oyuncu bu sektöre akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patladığını gördük. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfedeceğiz. Derin öğrenme algoritmalarının yönettiği yapay zeka endüstrisinde, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın mevcut durumu ile arz-talep ilişkisi ve gelecekteki gelişimi nasıldır.
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplamda üç aşamaya ayrılmasıdır.
Eğitimden önce, Transformer'a dayandığı için, dönüştürücünün metin girdisini sayılara dönüştürmesi gerekir, bu işleme "Tokenization" denir, ardından bu sayılara Token denir. Genel deneysel kurallara göre, bir İngilizce kelime veya karakter kabaca bir Token olarak değerlendirilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu da GPT'nin fiyatlandırmada kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, model altında her bir nöronun en iyi parametrelerini bulmak için bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç, nöronların çeşitli parametreleri denemesi gerektiği için en fazla hesaplama gücü gerektiren süreçtir. Bir veri çiftiyle eğitim tamamlandıktan sonra, genellikle aynı veri kümesi kullanılarak parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok yüksek kaliteli verilerle bir modeli eğitmek anlamına gelir; bu tür bir değişiklik, modelin çıktısının kalitesini artırır, çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hata veya düşük kalitede olabilir. İnce ayar adımı, kaliteli veriler aracılığıyla modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit; çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolay olacak, çünkü iş senaryosu oldukça spesifik. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesi de gerekebilir ).
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verilerin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazlasıdır, oysa ince ayar yapmak, parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirme öğrenimi ise bir ödül modeli aracılığıyla parametreleri tekrar tekrar yineleyerek daha yüksek kaliteli sonuçlar üretir.
Eğitim sürecinde, parametre sayısı ne kadar fazla olursa, genelleme yeteneğinin tavanı da o kadar yüksek olur. Örneğin, Y = aX + b fonksiyonu örneğini ele alalım; burada aslında iki nöron vardır: X ve X0. Bu nedenle parametreler nasıl değişirse değişsin, uyum sağlayabileceği veri oldukça sınırlıdır, çünkü özünde hala bir doğru çizgisidir. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde yineleme yapabiliriz, bu da daha fazla veriyi uyum sağlamamıza olanak tanır. İşte bu nedenle büyük modellerin büyük mucizeler yarattığı söylenir ve bu da büyük model olarak adlandırılmasının nedenidir; özünde devasa nöronlar ve parametreler ile devasa veriler bulunur ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortaklaşa etkiler. Parametre sayısının p, veri miktarının n( Token sayısı ile hesaplandığını varsayalım), o zaman gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, böylece satın almamız gereken hesaplama gücü durumu ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir ve bu, bir kez yapılan kayan nokta işlemini temsil eder. Kayan nokta işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin 2.5+3.557. Kayan nokta, ondalık sayıları ifade edebilme yeteneğini temsil ederken, FP16 ondalık destekli bir hassasiyeti, FP32 ise genel olarak daha yaygın bir hassasiyeti temsil eder. Uygulama deneyimlerine göre, ön eğitim ( Ön Eğitim ) bir kez ( genellikle büyük modeller için birden fazla kez eğitilir, yaklaşık 6np Flops gerektirir; 6, sektördeki bir sabit olarak adlandırılır. Ve çıkarım ) Çıkarım, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir (, iki bölüme ayrılır: n adet token girişi ve n adet token çıktısı, bu nedenle toplamda yaklaşık 2np Flops gerektirir.
Erken dönemlerde, eğitim için CPU çipleri kullanılarak hesaplama gücü sağlanıyordu, ancak daha sonra bazı şirketlerin A100, H100 çipleri gibi GPU'ların kullanılmasına geçildi. Çünkü CPU genel hesaplama için var iken, GPU özel hesaplama olarak kullanılabiliyor ve enerji verimliliği açısından CPU'yu çok geride bırakıyor. GPU, kayan nokta işlemlerini esasen Tensor Core adı verilen bir modül aracılığıyla gerçekleştiriyor. Bu nedenle genel çipler FP16 / FP32 hassasiyetinde Flops verilerine sahiptir, bu.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Yapay Zeka ve Kripto Varlıkların Bütünleşmesi: Derinlik Öğrenme Endüstri Zinciri Panorama Analizi
AI x Crypto: Sıfırdan Zirveye
Giriş
Son zamanlarda yapay zeka endüstrisindeki gelişmeler, bazı insanlar tarafından Dördüncü Sanayi Devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı; araştırmalara göre GPT, Amerika'da yaklaşık %20'lik bir iş verimliliği artışı sağladı. Aynı zamanda, büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul ediliyor; geçmişteki hassas kod tasarımına kıyasla, günümüz yazılım tasarımı daha çok genelleştirilmiş büyük model çerçevelerinin yazılımlara entegre edilmesi üzerine kurulu. Bu yazılımlar, daha iyi performans sergileyebilir ve daha geniş modalitelerde giriş ve çıkışları destekleyebilir. Derin öğrenme teknolojisi gerçekten de AI endüstrisine yeni bir refah dalgası getirdi ve bu dalga kripto para endüstrisine de yayıldı.
Bu rapor, AI sektörünün gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin sektöre etkisini detaylı bir şekilde inceleyecektir. Ardından, derin öğrenmede GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını, ayrıca gelişim durumu ve eğilimlerini derinlemesine analiz edeceğiz. Daha sonra, özünde kripto para birimleri ile AI sektörü arasındaki ilişkiyi detaylı bir şekilde inceleyeceğiz ve kripto para birimleri ile ilgili AI endüstri zinciri yapısını ele alacağız.
AI sektörünün gelişim tarihi
Yapay zeka endüstrisi 1950'li yıllarda başlamış olup, yapay zeka vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplin arka planlarında pek çok yapay zeka akımı geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini kullanmaktadır. Bu teknolojinin temel prensibi, makinelerin verilere dayanarak görevlerde sürekli olarak yineleme yaparak sistemin performansını iyileştirmesidir. Temel adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcıcılık, sembolizm ve davranışçılık. Bu akımlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder.
Şu anda, sinir ağları gibi bağlayıcı yöntemler öne çıkmaktadır. ( derin öğrenme olarak da adlandırılmaktadır. Bunun başlıca nedeni, bu yapının bir girdi katmanı ve bir çıktı katmanı olmasına rağmen birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri modellemek için yeterli fırsat elde edilir. Veri girişi ile, nöronların parametreleri sürekli olarak ayarlanabilir. Sonuç olarak, birden fazla veri deneyimledikten sonra, nöron en iyi duruma ulaşacaktır. ) parametre (. Bu, "özgüvenle mucizeler yaratma" olarak adlandırılır ve bu, "derinlik" kelimesinin kaynağıdır - yeterince katman ve nöron sayısı.
Ve sinir ağlarına dayanan derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyon ve evrim geçirdi ve nihayet günümüz büyük modelleri gibi GPT'nin kullandığı Transformer teknolojisine evrildi. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür, bir dönüştürücü ekleyerek ) Transformer (, tüm modları ), ses, video, resim gibi ( verileri karşılık gelen sayılara kodlamak için kullanılır. Daha sonra bu veriler sinir ağlarına入力 edilir, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu gerçekleştirilir.
![Yeni başlayanlar için bilgilendirme丨AI x Crypto: Sıfırdan zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Yapay zekanın gelişimi üç teknolojik dalga geçirmiştir. İlk dalga 20. yüzyılın 60'lı yıllarında, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra meydana gelmiştir. Bu dalga, sembolist teknolojinin gelişimi ile ilişkili olup, genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözmüştür. Aynı dönemde, uzman sistemler doğmuştur. Bu, Stanford Üniversitesi'nin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir. Bu sistem, çok güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanı gibi yanıtlar üretmektedir. Bu kimya uzman sistemi, kimya bilgi tabanı ve çıkarım sisteminin bir birleşimi olarak görülebilir.
Uzman sistemlerden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl ), inanç ağları olarak da bilinen Bayes ağını önerdi. Aynı dönemde, Brooks, davranışa dayalı robotik önerdi ve bu davranışçılığın doğuşunu işaret etti.
1997'de, IBM'in Deep Blue, satranç şampiyonu Kasparov'u 3.5:2.5 yenerek (Kasparov), bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi, AI teknolojisi ikinci gelişim dalgasının zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağları mimarisine dayanan, verileri temsil öğrenimi için bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu, bağlantıcılığın altın çağıdır.
Birçok ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte giderek ortaya çıkmıştır, bunlar arasında:
2011 yılında, IBM'in Watson( Jeopardy) adlı bilgi yarışmasında insanları yenerek birinci oldu.
2014 yılında, Goodfellow GAN( Üretici Karşıtı Ağ, Generative Adversarial Network)'ı önerdi. Bu yöntem, iki sinir ağının karşılıklı olarak rekabet etmesi yoluyla öğrenim sağlayarak gerçek gibi sahte fotoğraflar üretebiliyor. Ayrıca, Goodfellow "Deep Learning" adlı bir kitap yazdı ve bu kitap derin öğrenme alanındaki önemli başlangıç kitaplarından biri olarak "Çiçek Kitabı" olarak adlandırılmaktadır.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmalarını önerdiler; bu derin öğrenme yönteminin ortaya çıkışı, akademik çevrelerde ve sanayide büyük yankı uyandırdı.
2015 yılında OpenAI kuruldu, birçok tanınmış kişi 1 milyar dolar ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insana karşı makine savaşına girdi ve toplamda 4-1'lik bir skorla kazandı.
2017 yılında, Hong Kong'daki Hanson Robotics şirketi (Hanson Robotics) tarafından geliştirilen Sophia adlı insansı robot, tarih boyunca birinci sınıf vatandaşlık elde eden ilk robot olarak adlandırılmaktadır ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin insan kaynağı ve teknik birikime sahip olan Google, "Attention is all you need" başlıklı bir makale yayınladı ve Transformer algoritmasını tanıttı; büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de, OpenAI, Transformer algoritmasına dayanan GPT( Generative Pre-trained Transformer)'ı yayınladı, bu, o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu tanıttı ve bu, proteinlerin yapı tahminini yapabilme yeteneğine sahip olup yapay zeka alanında büyük bir ilerleme olarak kabul edildi.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahiptir, bu da önceki versiyon GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiştir ve çoklu NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) alanında en gelişmiş performansa ulaşabilir.
2021 yılında, OpenAI GPT-4'ü piyasaya sürdü, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarih boyunca en hızlı bir milyar kullanıcıya ulaşan uygulama oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dilleri, tamamen sinir ağı tabanlı derin öğrenme yöntemlerine dayanmaktadır. GPT'nin öncülük ettiği büyük modeller, yapay zeka alanında bir dalga yarattı ve birçok oyuncu bu sektöre akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patladığını gördük. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfedeceğiz. Derin öğrenme algoritmalarının yönettiği yapay zeka endüstrisinde, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın mevcut durumu ile arz-talep ilişkisi ve gelecekteki gelişimi nasıldır.
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplamda üç aşamaya ayrılmasıdır.
Eğitimden önce, Transformer'a dayandığı için, dönüştürücünün metin girdisini sayılara dönüştürmesi gerekir, bu işleme "Tokenization" denir, ardından bu sayılara Token denir. Genel deneysel kurallara göre, bir İngilizce kelime veya karakter kabaca bir Token olarak değerlendirilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu da GPT'nin fiyatlandırmada kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, model altında her bir nöronun en iyi parametrelerini bulmak için bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç, nöronların çeşitli parametreleri denemesi gerektiği için en fazla hesaplama gücü gerektiren süreçtir. Bir veri çiftiyle eğitim tamamlandıktan sonra, genellikle aynı veri kümesi kullanılarak parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok yüksek kaliteli verilerle bir modeli eğitmek anlamına gelir; bu tür bir değişiklik, modelin çıktısının kalitesini artırır, çünkü ön eğitim büyük miktarda veriye ihtiyaç duyar, ancak birçok veri hata veya düşük kalitede olabilir. İnce ayar adımı, kaliteli veriler aracılığıyla modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit; çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolay olacak, çünkü iş senaryosu oldukça spesifik. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan müdahalesi de gerekebilir ).
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verilerin miktarı için çok yüksek taleplerde bulunur, gereken GPU hesaplama gücü de en fazlasıdır, oysa ince ayar yapmak, parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirme öğrenimi ise bir ödül modeli aracılığıyla parametreleri tekrar tekrar yineleyerek daha yüksek kaliteli sonuçlar üretir.
Eğitim sürecinde, parametre sayısı ne kadar fazla olursa, genelleme yeteneğinin tavanı da o kadar yüksek olur. Örneğin, Y = aX + b fonksiyonu örneğini ele alalım; burada aslında iki nöron vardır: X ve X0. Bu nedenle parametreler nasıl değişirse değişsin, uyum sağlayabileceği veri oldukça sınırlıdır, çünkü özünde hala bir doğru çizgisidir. Eğer nöron sayısı artarsa, daha fazla parametre üzerinde yineleme yapabiliriz, bu da daha fazla veriyi uyum sağlamamıza olanak tanır. İşte bu nedenle büyük modellerin büyük mucizeler yarattığı söylenir ve bu da büyük model olarak adlandırılmasının nedenidir; özünde devasa nöronlar ve parametreler ile devasa veriler bulunur ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortaklaşa etkiler. Parametre sayısının p, veri miktarının n( Token sayısı ile hesaplandığını varsayalım), o zaman gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz, böylece satın almamız gereken hesaplama gücü durumu ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir ve bu, bir kez yapılan kayan nokta işlemini temsil eder. Kayan nokta işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin 2.5+3.557. Kayan nokta, ondalık sayıları ifade edebilme yeteneğini temsil ederken, FP16 ondalık destekli bir hassasiyeti, FP32 ise genel olarak daha yaygın bir hassasiyeti temsil eder. Uygulama deneyimlerine göre, ön eğitim ( Ön Eğitim ) bir kez ( genellikle büyük modeller için birden fazla kez eğitilir, yaklaşık 6np Flops gerektirir; 6, sektördeki bir sabit olarak adlandırılır. Ve çıkarım ) Çıkarım, bir veri girdiğimiz ve büyük modelin çıktısını beklediğimiz süreçtir (, iki bölüme ayrılır: n adet token girişi ve n adet token çıktısı, bu nedenle toplamda yaklaşık 2np Flops gerektirir.
Erken dönemlerde, eğitim için CPU çipleri kullanılarak hesaplama gücü sağlanıyordu, ancak daha sonra bazı şirketlerin A100, H100 çipleri gibi GPU'ların kullanılmasına geçildi. Çünkü CPU genel hesaplama için var iken, GPU özel hesaplama olarak kullanılabiliyor ve enerji verimliliği açısından CPU'yu çok geride bırakıyor. GPU, kayan nokta işlemlerini esasen Tensor Core adı verilen bir modül aracılığıyla gerçekleştiriyor. Bu nedenle genel çipler FP16 / FP32 hassasiyetinde Flops verilerine sahiptir, bu.