الذكاء الاصطناعي x العملات الرقمية: من الصفر إلى القمة
المقدمة
يعتبر بعض الأشخاص أن التطورات الأخيرة في صناعة الذكاء الاصطناعي هي الثورة الصناعية الرابعة. لقد أدى ظهور النماذج الكبيرة إلى تحسين كفاءة مختلف الصناعات بشكل ملحوظ، حيث تشير الأبحاث إلى أن GPT قد زاد من كفاءة العمل في الولايات المتحدة بحوالي 20%. في الوقت نفسه، تعتبر القدرة على التعميم التي جلبتها النماذج الكبيرة نمط تصميم برمجي جديد، مقارنةً بتصميم الشيفرات الدقيقة في الماضي، حيث أصبحت تصميمات البرمجيات الحالية تدمج إطار النماذج الكبيرة التعميمية، مما يجعل هذه البرمجيات تتمتع بأداء أفضل وتدعم مدخلات ومخرجات نمطية أوسع. لقد جلبت تقنيات التعلم العميق بالفعل جولة جديدة من الازدهار لصناعة الذكاء الاصطناعي، وقد امتدت هذه الموجة إلى صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطوير صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وكذلك تأثير تكنولوجيا التعلم العميق على الصناعة. ثم سيتم تحليل شامل لسلسلة التوريد العليا والدنيا في التعلم العميق بما في ذلك وحدات معالجة الرسوميات، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية، بالإضافة إلى الوضع الحالي والاتجاهات. بعد ذلك، سنناقش بالتفصيل العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، وسنقوم بتوضيح هيكل سلسلة التوريد المتعلقة بالذكاء الاصطناعي للعملات المشفرة.
بدأت صناعة الذكاء الاصطناعي في خمسينيات القرن الماضي، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة وفي سياقات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "التعلم الآلي"، حيث تتمثل فكرة هذه التقنية في السماح للآلات بتحسين أداء النظام من خلال التكرار المتكرر في المهام اعتمادًا على البيانات. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد ثلاث مدارس رئيسية في تعلم الآلة حاليًا، وهي الاتصاليات، الرمزية، والسلوكية، التي تحاكي على التوالي النظام العصبي البشري، والتفكير، والسلوك.
حاليًا، تهيمن الشبكات العصبية، التي تمثلها النظرية الترابطية، على الساحة، وتُعرف أيضًا بالتعلم العميق، والسبب الرئيسي هو أن هذا الهيكل يحتوي على طبقة إدخال وطبقة إخراج، لكن به عدة طبقات مخفية. بمجرد أن تصبح عدد الطبقات وعدد الخلايا العصبية كافياً، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وفي النهاية، بعد المرور عبر العديد من البيانات، ستصل هذه الخلايا العصبية إلى حالة مثالية من المعلمات، وهذا ما يُعرف بـ "القوة العظيمة تؤدي إلى معجزات"، وهذا هو أصل كلمة "عميق" - عدد كافٍ من الطبقات والخلايا العصبية.
استناداً إلى تقنية التعلم العميق المعتمدة على الشبكات العصبية، هناك أيضاً العديد من التكرارات والتطورات التقنية، مثل الشبكات العصبية المبكرة، الشبكات العصبية ذات التغذية الأمامية، RNN، CNN، GAN، وأخيرًا التطور إلى النماذج الكبيرة الحديثة مثل GPT المستخدمة لتقنية Transformer، تقنية Transformer هي مجرد اتجاه تطوري من الشبكات العصبية، حيث تمت إضافة محول ( Transformer )، ليقوم بترميز جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية مناسبة لتمثيلها. ثم يتم إدخالها في الشبكة العصبية، بحيث يمكن للشبكة العصبية التكيف مع أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
مرت تطورات الذكاء الاصطناعي بثلاث موجات تكنولوجية، كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عشر سنوات من طرح تكنولوجيا الذكاء الاصطناعي، وقد نشأت هذه الموجة بسبب تطوير تكنولوجيا الرمزية، التي حلت مشكلات معالجة اللغة الطبيعية العامة وحوار الإنسان مع الآلة. في نفس الفترة، وُلدت أنظمة الخبراء، وهو نظام DENRAL الذي تم إنجازه تحت إشراف وكالة ناسا من جامعة ستانفورد، حيث يمتلك هذا النظام معرفة قوية في الكيمياء، ويستنتج الإجابات من خلال الأسئلة ليقدم إجابات مثل خبير الكيمياء، ويمكن اعتبار هذا النظام بمثابة دمج لمكتبة معرفية في الكيمياء ونظام استنتاج.
بعد نظام الخبراء، اقترح عالم وفيلسوف أمريكي من أصل إسرائيلي، جوديا بيرل)، في التسعينيات الشبكات البايزية، والمعروفة أيضًا بشبكات الاعتقاد. في نفس الفترة، اقترح بروكس الروبوتات القائمة على السلوك، مما يمثل ولادة السلوكية.
في عام 1997، هزم "بلو" من IBM بفضل نتيجة 3.5:2.5 بطل الشطرنج كاسباروف (Kasparov)، وقد اعتُبر هذا الانتصار معلمًا بارزًا في مجال الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة جديدة من التطور.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق يان ليكون وجيفري هينتون ويوشوا بنجيو مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجيًا، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هاتان الخوارزميتان هذه الموجة التقنية الثالثة، وكانت هذه أيضًا فترة ازدهار الترابطية.
ظهرت العديد من الأحداث البارزة جنبًا إلى جنب مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، تغلب IBM Watson( على البشر وحصل على البطولة في برنامج الاختبار "Jeopardy)".
في عام 2014، اقترح غودفيلو GAN( الشبكة التنافسية التوليدية، Generative Adversarial Network)، من خلال جعل شبكتين عصبيتين تتنافسان ضد بعضهما البعض أثناء التعلم، يمكنها توليد صور تبدو واقعية بشكل مذهل. في الوقت نفسه، كتب غودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية في مجال التعلم العميق.
في عام 2015، قدم هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار تقديم هذه الطريقة للتعلم العميق ردود فعل هائلة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وأعلن العديد من الشخصيات البارزة عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، المعتمدة على تقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج، لاعب الشطرنج المحترف من الدرجة التاسعة لي شيدش، وحققت الفوز بمجموع نقاط 4 مقابل 1.
في عام 2017، طورت شركة هانسون روبوتيكس (Hanson Robotics)، التي تتخذ من هونغ كونغ بالصين مقراً لها، الروبوت الشبيه بالبشر صوفيا، والذي يُعتبر أول روبوت يحصل على صفة المواطن من الدرجة الأولى في التاريخ، ويتميز بتعبيرات وجه غنية وقدرة على فهم اللغة البشرية.
في عام 2017، نشرت Google، التي تتمتع بموارد بشرية وتقنية غنية في مجال الذكاء الاصطناعي، ورقة بحثية بعنوان "الاهتمام هو كل ما تحتاجه"، مما أدى إلى ظهور نماذج لغوية كبيرة.
في عام 2018، أصدرت OpenAI نموذج GPT(Generative Pre-trained Transformer) المبني على خوارزمية Transformer، وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أطلق فريق Google Deepmind AlphaGo القائم على التعلم العميق، الذي قادر على التنبؤ بهياكل البروتين، ويعتبر علامة تقدم هائلة في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2 الذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طور OpenAI نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى بمقدار 100 مرة من الإصدار السابق GPT-2. تم تدريب هذا النموذج باستخدام 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات.
في عام 2021، أصدرت OpenAI نموذج GPT-4، الذي يحتوي على 1.76 تريليون معلمة، وهو 10 مرات من GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وفي مارس وصل عدد مستخدمي ChatGPT إلى مئة مليون، ليصبح التطبيق الأسرع في التاريخ للوصول إلى مئة مليون مستخدم.
تستخدم النماذج اللغوية الكبيرة الحالية طرق التعلم العميق القائمة على الشبكات العصبية. لقد أدت النماذج الكبيرة مثل GPT إلى موجة من الحماس للذكاء الاصطناعي، مما جذب عددًا كبيرًا من اللاعبين إلى هذا المجال. كما اكتشفنا أن السوق بحاجة كبيرة إلى البيانات وقدرات الحوسبة، لذا في هذا الجزء من التقرير، نستكشف بشكل أساسي سلسلة القيمة لخوارزميات التعلم العميق. في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، كيف تتكون السلسلة العليا والسفلى، وما هي حالة السلسلة العليا والسفلى من حيث العرض والطلب، وكيف ستكون التنمية المستقبلية.
أولاً، نحتاج إلى توضيح أنه أثناء تدريب النماذج الكبيرة القائمة على GPT التي تعتمد على تقنية Transformer(، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبما أنه يعتمد على Transformer، يحتاج المحول إلى تحويل إدخال النص إلى قيم عددية، وتسمى هذه العملية "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية بأنها Tokens. وفقًا للقواعد التجريبية العامة، يمكن اعتبار كلمة أو حرف إنجليزي تقريبًا كـ Token واحد، بينما يمكن اعتبار كل حرف صيني تقريبًا كـ Tokenين. هذه هي الوحدة الأساسية التي يستخدمها GPT في التسعير.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مشابهةً لما تم ذكره في الجزء الأول من التقرير )X,Y(، للبحث عن أفضل معلمات لكل خلية عصبية في النموذج، في هذه المرحلة تحتاج إلى كمية كبيرة من البيانات، وهذه العملية هي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا لخلايا عصبية لاختبار معلمات مختلفة. بعد الانتهاء من تدريب مجموعة من أزواج البيانات، عادةً ما يتم استخدام نفس مجموعة البيانات للتدريب الثاني لتكرار المعلمات.
الخطوة الثانية، التعديل الدقيق. التعديل الدقيق هو إعطاء مجموعة صغيرة ولكنها عالية الجودة من البيانات للتدريب، مثل هذا التغيير سيؤدي إلى جودة أعلى لمخرجات النموذج، لأن التدريب المسبق يتطلب كمية كبيرة من البيانات، لكن الكثير من هذه البيانات قد تحتوي على أخطاء أو جودة منخفضة. يمكن أن تعزز خطوة التعديل الدقيق جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، نسميه "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو تصنيف النتائج الناتجة. لذلك، سيكون إنشاء هذا النموذج بسيطًا نسبيًا، لأن سيناريو الأعمال عمودي للغاية. بعد ذلك، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير ذات جودة عالية، وهكذا يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ) ولكن في بعض الأحيان، من الضروري أيضًا مشاركة البشر لتقييم جودة مخرجات النموذج (
باختصار، في عملية تدريب النماذج الكبيرة، هناك حاجة عالية جداً لمقدار البيانات خلال مرحلة ما قبل التدريب، كما أن القوة الحاسوبية لوحدات معالجة الرسومات المطلوبة هي الأعلى، بينما يتطلب الضبط الدقيق بيانات عالية الجودة بشكل أكبر لتحسين المعلمات، ويمكن أن تتكرر التعزيزات من خلال نموذج مكافأة لتكرار المعلمات من أجل إنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم، على سبيل المثال، في مثال الدالة التي نطرحها، Y = aX + b، هناك في الواقع اثنان من الخلايا العصبية X و X0، وبالتالي فإن كيفية تغير المعلمات تحد من البيانات التي يمكن أن يتم ملاءمتها، لأن جوهرها لا يزال خطاً مستقيماً. إذا زاد عدد الخلايا العصبية، فسيكون بالإمكان تكرار المزيد من المعلمات، وبالتالي سيكون بالإمكان ملاءمة المزيد من البيانات، وهذا هو السبب في أن النماذج الكبيرة تحدث معجزات، وهذا أيضاً هو السبب في أن الاسم الشائع هو "النموذج الكبير"، حيث أن الجوهر هو عدد هائل من الخلايا العصبية والمعلمات، وعدد هائل من البيانات، بالإضافة إلى الحاجة إلى قوة حسابية هائلة.
لذا، فإن أداء النماذج الكبيرة يتحدد أساسًا من ثلاثة جوانب: عدد المعلمات، كمية وجودة البيانات، والقدرة الحسابية. هذه العناصر الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج وقدرته على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n) محسوبة بناءً على عدد الرموز (، يمكننا من خلال قاعدة الخبرة العامة حساب كمية الحساب المطلوبة، مما يتيح لنا تقدير كمية القدرة الحسابية التي نحتاج إلى شرائها تقريبًا ومدة التدريب.
تعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. تشير العمليات العائمة إلى الجمع والطرح والضرب والقسمة للأعداد غير الصحيحة، مثل 2.5 + 3.557. تشير العائمة إلى القدرة على استخدام الأرقام العشرية، بينما تمثل FP16 الدقة التي تدعم الأرقام العشرية، وFP32 هي دقة أكثر شيوعًا. وفقًا للقواعد التجريبية، عادةً ما يتطلب التدريب المسبق ) Pre-training ( مرة واحدة )، حيث يتم تدريب النماذج الكبيرة عدة مرات (، ويحتاج عمومًا إلى 6np Flops، حيث يُطلق على 6 اسم الثابت الصناعي. أما الاستدلال ) Inference، فهو العملية التي ندخل فيها بيانات ونتظر مخرجات النموذج الكبير (، والتي تنقسم إلى جزئين: إدخال n توكن، وإخراج n توكن، لذا نحتاج تقريبًا إلى 2np Flops.
في المراحل المبكرة، كان يتم استخدام شرائح CPU لتوفير دعم القدرة الحاسوبية للتدريب، ولكن بعد ذلك بدأ الاستخدام تدريجياً لشرائح GPU كبديل، مثل شرائح A100 وH100 من بعض الشركات. لأن CPU موجود كحساب عام، ولكن يمكن لـ GPU أن تعمل كحساب متخصص، حيث تتفوق على CPU بكثير من حيث كفاءة استهلاك الطاقة. تقوم GPU بإجراء العمليات العائمة بشكل رئيسي من خلال وحدة تسمى Tensor Core. لذلك، تحتوي الشرائح العامة على بيانات Flops بدقة FP16 / FP32.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
دمج الذكاء الاصطناعي مع الأصول الرقمية: تحليل شامل لسلسلة صناعة العمق
الذكاء الاصطناعي x العملات الرقمية: من الصفر إلى القمة
المقدمة
يعتبر بعض الأشخاص أن التطورات الأخيرة في صناعة الذكاء الاصطناعي هي الثورة الصناعية الرابعة. لقد أدى ظهور النماذج الكبيرة إلى تحسين كفاءة مختلف الصناعات بشكل ملحوظ، حيث تشير الأبحاث إلى أن GPT قد زاد من كفاءة العمل في الولايات المتحدة بحوالي 20%. في الوقت نفسه، تعتبر القدرة على التعميم التي جلبتها النماذج الكبيرة نمط تصميم برمجي جديد، مقارنةً بتصميم الشيفرات الدقيقة في الماضي، حيث أصبحت تصميمات البرمجيات الحالية تدمج إطار النماذج الكبيرة التعميمية، مما يجعل هذه البرمجيات تتمتع بأداء أفضل وتدعم مدخلات ومخرجات نمطية أوسع. لقد جلبت تقنيات التعلم العميق بالفعل جولة جديدة من الازدهار لصناعة الذكاء الاصطناعي، وقد امتدت هذه الموجة إلى صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطوير صناعة الذكاء الاصطناعي، وتصنيفات التكنولوجيا، وكذلك تأثير تكنولوجيا التعلم العميق على الصناعة. ثم سيتم تحليل شامل لسلسلة التوريد العليا والدنيا في التعلم العميق بما في ذلك وحدات معالجة الرسوميات، والحوسبة السحابية، ومصادر البيانات، والأجهزة الطرفية، بالإضافة إلى الوضع الحالي والاتجاهات. بعد ذلك، سنناقش بالتفصيل العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، وسنقوم بتوضيح هيكل سلسلة التوريد المتعلقة بالذكاء الاصطناعي للعملات المشفرة.
! علم الوافد الجديد 丨 الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
تاريخ تطور صناعة الذكاء الاصطناعي
بدأت صناعة الذكاء الاصطناعي في خمسينيات القرن الماضي، ومن أجل تحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة وفي سياقات علمية متنوعة العديد من المدارس لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل رئيسي مصطلح "التعلم الآلي"، حيث تتمثل فكرة هذه التقنية في السماح للآلات بتحسين أداء النظام من خلال التكرار المتكرر في المهام اعتمادًا على البيانات. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار نشر النموذج، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد ثلاث مدارس رئيسية في تعلم الآلة حاليًا، وهي الاتصاليات، الرمزية، والسلوكية، التي تحاكي على التوالي النظام العصبي البشري، والتفكير، والسلوك.
حاليًا، تهيمن الشبكات العصبية، التي تمثلها النظرية الترابطية، على الساحة، وتُعرف أيضًا بالتعلم العميق، والسبب الرئيسي هو أن هذا الهيكل يحتوي على طبقة إدخال وطبقة إخراج، لكن به عدة طبقات مخفية. بمجرد أن تصبح عدد الطبقات وعدد الخلايا العصبية كافياً، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الخلايا العصبية باستمرار، وفي النهاية، بعد المرور عبر العديد من البيانات، ستصل هذه الخلايا العصبية إلى حالة مثالية من المعلمات، وهذا ما يُعرف بـ "القوة العظيمة تؤدي إلى معجزات"، وهذا هو أصل كلمة "عميق" - عدد كافٍ من الطبقات والخلايا العصبية.
استناداً إلى تقنية التعلم العميق المعتمدة على الشبكات العصبية، هناك أيضاً العديد من التكرارات والتطورات التقنية، مثل الشبكات العصبية المبكرة، الشبكات العصبية ذات التغذية الأمامية، RNN، CNN، GAN، وأخيرًا التطور إلى النماذج الكبيرة الحديثة مثل GPT المستخدمة لتقنية Transformer، تقنية Transformer هي مجرد اتجاه تطوري من الشبكات العصبية، حيث تمت إضافة محول ( Transformer )، ليقوم بترميز جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم عددية مناسبة لتمثيلها. ثم يتم إدخالها في الشبكة العصبية، بحيث يمكن للشبكة العصبية التكيف مع أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
مرت تطورات الذكاء الاصطناعي بثلاث موجات تكنولوجية، كانت الموجة الأولى في الستينيات من القرن العشرين، بعد عشر سنوات من طرح تكنولوجيا الذكاء الاصطناعي، وقد نشأت هذه الموجة بسبب تطوير تكنولوجيا الرمزية، التي حلت مشكلات معالجة اللغة الطبيعية العامة وحوار الإنسان مع الآلة. في نفس الفترة، وُلدت أنظمة الخبراء، وهو نظام DENRAL الذي تم إنجازه تحت إشراف وكالة ناسا من جامعة ستانفورد، حيث يمتلك هذا النظام معرفة قوية في الكيمياء، ويستنتج الإجابات من خلال الأسئلة ليقدم إجابات مثل خبير الكيمياء، ويمكن اعتبار هذا النظام بمثابة دمج لمكتبة معرفية في الكيمياء ونظام استنتاج.
بعد نظام الخبراء، اقترح عالم وفيلسوف أمريكي من أصل إسرائيلي، جوديا بيرل)، في التسعينيات الشبكات البايزية، والمعروفة أيضًا بشبكات الاعتقاد. في نفس الفترة، اقترح بروكس الروبوتات القائمة على السلوك، مما يمثل ولادة السلوكية.
في عام 1997، هزم "بلو" من IBM بفضل نتيجة 3.5:2.5 بطل الشطرنج كاسباروف (Kasparov)، وقد اعتُبر هذا الانتصار معلمًا بارزًا في مجال الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة جديدة من التطور.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق يان ليكون وجيفري هينتون ويوشوا بنجيو مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجيًا، من RNN وGAN إلى Transformer وStable Diffusion، حيث شكلت هاتان الخوارزميتان هذه الموجة التقنية الثالثة، وكانت هذه أيضًا فترة ازدهار الترابطية.
ظهرت العديد من الأحداث البارزة جنبًا إلى جنب مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، تغلب IBM Watson( على البشر وحصل على البطولة في برنامج الاختبار "Jeopardy)".
في عام 2014، اقترح غودفيلو GAN( الشبكة التنافسية التوليدية، Generative Adversarial Network)، من خلال جعل شبكتين عصبيتين تتنافسان ضد بعضهما البعض أثناء التعلم، يمكنها توليد صور تبدو واقعية بشكل مذهل. في الوقت نفسه، كتب غودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية في مجال التعلم العميق.
في عام 2015، قدم هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار تقديم هذه الطريقة للتعلم العميق ردود فعل هائلة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، وأعلن العديد من الشخصيات البارزة عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، المعتمدة على تقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج، لاعب الشطرنج المحترف من الدرجة التاسعة لي شيدش، وحققت الفوز بمجموع نقاط 4 مقابل 1.
في عام 2017، طورت شركة هانسون روبوتيكس (Hanson Robotics)، التي تتخذ من هونغ كونغ بالصين مقراً لها، الروبوت الشبيه بالبشر صوفيا، والذي يُعتبر أول روبوت يحصل على صفة المواطن من الدرجة الأولى في التاريخ، ويتميز بتعبيرات وجه غنية وقدرة على فهم اللغة البشرية.
في عام 2017، نشرت Google، التي تتمتع بموارد بشرية وتقنية غنية في مجال الذكاء الاصطناعي، ورقة بحثية بعنوان "الاهتمام هو كل ما تحتاجه"، مما أدى إلى ظهور نماذج لغوية كبيرة.
في عام 2018، أصدرت OpenAI نموذج GPT(Generative Pre-trained Transformer) المبني على خوارزمية Transformer، وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أطلق فريق Google Deepmind AlphaGo القائم على التعلم العميق، الذي قادر على التنبؤ بهياكل البروتين، ويعتبر علامة تقدم هائلة في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2 الذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طور OpenAI نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، وهو أعلى بمقدار 100 مرة من الإصدار السابق GPT-2. تم تدريب هذا النموذج باستخدام 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات.
في عام 2021، أصدرت OpenAI نموذج GPT-4، الذي يحتوي على 1.76 تريليون معلمة، وهو 10 مرات من GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وفي مارس وصل عدد مستخدمي ChatGPT إلى مئة مليون، ليصبح التطبيق الأسرع في التاريخ للوصول إلى مئة مليون مستخدم.
في عام 2024، أطلقت OpenAI GPT-4 omni.
! علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
سلسلة صناعة التعلم العميق
تستخدم النماذج اللغوية الكبيرة الحالية طرق التعلم العميق القائمة على الشبكات العصبية. لقد أدت النماذج الكبيرة مثل GPT إلى موجة من الحماس للذكاء الاصطناعي، مما جذب عددًا كبيرًا من اللاعبين إلى هذا المجال. كما اكتشفنا أن السوق بحاجة كبيرة إلى البيانات وقدرات الحوسبة، لذا في هذا الجزء من التقرير، نستكشف بشكل أساسي سلسلة القيمة لخوارزميات التعلم العميق. في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، كيف تتكون السلسلة العليا والسفلى، وما هي حالة السلسلة العليا والسفلى من حيث العرض والطلب، وكيف ستكون التنمية المستقبلية.
أولاً، نحتاج إلى توضيح أنه أثناء تدريب النماذج الكبيرة القائمة على GPT التي تعتمد على تقنية Transformer(، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبما أنه يعتمد على Transformer، يحتاج المحول إلى تحويل إدخال النص إلى قيم عددية، وتسمى هذه العملية "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية بأنها Tokens. وفقًا للقواعد التجريبية العامة، يمكن اعتبار كلمة أو حرف إنجليزي تقريبًا كـ Token واحد، بينما يمكن اعتبار كل حرف صيني تقريبًا كـ Tokenين. هذه هي الوحدة الأساسية التي يستخدمها GPT في التسعير.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مشابهةً لما تم ذكره في الجزء الأول من التقرير )X,Y(، للبحث عن أفضل معلمات لكل خلية عصبية في النموذج، في هذه المرحلة تحتاج إلى كمية كبيرة من البيانات، وهذه العملية هي أيضًا الأكثر استهلاكًا للطاقة الحاسوبية، لأنها تتطلب تكرارًا متكررًا لخلايا عصبية لاختبار معلمات مختلفة. بعد الانتهاء من تدريب مجموعة من أزواج البيانات، عادةً ما يتم استخدام نفس مجموعة البيانات للتدريب الثاني لتكرار المعلمات.
الخطوة الثانية، التعديل الدقيق. التعديل الدقيق هو إعطاء مجموعة صغيرة ولكنها عالية الجودة من البيانات للتدريب، مثل هذا التغيير سيؤدي إلى جودة أعلى لمخرجات النموذج، لأن التدريب المسبق يتطلب كمية كبيرة من البيانات، لكن الكثير من هذه البيانات قد تحتوي على أخطاء أو جودة منخفضة. يمكن أن تعزز خطوة التعديل الدقيق جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، نسميه "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو تصنيف النتائج الناتجة. لذلك، سيكون إنشاء هذا النموذج بسيطًا نسبيًا، لأن سيناريو الأعمال عمودي للغاية. بعد ذلك، سيتم استخدام هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير ذات جودة عالية، وهكذا يمكن استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ) ولكن في بعض الأحيان، من الضروري أيضًا مشاركة البشر لتقييم جودة مخرجات النموذج (
باختصار، في عملية تدريب النماذج الكبيرة، هناك حاجة عالية جداً لمقدار البيانات خلال مرحلة ما قبل التدريب، كما أن القوة الحاسوبية لوحدات معالجة الرسومات المطلوبة هي الأعلى، بينما يتطلب الضبط الدقيق بيانات عالية الجودة بشكل أكبر لتحسين المعلمات، ويمكن أن تتكرر التعزيزات من خلال نموذج مكافأة لتكرار المعلمات من أجل إنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زاد عدد المعلمات، زادت قدرة النموذج على التعميم، على سبيل المثال، في مثال الدالة التي نطرحها، Y = aX + b، هناك في الواقع اثنان من الخلايا العصبية X و X0، وبالتالي فإن كيفية تغير المعلمات تحد من البيانات التي يمكن أن يتم ملاءمتها، لأن جوهرها لا يزال خطاً مستقيماً. إذا زاد عدد الخلايا العصبية، فسيكون بالإمكان تكرار المزيد من المعلمات، وبالتالي سيكون بالإمكان ملاءمة المزيد من البيانات، وهذا هو السبب في أن النماذج الكبيرة تحدث معجزات، وهذا أيضاً هو السبب في أن الاسم الشائع هو "النموذج الكبير"، حيث أن الجوهر هو عدد هائل من الخلايا العصبية والمعلمات، وعدد هائل من البيانات، بالإضافة إلى الحاجة إلى قوة حسابية هائلة.
لذا، فإن أداء النماذج الكبيرة يتحدد أساسًا من ثلاثة جوانب: عدد المعلمات، كمية وجودة البيانات، والقدرة الحسابية. هذه العناصر الثلاثة تؤثر بشكل مشترك على جودة نتائج النموذج وقدرته على التعميم. لنفترض أن عدد المعلمات هو p، وكمية البيانات هي n) محسوبة بناءً على عدد الرموز (، يمكننا من خلال قاعدة الخبرة العامة حساب كمية الحساب المطلوبة، مما يتيح لنا تقدير كمية القدرة الحسابية التي نحتاج إلى شرائها تقريبًا ومدة التدريب.
تعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. تشير العمليات العائمة إلى الجمع والطرح والضرب والقسمة للأعداد غير الصحيحة، مثل 2.5 + 3.557. تشير العائمة إلى القدرة على استخدام الأرقام العشرية، بينما تمثل FP16 الدقة التي تدعم الأرقام العشرية، وFP32 هي دقة أكثر شيوعًا. وفقًا للقواعد التجريبية، عادةً ما يتطلب التدريب المسبق ) Pre-training ( مرة واحدة )، حيث يتم تدريب النماذج الكبيرة عدة مرات (، ويحتاج عمومًا إلى 6np Flops، حيث يُطلق على 6 اسم الثابت الصناعي. أما الاستدلال ) Inference، فهو العملية التي ندخل فيها بيانات ونتظر مخرجات النموذج الكبير (، والتي تنقسم إلى جزئين: إدخال n توكن، وإخراج n توكن، لذا نحتاج تقريبًا إلى 2np Flops.
في المراحل المبكرة، كان يتم استخدام شرائح CPU لتوفير دعم القدرة الحاسوبية للتدريب، ولكن بعد ذلك بدأ الاستخدام تدريجياً لشرائح GPU كبديل، مثل شرائح A100 وH100 من بعض الشركات. لأن CPU موجود كحساب عام، ولكن يمكن لـ GPU أن تعمل كحساب متخصص، حيث تتفوق على CPU بكثير من حيث كفاءة استهلاك الطاقة. تقوم GPU بإجراء العمليات العائمة بشكل رئيسي من خلال وحدة تسمى Tensor Core. لذلك، تحتوي الشرائح العامة على بيانات Flops بدقة FP16 / FP32.