Глибокий пошук V3 оновлення моделі: 6850 мільярдів параметрів підтримують інновації Web3 та AI

2025-07-30 01:19:37

Оновлення моделі DeepSeek V3: Обчислювальна потужність та Алгоритм

Нещодавно DeepSeek випустив останню версію моделі V3 — DeepSeek-V3-0324, параметри моделі досягли 6850 мільярдів, з помітними покращеннями в кодових можливостях, дизайні інтерфейсу та можливостях інференції.

На нещодавньому завершеному конгресі GTC 2025 галузеві лідери високо оцінили DeepSeek. Він зазначив, що ринок раніше вважав, що ефективна модель DeepSeek зменшить попит на чіпи, але це було помилковим уявленням; в майбутньому попит на обчислювальну потужність тільки зростатиме, а не зменшуватиметься.

DeepSeek як представницький продукт алгоритмічного прориву викликав роздуми про роль обчислювальної потужності та алгоритмів у розвитку галузі у зв'язку з постачанням чіпів.

Обчислювальна потужність та еволюція алгоритмів у симбіозі

У сфері ШІ підвищення обчислювальної потужності забезпечує базу для виконання більш складних алгоритмів, що дозволяє моделям обробляти більші обсяги даних і вивчати більш складні шаблони; оптимізація алгоритмів, в свою чергу, дозволяє більш ефективно використовувати обчислювальну потужність, підвищуючи ефективність використання обчислювальних ресурсів.

Ця симбіотична взаємозв'язок перетворює ландшафт індустрії ШІ:

Диференціація технологічних шляхів: деякі компанії прагнуть створити надвеликий обчислювальний кластер, тоді як інші зосереджуються на оптимізації ефективності алгоритму, формуючи різні технологічні школи.
Перебудова промислової ланки: одна компанія з виробництва чіпів стала лідером у сфері обчислювальної потужності AI через екосистему, тоді як постачальники хмарних послуг знижують бар'єри для розгортання через гнучкі послуги обчислювальної потужності.
Коригування розподілу ресурсів: підприємства шукають баланс між інвестиціями в апаратну інфраструктуру та розробкою ефективних Алгоритмів.
Виникнення відкритих спільнот: відкриті моделі дозволяють ділитися результатами інновацій алгоритмів та оптимізації обчислювальної потужності, прискорюючи технічну ітерацію та поширення.

Технологічні інновації DeepSeek

Швидкий розвиток DeepSeek нерозривно пов'язаний з його технологічними інноваціями. Нижче наведено короткий опис його основних інновацій:

Оптимізація архітектури моделей

DeepSeek використовує комбінацію архітектур Transformer + MOE (Суміш експертів) та впроваджує механізм багатоголової латентної уваги (Multi-Head Latent Attention, MLA). Ця архітектура подібна до ефективної команди, де різні учасники виконують свої обов'язки, спільно підвищуючи ефективність та точність моделі.

Інновації в методах тренування

DeepSeek запропонував рамки тренування з змішаною точністю FP8. Ця рамка може динамічно налаштовувати обчислювальну точність відповідно до вимог тренування, забезпечуючи при цьому точність моделі, прискорюючи процес тренування та зменшуючи використання пам'яті.

Підвищення ефективності інференції

DeepSeek впровадила технологію багатотокенового прогнозування (Multi-token Prediction, MTP), яка дозволяє передбачати кілька токенів одночасно, значно підвищуючи швидкість виведення та знижуючи витрати на виведення.

Прорив алгоритму навчання з підкріпленням

Новий алгоритм глибокого навчання DeepSeek GRPO (Generalized Reward-Penalized Optimization) оптимізує процес навчання моделі, зберігаючи підвищення продуктивності при зменшенні непотрібних обчислень, досягаючи балансу між продуктивністю та витратами.

Ці інновації створили повну технологічну систему, яка від тренування до висновків всебічно знижує вимоги до обчислювальної потужності. Тепер звичайні споживчі відеокарти також можуть запускати потужні AI моделі, що значно знижує бар'єри для застосування AI.

Вплив на постачання чіпів

DeepSeek не повністю позбувся залежності від конкретних чіпів, а скористався шаром PTX (Parallel Thread Execution) для оптимізації алгоритму. Цей підхід з одного боку поглиблює зв'язок з апаратним забезпеченням та екосистемою, а з іншого може змінити структуру попиту на висококласні чіпи на ринку.

Значення для китайської індустрії ШІ

Оптимізація алгоритму DeepSeek забезпечила технологічний прорив для китайської AI-індустрії. На фоні обмеженого постачання високоякісних чіпів, підхід "програмне забезпечення замість апаратного" зменшив залежність від імпортних чіпів.

На верхньому рівні промисловості ефективні алгоритми знижують тиск на вимоги до обчислювальної потужності, дозволяючи постачальникам обчислювальної потужності подовжувати термін експлуатації апаратного забезпечення за рахунок програмного оптимізації. На нижньому рівні оптимізовані відкриті моделі знижують бар'єри для розробки AI-додатків, що дозволяє більшій кількості малих і середніх підприємств брати участь в інноваціях у сфері AI.

Глибокий вплив Web3+AI

Децентралізована AI інфраструктура

Технологічні інновації DeepSeek відкривають нові можливості для інфраструктури Web3 AI. Архітектура MoE підходить для розподіленого розгортання, а FP8 тренувальний фреймворк знижує потребу в висококласних обчислювальних ресурсах, що все сприяє побудові більш гнучкої та ефективної децентралізованої AI мережі.

Застосування багатозадачних систем

У сфері Web3 технологічні інновації DeepSeek можуть забезпечити такі застосування:

Оптимізація стратегій розумної торгівлі: завдяки спільній роботі кількох спеціалізованих агентів ШІ досягається більш точний аналіз ринку та виконання угод.
Автоматичне виконання смарт-контрактів: використання кількох AI-агентів для моніторингу та виконання смарт-контрактів, що дозволяє автоматизувати більш складну бізнес-логіку.
Персоналізоване управління інвестиційним портфелем: ШІ може в реальному часі оптимізувати інвестиційну стратегію відповідно до ризикових уподобань та інвестиційних цілей користувача.

DeepSeek через інновації в алгоритмах знаходить прориви в умовах обчислювальної потужності, відкриваючи для AI-індустрії диференційовані шляхи розвитку. Він знижує бар'єри для застосування, сприяє інтеграції Web3 та AI, зменшує залежність від високопродуктивних чіпів і відкриває нові можливості для фінансових інновацій. У майбутньому розвиток AI буде не лише змаганням за обчислювальну потужність, а змаганням за спільну оптимізацію обчислювальної потужності та алгоритмів. На цьому новому полі інноваційники знову визначають правила гри за допомогою своїх знань.

DEEPSEEK-3.78%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків