Нові виклики ери ШІ: дані стають основним вузьким місцем
Зі зростанням масштабу моделей штучного інтелекту та обчислювальної потужності, довгостроково ігнороване питання поступово виходить на поверхню - постачання даних. Структурна суперечність, з якою стикається нинішня індустрія ШІ, більше не є архітектурою моделей чи потужністю чіпів, а полягає в тому, як перетворити фрагментовані дані людської поведінки на перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не лише виявляє поточні труднощі розвитку ШІ, але й окреслює зовсім нову картину "даних фінансів (DataFi) епохи" - в цю епоху дані стануть такими ж вимірюваними, торгованими та такими, що підлягають збільшенню основними виробничими факторами, як електрика та обчислювальна потужність.
Від конкуренції потужностей до нестачі даних
Розвиток ШІ в довгостроковій перспективі керується подвійним двигуном "модель-обчислювальна потужність". З моменту революції глибокого навчання, параметри моделі зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. Вартість навчання передової великої мовної моделі перевищила 100 мільйонів доларів, при цьому 90% витрачається на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" і "швидших чіпах", криза на стороні постачання даних непомітно наближається.
Генеровані людиною "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальний обсяг високоякісних текстів, доступних в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з тисячі мільярдів параметрів потрібно близько 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання тільки 10 моделей однакового масштабу. Ще гірше, частка повторних даних і низькоякісного контенту перевищує 60%, що ще більше скорочує постачання ефективних даних. Коли модель починає "поглинати" дані, які вона сама ж генерує, "забруднення даних" призводить до деградації продуктивності моделі, що стало тривожним знаком для галузі.
Це протиріччя походить з того, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного вирощування. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему, але виробництво, очищення, валідація та обмін даними все ще перебувають на "дикому етапі". Експерти галузі підкреслюють: наступні десять років для ШІ будуть "десятиліттям інфраструктури даних", а дані на блокчейні крипто-мережі є ключем до розв'язання цієї проблеми.
Дані на ланцюгу: "База даних людської поведінки", найбільш необхідна AI
На фоні нестачі даних, онлайнові дані крипто-мережі демонструють унікальну цінність. На відміну від традиційних даних Інтернету, онлайнові дані природно мають "реальність стимулів" - кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначаються як "найконцентрованіші дані про людську поведінку, що узгоджується зі стимулом в Інтернеті", і виявляються в трьох вимірах:
Реальні "сигнали намірів": дані на блокчейні фіксують рішення, ухвалені за допомогою реальних грошей, а не емоційних коментарів або випадкових кліків. Ці "дані, підкріплені капіталом", мають надзвичайну цінність для навчання рішень штучного інтелекту.
Відстежуваних "ланцюгів дій": прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій, взаємодії за протоколом та зміни активів одного гаманця формують узгоджений "ланцюг дій". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для сучасних AI-моделей.
Відкрита екосистема "безліцензійного доступу": дані на блокчейні є відкритими та не потребують ліцензії, що забезпечує "безперешкодне" джерело даних для навчання AI моделей. Проте, ця відкритість також приносить виклики: дані на блокчейні існують у формі "журналів подій", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати AI моделями. Наразі "структурований коефіцієнт перетворення" даних на блокчейні становить менш ніж 5%, і велика кількість високоякісних сигналів закопана серед десятків мільярдів фрагментованих подій.
Супердані мережі: "операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, в індустрії було запропоновано концепцію суперданих мережі - "ланцюгової інтелектуальної операційної системи", спеціально розробленої для ШІ. Її основною метою є перетворення розподілених ланцюгових сигналів у структуровані, перевіряємi, в реальному часі комбіновані дані, дружні до ШІ. Основні компоненти включають:
Відкриті стандарти даних: уніфікація визначення та опису даних на ланцюгу, що забезпечує можливість AI-моделям без адаптації до різних форматів даних ланцюгів або протоколів "розуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечує достовірність даних через механізм AVS(Active Validator Set) на базі Ethereum. Верифікаційні вузли перевіряють цілісність і точність даних в ланцюзі, вирішуючи проблему довіри традиційної централізованої верифікації даних.
Високопродуктивний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних та протоколів передачі досягається обробка сотень тисяч онлайнових подій на секунду, що відповідає вимогам низької затримки та високої пропускної здатності для AI-додатків.
Era DataFi: Дані стають торгівельним "капіталом"
Кінцева мета суперданих мережі полягає в тому, щоб сприяти входженню AI-індустрії в епоху DataFi - дані більше не є пасивним "навчальним матеріалом", а активним "капіталом", який може бути оцінений, обміняний, збільшений в ціні. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структуровані: перетворення вихідних даних з блокчейну в структуровані дані, які можуть бути безпосередньо використані AI-моделями.
Можливість комбінації: структуровані дані можна вільно комбінувати, як конструктор LEGO, розширюючи межі застосування даних.
Можливість перевірки: за допомогою хеш-записів у блокчейні забезпечується справжність і відстежуваність даних.
Реалізація: постачальники даних можуть безпосередньо реалізувати структуровані дані, створюючи систему оцінки вартості даних.
У цю епоху DataFi дані стануть містком між ШІ та реальним світом. Торгові агенти сприймають ринкові настрої через дані в ланцюгу, автономні додатки оптимізують послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід шляхом обміну даними. Як електрична мережа сприяла промисловій революції, мережа обчислювальної потужності сприяла інтернет-революції, так і супермережа даних сприяє "революції даних" ШІ.
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальному рівні" моделей, нехтуючи "даними" , які підтримують цей інтелект. Супермережа даних розкриває одну ключову істину: еволюція ШІ по суті є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людиною, до "виявлення цінності" даних на ланцюгу, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовного ресурсу" до "капітального активу" DataFi, ця концепція перетворює основну логіку індустрії ШІ.
Наступне покоління нативних застосувань штучного інтелекту потребує не лише моделей або гаманців, а й даних, які не потребують довіри, є програмованими та мають високу значущість. Коли дані нарешті отримають належну цінність, штучний інтелект зможе по-справжньому вивільнити силу змінити світ.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
14 лайків
Нагородити
14
5
Поділіться
Прокоментувати
0/400
ChainSpy
· 08-03 18:05
Я куплю за будь-яку ціну, яку продають дані.
Переглянути оригіналвідповісти на0
FunGibleTom
· 08-03 18:01
Дані, приватність цього разу мають вибухнути
Переглянути оригіналвідповісти на0
IntrovertMetaverse
· 08-03 17:57
Швидко перейти до оплати даних
Переглянути оригіналвідповісти на0
AirDropMissed
· 08-03 17:51
Не крутить, якщо даних ще недостатньо, то не крутити.
Новий瓶颈 AI-індустрії: дані у блокчейні стають ключовим ресурсом, що змінює правила гри
Нові виклики ери ШІ: дані стають основним вузьким місцем
Зі зростанням масштабу моделей штучного інтелекту та обчислювальної потужності, довгостроково ігнороване питання поступово виходить на поверхню - постачання даних. Структурна суперечність, з якою стикається нинішня індустрія ШІ, більше не є архітектурою моделей чи потужністю чіпів, а полягає в тому, як перетворити фрагментовані дані людської поведінки на перевірні, структуровані, дружні до ШІ ресурси. Це усвідомлення не лише виявляє поточні труднощі розвитку ШІ, але й окреслює зовсім нову картину "даних фінансів (DataFi) епохи" - в цю епоху дані стануть такими ж вимірюваними, торгованими та такими, що підлягають збільшенню основними виробничими факторами, як електрика та обчислювальна потужність.
Від конкуренції потужностей до нестачі даних
Розвиток ШІ в довгостроковій перспективі керується подвійним двигуном "модель-обчислювальна потужність". З моменту революції глибокого навчання, параметри моделі зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. Вартість навчання передової великої мовної моделі перевищила 100 мільйонів доларів, при цьому 90% витрачається на оренду GPU-кластерів. Однак, коли галузь зосереджується на "більших моделях" і "швидших чіпах", криза на стороні постачання даних непомітно наближається.
Генеровані людиною "органічні дані" досягли стелі зростання. Наприклад, у випадку текстових даних, загальний обсяг високоякісних текстів, доступних в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з тисячі мільярдів параметрів потрібно близько 10^13 слів. Це означає, що існуючий пул даних може підтримувати навчання тільки 10 моделей однакового масштабу. Ще гірше, частка повторних даних і низькоякісного контенту перевищує 60%, що ще більше скорочує постачання ефективних даних. Коли модель починає "поглинати" дані, які вона сама ж генерує, "забруднення даних" призводить до деградації продуктивності моделі, що стало тривожним знаком для галузі.
Це протиріччя походить з того, що індустрія ШІ протягом тривалого часу розглядала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потребує ретельного вирощування. Моделі та обчислювальні потужності вже сформували зрілу ринкову систему, але виробництво, очищення, валідація та обмін даними все ще перебувають на "дикому етапі". Експерти галузі підкреслюють: наступні десять років для ШІ будуть "десятиліттям інфраструктури даних", а дані на блокчейні крипто-мережі є ключем до розв'язання цієї проблеми.
Дані на ланцюгу: "База даних людської поведінки", найбільш необхідна AI
На фоні нестачі даних, онлайнові дані крипто-мережі демонструють унікальну цінність. На відміну від традиційних даних Інтернету, онлайнові дані природно мають "реальність стимулів" - кожна транзакція, кожна взаємодія з контрактом, кожна дія адреси гаманця безпосередньо пов'язана з реальним капіталом і є незмінною. Ці дані визначаються як "найконцентрованіші дані про людську поведінку, що узгоджується зі стимулом в Інтернеті", і виявляються в трьох вимірах:
Реальні "сигнали намірів": дані на блокчейні фіксують рішення, ухвалені за допомогою реальних грошей, а не емоційних коментарів або випадкових кліків. Ці "дані, підкріплені капіталом", мають надзвичайну цінність для навчання рішень штучного інтелекту.
Відстежуваних "ланцюгів дій": прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій, взаємодії за протоколом та зміни активів одного гаманця формують узгоджений "ланцюг дій". Ці структуровані дані про поведінку є найбільш дефіцитними "зразками людського міркування" для сучасних AI-моделей.
Відкрита екосистема "безліцензійного доступу": дані на блокчейні є відкритими та не потребують ліцензії, що забезпечує "безперешкодне" джерело даних для навчання AI моделей. Проте, ця відкритість також приносить виклики: дані на блокчейні існують у формі "журналів подій", які потребують очищення, стандартизації та зв'язування, щоб їх можна було використовувати AI моделями. Наразі "структурований коефіцієнт перетворення" даних на блокчейні становить менш ніж 5%, і велика кількість високоякісних сигналів закопана серед десятків мільярдів фрагментованих подій.
Супердані мережі: "операційна система" для даних на блокчейні
Щоб вирішити проблему фрагментації даних в блокчейні, в індустрії було запропоновано концепцію суперданих мережі - "ланцюгової інтелектуальної операційної системи", спеціально розробленої для ШІ. Її основною метою є перетворення розподілених ланцюгових сигналів у структуровані, перевіряємi, в реальному часі комбіновані дані, дружні до ШІ. Основні компоненти включають:
Відкриті стандарти даних: уніфікація визначення та опису даних на ланцюгу, що забезпечує можливість AI-моделям без адаптації до різних форматів даних ланцюгів або протоколів "розуміти" бізнес-логіку, що стоїть за даними.
Механізм верифікації даних: забезпечує достовірність даних через механізм AVS(Active Validator Set) на базі Ethereum. Верифікаційні вузли перевіряють цілісність і точність даних в ланцюзі, вирішуючи проблему довіри традиційної централізованої верифікації даних.
Високопродуктивний шар доступності даних: шляхом оптимізації алгоритмів стиснення даних та протоколів передачі досягається обробка сотень тисяч онлайнових подій на секунду, що відповідає вимогам низької затримки та високої пропускної здатності для AI-додатків.
Era DataFi: Дані стають торгівельним "капіталом"
Кінцева мета суперданих мережі полягає в тому, щоб сприяти входженню AI-індустрії в епоху DataFi - дані більше не є пасивним "навчальним матеріалом", а активним "капіталом", який може бути оцінений, обміняний, збільшений в ціні. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:
Структуровані: перетворення вихідних даних з блокчейну в структуровані дані, які можуть бути безпосередньо використані AI-моделями.
Можливість комбінації: структуровані дані можна вільно комбінувати, як конструктор LEGO, розширюючи межі застосування даних.
Можливість перевірки: за допомогою хеш-записів у блокчейні забезпечується справжність і відстежуваність даних.
Реалізація: постачальники даних можуть безпосередньо реалізувати структуровані дані, створюючи систему оцінки вартості даних.
У цю епоху DataFi дані стануть містком між ШІ та реальним світом. Торгові агенти сприймають ринкові настрої через дані в ланцюгу, автономні додатки оптимізують послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід шляхом обміну даними. Як електрична мережа сприяла промисловій революції, мережа обчислювальної потужності сприяла інтернет-революції, так і супермережа даних сприяє "революції даних" ШІ.
Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальному рівні" моделей, нехтуючи "даними" , які підтримують цей інтелект. Супермережа даних розкриває одну ключову істину: еволюція ШІ по суті є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людиною, до "виявлення цінності" даних на ланцюгу, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовного ресурсу" до "капітального активу" DataFi, ця концепція перетворює основну логіку індустрії ШІ.
Наступне покоління нативних застосувань штучного інтелекту потребує не лише моделей або гаманців, а й даних, які не потребують довіри, є програмованими та мають високу значущість. Коли дані нарешті отримають належну цінність, штучний інтелект зможе по-справжньому вивільнити силу змінити світ.