С ростом масштаба моделей искусственного интеллекта и вычислительных мощностей нарастает давно игнорируемая проблема — обеспечение данными. Структурные противоречия, с которыми сталкивается текущая AI-индустрия, больше не связаны с архитектурой моделей или вычислительной мощностью чипов, а заключаются в том, как преобразовать фрагментированные данные о человеческом поведении в проверяемые, структурированные и дружелюбные к AI ресурсы. Это понимание не только раскрывает текущие проблемы в развитии AI, но и рисует совершенно новую картину "финансовых данных (DataFi) эпохи" — в эту эпоху данные станут такими же измеримыми, подлежащими торговле и обладающими добавленной стоимостью, как электричество и вычислительная мощность.
От соревнования по вычислительной мощности к нехватке данных
Развитие ИИ долгое время двигалось вектором "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллионов до триллионов, а потребность в вычислительной мощности увеличилась в геометрической прогрессии. Стоимость обучения современного большого языкового модели уже превысила 100 миллионов долларов, из которых 90% уходит на аренду кластеров GPU. Однако, когда отрасль сосредоточена на "больших моделях" и "быстрых чипах", кризис на стороне поставки данных тихо надвигается.
"Органические данные", созданные человеком, достигли потолка роста. Например, в случае текстовых данных, общее количество доступных в интернете качественных текстов составляет около 10^12 слов, в то время как обучение модели с триллионом параметров требует примерно 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение только 10 моделей одинакового размера. Более того, доля дублирующихся данных и низкокачественного контента превышает 60%, что дополнительно сжимает эффективное предложение данных. Когда модель начинает "поглощать" данные, созданные ею самой, "загрязнение данных" приводит к деградации производительности моделей, что стало тревожной проблемой в отрасли.
Корень этого противоречия заключается в том, что индустрия ИИ долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", требующий тщательной разработки. Модели и вычислительная мощность уже сформировали зрелую рыночную систему, но производство, очистка, верификация и торговля данными все еще находятся в "диком состоянии". Эксперты отрасли подчеркивают: следующий десятилетие ИИ будет десятилетием "инфраструктуры данных", и данные на блокчейне криптосети являются ключом к разрешению этой проблемы.
Данные в блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют уникальную ценность. В отличие от традиционных интернет-данных, ончейн-данные обладают подлинностью "согласования стимулов" - каждая транзакция, каждое взаимодействие с контрактом, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "наиболее концентрированные данные о согласованных человеческих стимулах в Интернете", что проявляется в трех измерениях:
Реальные "сигналы намерения": данные на блокчейне фиксируют решения, принятые с использованием реальных денег, а не эмоциональные комментарии или случайные клики. Эти данные, "поддержанные капиталом", имеют высокую ценность для обучения способности принятия решений ИИ.
Отслеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции, взаимодействия по протоколам и изменения активов одного адреса кошелька формируют последовательную "цепочку действий". Эти структурированные данные о действиях являются наиболее дефицитными "образцами человеческого рассуждения" для текущих AI моделей.
Открытая экосистема "без разрешений": данные на блокчейне являются открытыми и не требуют разрешений, предоставляя "безбарьерный" источник данных для обучения моделей ИИ. Однако такая открытость также приносит вызовы: данные на блокчейне существуют в форме "журналов событий", которые необходимо очищать, стандартизировать и связывать, чтобы их могли использовать модели ИИ. В настоящее время "коэффициент структурной трансформации" данных на блокчейне составляет менее 5%, и множество высокоценных сигналов теряются среди миллиардов фрагментированных событий.
Суперданные сети: "операционная система" для данных на блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли была предложена концепция суперданных сети - "умной операционной системы на блокчейне", специально разработанной для ИИ. Основная цель заключается в преобразовании разрозненных сигналов блокчейна в структурированные, проверяемые, пригодные для комбинирования в реальном времени данные, удобные для ИИ. Включает в себя следующие компоненты:
Открытые стандарты данных: унификация определения и описания данных в блокчейне, чтобы модели ИИ могли без адаптации к различным цепочкам или протоколам данных непосредственно "понимать" бизнес-логику, стоящую за данными.
Механизм верификации данных: обеспечивается подлинность данных через механизм AVS(Active Validator Set) на базе Ethereum. Узлы-валидаторы проверяют целостность и точность данных в цепочке, решая проблему доверия традиционной централизованной верификации данных.
Уровень доступности данных с высокой пропускной способностью: обеспечивая реализацию обработки в реальном времени сотен тысяч цепочных событий в секунду за счет оптимизации алгоритмов сжатия данных и транспортных протоколов, удовлетворяя требованиям низкой задержки и высокой пропускной способности данных для приложений ИИ.
Эпоха DataFi: данные становятся торговым "капиталом"
Конечная цель суперданной сети состоит в том, чтобы продвинуть индустрию ИИ в эпоху DataFi - данные больше не являются пассивным "обучающим материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этой визии зависит от преобразования данных в четыре основные характеристики:
Структурирование: преобразование исходных данных блокчейна в структурированные данные, которые могут быть напрямую использованы AI-моделями.
Комбинируемость: структурированные данные можно свободно комбинировать, как кубики Лего, расширяя границы применения данных.
Проверяемо: гарантирует подлинность и прослеживаемость данных с помощью хэш-записей в блокчейне.
Монетизация: Поставщики данных могут напрямую конвертировать структурированные данные в денежные средства, создавая систему оценки стоимости данных.
В эпоху DataFi данные станут мостом между ИИ и реальным миром. Торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные приложения оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход за счет обмена данными. Как электрические сети стали катализатором промышленной революции, сети вычислительных мощностей стали катализатором интернет-революции, так и суперсетевые данные становятся катализатором "данных революции" ИИ.
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "умении" моделей, игнорируя "данные", которые поддерживают этот ум. Суперданные сети раскрывают одну ключевую истину: эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От "ограниченности" данных, генерируемых человеком, до "обнаружения ценности" данных на блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, эта концепция переосмысляет базовую логику индустрии ИИ.
Приложения следующего поколения на базе ИИ требуют не только моделей или кошельков, но и данных, которые не требуют доверия, программируемых и с высоким сигналом. Когда данные наконец-то получат должную ценность, ИИ сможет по-настоящему освободить силу, способную изменить мир.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
5
Поделиться
комментарий
0/400
ChainSpy
· 08-03 18:05
За какую цену бы ни продавали данные, я все равно куплю.
Посмотреть ОригиналОтветить0
FunGibleTom
· 08-03 18:01
Данные и конфиденциальность вот-вот взорвутся
Посмотреть ОригиналОтветить0
IntrovertMetaverse
· 08-03 17:57
Перейдем к оплате данных.
Посмотреть ОригиналОтветить0
AirDropMissed
· 08-03 17:51
Не дергайся, данных еще недостаточно, так что не дергайся.
Новая瓶颈 в AI-индустрии: данные в блокчейне становятся ключевым ресурсом, меняющим правила игры
Новые вызовы эпохи ИИ: данные становятся核心瓶颈
С ростом масштаба моделей искусственного интеллекта и вычислительных мощностей нарастает давно игнорируемая проблема — обеспечение данными. Структурные противоречия, с которыми сталкивается текущая AI-индустрия, больше не связаны с архитектурой моделей или вычислительной мощностью чипов, а заключаются в том, как преобразовать фрагментированные данные о человеческом поведении в проверяемые, структурированные и дружелюбные к AI ресурсы. Это понимание не только раскрывает текущие проблемы в развитии AI, но и рисует совершенно новую картину "финансовых данных (DataFi) эпохи" — в эту эпоху данные станут такими же измеримыми, подлежащими торговле и обладающими добавленной стоимостью, как электричество и вычислительная мощность.
От соревнования по вычислительной мощности к нехватке данных
Развитие ИИ долгое время двигалось вектором "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели выросли с миллионов до триллионов, а потребность в вычислительной мощности увеличилась в геометрической прогрессии. Стоимость обучения современного большого языкового модели уже превысила 100 миллионов долларов, из которых 90% уходит на аренду кластеров GPU. Однако, когда отрасль сосредоточена на "больших моделях" и "быстрых чипах", кризис на стороне поставки данных тихо надвигается.
"Органические данные", созданные человеком, достигли потолка роста. Например, в случае текстовых данных, общее количество доступных в интернете качественных текстов составляет около 10^12 слов, в то время как обучение модели с триллионом параметров требует примерно 10^13 слов данных. Это означает, что существующий пул данных может поддерживать обучение только 10 моделей одинакового размера. Более того, доля дублирующихся данных и низкокачественного контента превышает 60%, что дополнительно сжимает эффективное предложение данных. Когда модель начинает "поглощать" данные, созданные ею самой, "загрязнение данных" приводит к деградации производительности моделей, что стало тревожной проблемой в отрасли.
Корень этого противоречия заключается в том, что индустрия ИИ долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", требующий тщательной разработки. Модели и вычислительная мощность уже сформировали зрелую рыночную систему, но производство, очистка, верификация и торговля данными все еще находятся в "диком состоянии". Эксперты отрасли подчеркивают: следующий десятилетие ИИ будет десятилетием "инфраструктуры данных", и данные на блокчейне криптосети являются ключом к разрешению этой проблемы.
Данные в блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют уникальную ценность. В отличие от традиционных интернет-данных, ончейн-данные обладают подлинностью "согласования стимулов" - каждая транзакция, каждое взаимодействие с контрактом, каждое действие адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Эти данные определяются как "наиболее концентрированные данные о согласованных человеческих стимулах в Интернете", что проявляется в трех измерениях:
Реальные "сигналы намерения": данные на блокчейне фиксируют решения, принятые с использованием реальных денег, а не эмоциональные комментарии или случайные клики. Эти данные, "поддержанные капиталом", имеют высокую ценность для обучения способности принятия решений ИИ.
Отслеживаемая "цепочка действий": прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции, взаимодействия по протоколам и изменения активов одного адреса кошелька формируют последовательную "цепочку действий". Эти структурированные данные о действиях являются наиболее дефицитными "образцами человеческого рассуждения" для текущих AI моделей.
Открытая экосистема "без разрешений": данные на блокчейне являются открытыми и не требуют разрешений, предоставляя "безбарьерный" источник данных для обучения моделей ИИ. Однако такая открытость также приносит вызовы: данные на блокчейне существуют в форме "журналов событий", которые необходимо очищать, стандартизировать и связывать, чтобы их могли использовать модели ИИ. В настоящее время "коэффициент структурной трансформации" данных на блокчейне составляет менее 5%, и множество высокоценных сигналов теряются среди миллиардов фрагментированных событий.
Суперданные сети: "операционная система" для данных на блокчейне
Чтобы решить проблему фрагментации данных в блокчейне, в отрасли была предложена концепция суперданных сети - "умной операционной системы на блокчейне", специально разработанной для ИИ. Основная цель заключается в преобразовании разрозненных сигналов блокчейна в структурированные, проверяемые, пригодные для комбинирования в реальном времени данные, удобные для ИИ. Включает в себя следующие компоненты:
Открытые стандарты данных: унификация определения и описания данных в блокчейне, чтобы модели ИИ могли без адаптации к различным цепочкам или протоколам данных непосредственно "понимать" бизнес-логику, стоящую за данными.
Механизм верификации данных: обеспечивается подлинность данных через механизм AVS(Active Validator Set) на базе Ethereum. Узлы-валидаторы проверяют целостность и точность данных в цепочке, решая проблему доверия традиционной централизованной верификации данных.
Уровень доступности данных с высокой пропускной способностью: обеспечивая реализацию обработки в реальном времени сотен тысяч цепочных событий в секунду за счет оптимизации алгоритмов сжатия данных и транспортных протоколов, удовлетворяя требованиям низкой задержки и высокой пропускной способности данных для приложений ИИ.
Эпоха DataFi: данные становятся торговым "капиталом"
Конечная цель суперданной сети состоит в том, чтобы продвинуть индустрию ИИ в эпоху DataFi - данные больше не являются пассивным "обучающим материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать. Реализация этой визии зависит от преобразования данных в четыре основные характеристики:
Структурирование: преобразование исходных данных блокчейна в структурированные данные, которые могут быть напрямую использованы AI-моделями.
Комбинируемость: структурированные данные можно свободно комбинировать, как кубики Лего, расширяя границы применения данных.
Проверяемо: гарантирует подлинность и прослеживаемость данных с помощью хэш-записей в блокчейне.
Монетизация: Поставщики данных могут напрямую конвертировать структурированные данные в денежные средства, создавая систему оценки стоимости данных.
В эпоху DataFi данные станут мостом между ИИ и реальным миром. Торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные приложения оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход за счет обмена данными. Как электрические сети стали катализатором промышленной революции, сети вычислительных мощностей стали катализатором интернет-революции, так и суперсетевые данные становятся катализатором "данных революции" ИИ.
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "умении" моделей, игнорируя "данные", которые поддерживают этот ум. Суперданные сети раскрывают одну ключевую истину: эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От "ограниченности" данных, генерируемых человеком, до "обнаружения ценности" данных на блокчейне, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, эта концепция переосмысляет базовую логику индустрии ИИ.
Приложения следующего поколения на базе ИИ требуют не только моделей или кошельков, но и данных, которые не требуют доверия, программируемых и с высоким сигналом. Когда данные наконец-то получат должную ценность, ИИ сможет по-настоящему освободить силу, способную изменить мир.