Nouveaux défis à l'ère de l'IA : les données deviennent le goulot d'étranglement central
Avec la croissance rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, un problème longtemps négligé émerge progressivement : l'approvisionnement en données. Le paradoxe structurel auquel l'industrie de l'IA est confrontée n'est plus l'architecture des modèles ou la puissance de calcul des puces, mais plutôt comment transformer les données comportementales humaines fragmentées en ressources vérifiables, structurées et compatibles avec l'IA. Cette révélation non seulement met en lumière le dilemme actuel du développement de l'IA, mais esquisse également un tout nouveau tableau de "l'ère de la finance des données (DataFi)" - dans cette ère, les données deviendront, comme l'électricité et la puissance de calcul, des facteurs de production mesurables, échangeables et valorisables.
De la compétition de puissance de calcul à la pénurie de données
Le développement de l'IA a longtemps été propulsé par le double moteur "modèle-puissance de calcul". Depuis la révolution de l'apprentissage profond, les paramètres des modèles sont passés de millions à des billions, et la demande en puissance de calcul a augmenté de manière exponentielle. Le coût de la formation d'un modèle de langage avancé a déjà dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de clusters GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise silencieuse du côté de l'offre de données est en train d'émerger.
Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles : la quantité totale de textes de haute qualité disponibles publiquement sur Internet est d'environ 10^12 mots, tandis qu'un modèle de 100 milliards de paramètres nécessite environ 10^13 mots de données pour son entraînement. Cela signifie que le réservoir de données existant ne peut soutenir l'entraînement que de 10 modèles de taille égale. Plus grave encore, les données répétitives et le contenu de faible qualité représentent plus de 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à "ingérer" leurs propres données générées, la dégradation des performances des modèles due à la "pollution des données" est devenue une préoccupation dans l'industrie.
La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui doit être soigneusement cultivé. Les modèles et la puissance de calcul ont formé un système de marché mature, mais la production, le nettoyage, la validation et l'échange de données sont encore à l'ère "sauvage". Les experts du secteur soulignent que la prochaine décennie de l'IA sera celle des "infrastructures de données", et que les données on-chain des réseaux cryptographiques sont la clé pour déverrouiller cette impasse.
Données en chaîne : la "base de données sur le comportement humain" dont l'IA a le plus besoin
Dans le contexte d'une pénurie de données, les données on-chain des réseaux cryptographiques montrent une valeur unique. Par rapport aux données Internet traditionnelles, les données on-chain possèdent intrinsèquement la "véracité de l'alignement des incitations" - chaque transaction, chaque interaction de contrat, chaque comportement d'adresse de portefeuille est directement lié à un capital réel et est immuable. Ces données sont définies comme "les données sur les comportements d'alignement des incitations humaines les plus concentrées sur Internet", se manifestant à travers trois dimensions :
Signaux d'intention du monde réel : les données sur la chaîne enregistrent des comportements décisionnels votés avec de l'argent réel, et non des commentaires émotionnels ou des clics aléatoires. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour entraîner la capacité décisionnelle de l'IA.
Chaîne de "comportement" traçable : La transparence de la blockchain permet de retracer intégralement les comportements des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles d'interaction, et les variations d'actifs, constituent une "chaîne de comportement" cohérente. Ces données comportementales structurées sont précisément ce qui manque le plus aux modèles d'IA actuels en tant que "données d'inférence humaine".
Accès "sans permission" à un écosystème ouvert : les données on-chain sont ouvertes et sans permission, fournissant une source de données "sans barrières" pour l'entraînement des modèles d'IA. Cependant, cette ouverture pose également des défis : les données on-chain existent sous forme de "journaux d'événements", nécessitant un nettoyage, une normalisation et une association avant de pouvoir être utilisées par les modèles d'IA. Actuellement, le "taux de transformation des données structurées" on-chain est inférieur à 5 %, et une grande quantité de signaux de grande valeur est enterrée dans des milliards d'événements fragmentés.
Super Data Network : le "système d'exploitation" des données on-chain
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie a proposé le concept de réseau de données super - un "système d'exploitation intelligent sur la chaîne" conçu spécifiquement pour l'IA. Son objectif principal est de transformer des signaux dispersés sur la chaîne en données amicales pour l'IA, structurées, vérifiables et combinables en temps réel. Cela comprend principalement les composants suivants :
Normes de données ouvertes : unifier la définition et la manière de décrire les données sur la chaîne, garantir que les modèles d'IA n'ont pas besoin de s'adapter à différents formats de données de chaînes ou de protocoles, et comprennent directement la logique commerciale derrière les données.
Mécanisme de validation des données : assurer l'authenticité des données grâce au mécanisme AVS(Active Validator Set) d'Ethereum. Les nœuds validateurs vérifient l'intégrité et l'exactitude des données sur la chaîne, résolvant ainsi le problème de confiance des validations centralisées traditionnelles.
Couche de disponibilité des données à haut débit : en optimisant les algorithmes de compression des données et les protocoles de transmission, permettre le traitement en temps réel de centaines de milliers d'événements en chaîne par seconde, répondant aux besoins en données à faible latence et à haut débit des applications d'IA.
L'ère DataFi : les données deviennent un "capital" négociable
L'objectif ultime du super réseau de données est de propulser l'industrie de l'IA dans l'ère du DataFi - les données ne sont plus un "matériel d'entraînement" passif, mais un "capital" actif, pouvant être valorisé, échangé et enrichi. La réalisation de cette vision repose sur la transformation des données en quatre attributs clés :
Structuré : transformer les données brutes sur la chaîne en données structurées que le modèle d'IA peut appeler directement.
Combinable : les données structurées peuvent être combinées librement comme des blocs de Lego, élargissant ainsi les frontières d'application des données.
Vérifiable : Grâce aux enregistrements de hachage sur la blockchain, garantir l'authenticité et la traçabilité des données.
Monétisable : les fournisseurs de données peuvent monétiser directement les données structurées, formant ainsi un système d'évaluation de la valeur des données.
Dans cette ère de DataFi, les données deviennent le pont reliant l'IA au monde réel. Les agents de trading perçoivent le sentiment du marché à travers des données on-chain, les applications autonomes optimisent leurs services grâce aux données de comportement des utilisateurs, tandis que les utilisateurs ordinaires obtiennent des revenus continus en partageant des données. Tout comme le réseau électrique a engendré la révolution industrielle, le réseau de puissance de calcul a engendré la révolution Internet, le réseau de super données est en train de donner naissance à la "révolution des données" de l'IA.
Lorsque nous parlons de l'avenir de l'IA, nous nous concentrons souvent sur le "niveau d'intelligence" des modèles, tout en négligeant le "sol de données" qui soutient cette intelligence. Les super-réseaux de données révèlent une vérité fondamentale : l'évolution de l'IA est en réalité l'évolution de l'infrastructure des données. De la "limitation" des données générées par les humains à la "découverte de valeur" des données sur la chaîne, du "désordre" des signaux fragmentés à la "structure" des données organisées, de la "ressource gratuite" des données à l'"actif capital" de DataFi, ce concept redéfinit la logique de base de l'industrie de l'IA.
Les applications AI natives de prochaine génération nécessitent non seulement des modèles ou des portefeuilles, mais aussi des données programmables, sans confiance et à haut signal. Lorsque les données seront enfin dotées de la valeur qu'elles méritent, l'IA pourra véritablement libérer le pouvoir de changer le monde.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
5
Partager
Commentaire
0/400
ChainSpy
· 08-03 18:05
À quel prix les données se vendent-elles, je les achète toutes.
Voir l'originalRépondre0
FunGibleTom
· 08-03 18:01
Les données et la confidentialité vont exploser.
Voir l'originalRépondre0
IntrovertMetaverse
· 08-03 17:57
Avançons jusqu'à ce que nous devions payer pour les données.
Voir l'originalRépondre0
AirDropMissed
· 08-03 17:51
Ne vous précipitez pas, il n'y a pas assez de données, alors ne vous précipitez pas.
Voir l'originalRépondre0
0xSoulless
· 08-03 17:39
Les données doivent aussi se faire prendre pour des cons, n'est-ce pas ?
Le nouveau goulet d'étranglement de l'industrie de l'IA : les données off-chain deviennent la ressource clé qui change les règles du jeu.
Nouveaux défis à l'ère de l'IA : les données deviennent le goulot d'étranglement central
Avec la croissance rapide de l'échelle des modèles d'intelligence artificielle et de la puissance de calcul, un problème longtemps négligé émerge progressivement : l'approvisionnement en données. Le paradoxe structurel auquel l'industrie de l'IA est confrontée n'est plus l'architecture des modèles ou la puissance de calcul des puces, mais plutôt comment transformer les données comportementales humaines fragmentées en ressources vérifiables, structurées et compatibles avec l'IA. Cette révélation non seulement met en lumière le dilemme actuel du développement de l'IA, mais esquisse également un tout nouveau tableau de "l'ère de la finance des données (DataFi)" - dans cette ère, les données deviendront, comme l'électricité et la puissance de calcul, des facteurs de production mesurables, échangeables et valorisables.
De la compétition de puissance de calcul à la pénurie de données
Le développement de l'IA a longtemps été propulsé par le double moteur "modèle-puissance de calcul". Depuis la révolution de l'apprentissage profond, les paramètres des modèles sont passés de millions à des billions, et la demande en puissance de calcul a augmenté de manière exponentielle. Le coût de la formation d'un modèle de langage avancé a déjà dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de clusters GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise silencieuse du côté de l'offre de données est en train d'émerger.
Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles : la quantité totale de textes de haute qualité disponibles publiquement sur Internet est d'environ 10^12 mots, tandis qu'un modèle de 100 milliards de paramètres nécessite environ 10^13 mots de données pour son entraînement. Cela signifie que le réservoir de données existant ne peut soutenir l'entraînement que de 10 modèles de taille égale. Plus grave encore, les données répétitives et le contenu de faible qualité représentent plus de 60 %, ce qui réduit encore l'offre de données efficaces. Lorsque les modèles commencent à "ingérer" leurs propres données générées, la dégradation des performances des modèles due à la "pollution des données" est devenue une préoccupation dans l'industrie.
La racine de cette contradiction réside dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite" plutôt que comme un "actif stratégique" qui doit être soigneusement cultivé. Les modèles et la puissance de calcul ont formé un système de marché mature, mais la production, le nettoyage, la validation et l'échange de données sont encore à l'ère "sauvage". Les experts du secteur soulignent que la prochaine décennie de l'IA sera celle des "infrastructures de données", et que les données on-chain des réseaux cryptographiques sont la clé pour déverrouiller cette impasse.
Données en chaîne : la "base de données sur le comportement humain" dont l'IA a le plus besoin
Dans le contexte d'une pénurie de données, les données on-chain des réseaux cryptographiques montrent une valeur unique. Par rapport aux données Internet traditionnelles, les données on-chain possèdent intrinsèquement la "véracité de l'alignement des incitations" - chaque transaction, chaque interaction de contrat, chaque comportement d'adresse de portefeuille est directement lié à un capital réel et est immuable. Ces données sont définies comme "les données sur les comportements d'alignement des incitations humaines les plus concentrées sur Internet", se manifestant à travers trois dimensions :
Signaux d'intention du monde réel : les données sur la chaîne enregistrent des comportements décisionnels votés avec de l'argent réel, et non des commentaires émotionnels ou des clics aléatoires. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour entraîner la capacité décisionnelle de l'IA.
Chaîne de "comportement" traçable : La transparence de la blockchain permet de retracer intégralement les comportements des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles d'interaction, et les variations d'actifs, constituent une "chaîne de comportement" cohérente. Ces données comportementales structurées sont précisément ce qui manque le plus aux modèles d'IA actuels en tant que "données d'inférence humaine".
Accès "sans permission" à un écosystème ouvert : les données on-chain sont ouvertes et sans permission, fournissant une source de données "sans barrières" pour l'entraînement des modèles d'IA. Cependant, cette ouverture pose également des défis : les données on-chain existent sous forme de "journaux d'événements", nécessitant un nettoyage, une normalisation et une association avant de pouvoir être utilisées par les modèles d'IA. Actuellement, le "taux de transformation des données structurées" on-chain est inférieur à 5 %, et une grande quantité de signaux de grande valeur est enterrée dans des milliards d'événements fragmentés.
Super Data Network : le "système d'exploitation" des données on-chain
Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie a proposé le concept de réseau de données super - un "système d'exploitation intelligent sur la chaîne" conçu spécifiquement pour l'IA. Son objectif principal est de transformer des signaux dispersés sur la chaîne en données amicales pour l'IA, structurées, vérifiables et combinables en temps réel. Cela comprend principalement les composants suivants :
Normes de données ouvertes : unifier la définition et la manière de décrire les données sur la chaîne, garantir que les modèles d'IA n'ont pas besoin de s'adapter à différents formats de données de chaînes ou de protocoles, et comprennent directement la logique commerciale derrière les données.
Mécanisme de validation des données : assurer l'authenticité des données grâce au mécanisme AVS(Active Validator Set) d'Ethereum. Les nœuds validateurs vérifient l'intégrité et l'exactitude des données sur la chaîne, résolvant ainsi le problème de confiance des validations centralisées traditionnelles.
Couche de disponibilité des données à haut débit : en optimisant les algorithmes de compression des données et les protocoles de transmission, permettre le traitement en temps réel de centaines de milliers d'événements en chaîne par seconde, répondant aux besoins en données à faible latence et à haut débit des applications d'IA.
L'ère DataFi : les données deviennent un "capital" négociable
L'objectif ultime du super réseau de données est de propulser l'industrie de l'IA dans l'ère du DataFi - les données ne sont plus un "matériel d'entraînement" passif, mais un "capital" actif, pouvant être valorisé, échangé et enrichi. La réalisation de cette vision repose sur la transformation des données en quatre attributs clés :
Structuré : transformer les données brutes sur la chaîne en données structurées que le modèle d'IA peut appeler directement.
Combinable : les données structurées peuvent être combinées librement comme des blocs de Lego, élargissant ainsi les frontières d'application des données.
Vérifiable : Grâce aux enregistrements de hachage sur la blockchain, garantir l'authenticité et la traçabilité des données.
Monétisable : les fournisseurs de données peuvent monétiser directement les données structurées, formant ainsi un système d'évaluation de la valeur des données.
Dans cette ère de DataFi, les données deviennent le pont reliant l'IA au monde réel. Les agents de trading perçoivent le sentiment du marché à travers des données on-chain, les applications autonomes optimisent leurs services grâce aux données de comportement des utilisateurs, tandis que les utilisateurs ordinaires obtiennent des revenus continus en partageant des données. Tout comme le réseau électrique a engendré la révolution industrielle, le réseau de puissance de calcul a engendré la révolution Internet, le réseau de super données est en train de donner naissance à la "révolution des données" de l'IA.
Lorsque nous parlons de l'avenir de l'IA, nous nous concentrons souvent sur le "niveau d'intelligence" des modèles, tout en négligeant le "sol de données" qui soutient cette intelligence. Les super-réseaux de données révèlent une vérité fondamentale : l'évolution de l'IA est en réalité l'évolution de l'infrastructure des données. De la "limitation" des données générées par les humains à la "découverte de valeur" des données sur la chaîne, du "désordre" des signaux fragmentés à la "structure" des données organisées, de la "ressource gratuite" des données à l'"actif capital" de DataFi, ce concept redéfinit la logique de base de l'industrie de l'IA.
Les applications AI natives de prochaine génération nécessitent non seulement des modèles ou des portefeuilles, mais aussi des données programmables, sans confiance et à haut signal. Lorsque les données seront enfin dotées de la valeur qu'elles méritent, l'IA pourra véritablement libérer le pouvoir de changer le monde.