Nuevos desafíos en la era de la IA: los datos se convierten en el cuello de botella central
Con el rápido crecimiento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema que ha sido ignorado durante mucho tiempo está saliendo a la luz: el suministro de datos. La contradicción estructural que enfrenta actualmente la industria de la IA ya no es la arquitectura de modelos o la potencia de cálculo de los chips, sino cómo transformar los datos de comportamiento humano fragmentados en recursos verificables, estructurados y amigables con la IA. Esta percepción no solo revela la difícil situación actual del desarrollo de la IA, sino que también esboza un nuevo panorama de la "era de la financiación de datos (DataFi)" - en esta era, los datos se convertirán en un factor de producción central medible, comercializable y capaz de generar valor, al igual que la electricidad y la potencia de cálculo.
De la competencia de potencia de cálculo a la escasez de datos
El desarrollo de la IA ha sido impulsado a largo plazo por las "dos ruedas" de "modelo-poder de cálculo". Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de poder de cálculo ha crecido de manera exponencial. El costo de entrenar un avanzado modelo de lenguaje grande ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria se centra en "modelos más grandes" y "chips más rápidos", una crisis del lado de la oferta de datos está llegando silenciosamente.
Los "datos orgánicos" generados por los humanos han alcanzado un límite de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible públicamente en Internet es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere aproximadamente datos del orden de 10^13 palabras. Esto significa que el pool de datos existente solo puede soportar el entrenamiento de 10 modelos de igual escala. Más preocupante aún, más del 60% de los datos son repetidos o de baja calidad, lo que reduce aún más la oferta de datos efectivos. Cuando el modelo comienza a "devorar" los datos que genera, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". Los expertos de la industria enfatizan que la próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de la red criptográfica son la clave para desbloquear este dilema.
Datos en cadena: la "base de datos de comportamiento humano" que más necesita la IA
En el contexto de la escasez de datos, los datos en cadena de las redes criptográficas están mostrando un valor único. En comparación con los datos de internet tradicional, los datos en cadena poseen de manera intrínseca la autenticidad de "alineación de incentivos" - cada transacción, cada interacción de contrato, cada acción de una dirección de billetera, está directamente vinculada al capital real y es inmutable. Estos datos se definen como "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", que se reflejan en tres dimensiones:
Señales de "intención" del mundo real: los datos en cadena registran decisiones tomadas con dinero real, en lugar de comentarios emocionales o clics aleatorios. Estos datos "respaldados por capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que el comportamiento del usuario sea completamente rastreable. La historia de transacciones, protocolos de interacción y cambios de activos de una dirección de billetera conforman una "cadena de comportamiento" coherente. Estos datos de comportamiento estructurados son precisamente las "muestras de razonamiento humano" más escasas en los modelos de IA actuales.
Acceso "sin licencia" en un ecosistema abierto: los datos en cadena son abiertos y no requieren licencia, proporcionando una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también trae desafíos: los datos en cadena existen en forma de "registros de eventos", que deben ser limpiados, estandarizados y relacionados para ser utilizados por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en miles de millones de eventos fragmentados.
Super red de datos: el "sistema operativo" de los datos en la cadena
Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto el concepto de red de datos super, un "sistema operativo inteligente en la cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos estructurados, verificables y amigables para la IA en tiempo real. Incluye los siguientes componentes:
Estándares de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, asegurando que los modelos de IA no necesiten adaptarse a formatos de datos de diferentes cadenas o protocolos, y puedan "comprender" directamente la lógica empresarial detrás de los datos.
Mecanismo de verificación de datos: Asegura la veracidad de los datos a través del mecanismo AVS(Active Validator Set) de Ethereum. Los nodos validador verifican la integridad y exactitud de los datos en la cadena, resolviendo el problema de confianza de la verificación de datos centralizada tradicional.
Capa de disponibilidad de datos de alto rendimiento: mediante la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en cadena por segundo, satisfaciendo la demanda de datos de baja latencia y alto rendimiento de las aplicaciones de IA.
Era DataFi: Los datos se convierten en "capital" negociable
El objetivo final de la red de datos superpoderosa es impulsar a la industria de la IA hacia la era DataFi: los datos ya no son "material de entrenamiento" pasivo, sino "capital" activo que puede ser valorado, negociado y aumentado. La realización de esta visión depende de transformar los datos en cuatro propiedades centrales:
Estructurado: convertir los datos en cadena originales en datos estructurados que el modelo de IA pueda llamar directamente.
Combinable: los datos estructurados se pueden combinar libremente como bloques de Lego, ampliando los límites de aplicación de los datos.
Verificable: a través del registro hash en la blockchain, asegurar la autenticidad y trazabilidad de los datos.
Monetizable: los proveedores de datos pueden monetizar datos estructurados directamente, formando un sistema de evaluación del valor de los datos.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las aplicaciones autónomas optimizan sus servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos a través del intercambio de datos. Así como la red eléctrica dio origen a la revolución industrial, la red de computación dio origen a la revolución de Internet, y la red de datos superlativos está propiciando la "revolución de datos" de la IA.
Cuando hablamos del futuro de la IA, a menudo nos enfocamos en el "nivel de inteligencia" de los modelos, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. Las superredes de datos revelan una verdad central: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en la cadena, desde el "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los "recursos gratuitos" de datos hasta los "activos de capital" de DataFi, este concepto está reconfigurando la lógica subyacente de la industria de la IA.
Las aplicaciones nativas de IA de próxima generación no solo necesitan modelos o billeteras, sino también datos programables y de alta calidad que no requieran confianza. Cuando los datos finalmente se valoren como merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
5
Compartir
Comentar
0/400
ChainSpy
· 08-03 18:05
¿A qué precio se vende el dato? Yo lo compro.
Ver originalesResponder0
FunGibleTom
· 08-03 18:01
Los datos y la privacidad van a explotar.
Ver originalesResponder0
IntrovertMetaverse
· 08-03 17:57
Avancemos a la parte en la que hay que pagar por los datos.
Ver originalesResponder0
AirDropMissed
· 08-03 17:51
No te esfuerces más, no hay suficientes datos, así que no te esfuerces más.
Ver originalesResponder0
0xSoulless
· 08-03 17:39
Los datos también van a ser tomados por tontos, ¿verdad?
El nuevo cuello de botella de la industria de la IA: los datos on-chain se convierten en el recurso clave que cambia las reglas del juego.
Nuevos desafíos en la era de la IA: los datos se convierten en el cuello de botella central
Con el rápido crecimiento de la escala de los modelos de inteligencia artificial y la capacidad de cálculo, un problema que ha sido ignorado durante mucho tiempo está saliendo a la luz: el suministro de datos. La contradicción estructural que enfrenta actualmente la industria de la IA ya no es la arquitectura de modelos o la potencia de cálculo de los chips, sino cómo transformar los datos de comportamiento humano fragmentados en recursos verificables, estructurados y amigables con la IA. Esta percepción no solo revela la difícil situación actual del desarrollo de la IA, sino que también esboza un nuevo panorama de la "era de la financiación de datos (DataFi)" - en esta era, los datos se convertirán en un factor de producción central medible, comercializable y capaz de generar valor, al igual que la electricidad y la potencia de cálculo.
De la competencia de potencia de cálculo a la escasez de datos
El desarrollo de la IA ha sido impulsado a largo plazo por las "dos ruedas" de "modelo-poder de cálculo". Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de poder de cálculo ha crecido de manera exponencial. El costo de entrenar un avanzado modelo de lenguaje grande ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, mientras la industria se centra en "modelos más grandes" y "chips más rápidos", una crisis del lado de la oferta de datos está llegando silenciosamente.
Los "datos orgánicos" generados por los humanos han alcanzado un límite de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible públicamente en Internet es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere aproximadamente datos del orden de 10^13 palabras. Esto significa que el pool de datos existente solo puede soportar el entrenamiento de 10 modelos de igual escala. Más preocupante aún, más del 60% de los datos son repetidos o de baja calidad, lo que reduce aún más la oferta de datos efectivos. Cuando el modelo comienza a "devorar" los datos que genera, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que necesitan ser cultivados con cuidado. Los modelos y la potencia de cálculo han formado un sistema de mercado maduro, pero la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era primitiva". Los expertos de la industria enfatizan que la próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de la red criptográfica son la clave para desbloquear este dilema.
Datos en cadena: la "base de datos de comportamiento humano" que más necesita la IA
En el contexto de la escasez de datos, los datos en cadena de las redes criptográficas están mostrando un valor único. En comparación con los datos de internet tradicional, los datos en cadena poseen de manera intrínseca la autenticidad de "alineación de incentivos" - cada transacción, cada interacción de contrato, cada acción de una dirección de billetera, está directamente vinculada al capital real y es inmutable. Estos datos se definen como "los datos de comportamiento de alineación de incentivos humanos más concentrados en Internet", que se reflejan en tres dimensiones:
Señales de "intención" del mundo real: los datos en cadena registran decisiones tomadas con dinero real, en lugar de comentarios emocionales o clics aleatorios. Estos datos "respaldados por capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
Cadena de "comportamiento" rastreable: La transparencia de la blockchain permite que el comportamiento del usuario sea completamente rastreable. La historia de transacciones, protocolos de interacción y cambios de activos de una dirección de billetera conforman una "cadena de comportamiento" coherente. Estos datos de comportamiento estructurados son precisamente las "muestras de razonamiento humano" más escasas en los modelos de IA actuales.
Acceso "sin licencia" en un ecosistema abierto: los datos en cadena son abiertos y no requieren licencia, proporcionando una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también trae desafíos: los datos en cadena existen en forma de "registros de eventos", que deben ser limpiados, estandarizados y relacionados para ser utilizados por modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas en miles de millones de eventos fragmentados.
Super red de datos: el "sistema operativo" de los datos en la cadena
Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto el concepto de red de datos super, un "sistema operativo inteligente en la cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos estructurados, verificables y amigables para la IA en tiempo real. Incluye los siguientes componentes:
Estándares de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, asegurando que los modelos de IA no necesiten adaptarse a formatos de datos de diferentes cadenas o protocolos, y puedan "comprender" directamente la lógica empresarial detrás de los datos.
Mecanismo de verificación de datos: Asegura la veracidad de los datos a través del mecanismo AVS(Active Validator Set) de Ethereum. Los nodos validador verifican la integridad y exactitud de los datos en la cadena, resolviendo el problema de confianza de la verificación de datos centralizada tradicional.
Capa de disponibilidad de datos de alto rendimiento: mediante la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en cadena por segundo, satisfaciendo la demanda de datos de baja latencia y alto rendimiento de las aplicaciones de IA.
Era DataFi: Los datos se convierten en "capital" negociable
El objetivo final de la red de datos superpoderosa es impulsar a la industria de la IA hacia la era DataFi: los datos ya no son "material de entrenamiento" pasivo, sino "capital" activo que puede ser valorado, negociado y aumentado. La realización de esta visión depende de transformar los datos en cuatro propiedades centrales:
Estructurado: convertir los datos en cadena originales en datos estructurados que el modelo de IA pueda llamar directamente.
Combinable: los datos estructurados se pueden combinar libremente como bloques de Lego, ampliando los límites de aplicación de los datos.
Verificable: a través del registro hash en la blockchain, asegurar la autenticidad y trazabilidad de los datos.
Monetizable: los proveedores de datos pueden monetizar datos estructurados directamente, formando un sistema de evaluación del valor de los datos.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real. Los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las aplicaciones autónomas optimizan sus servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos a través del intercambio de datos. Así como la red eléctrica dio origen a la revolución industrial, la red de computación dio origen a la revolución de Internet, y la red de datos superlativos está propiciando la "revolución de datos" de la IA.
Cuando hablamos del futuro de la IA, a menudo nos enfocamos en el "nivel de inteligencia" de los modelos, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. Las superredes de datos revelan una verdad central: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en la cadena, desde el "desorden" de señales fragmentadas hasta la "orden" de datos estructurados, desde los "recursos gratuitos" de datos hasta los "activos de capital" de DataFi, este concepto está reconfigurando la lógica subyacente de la industria de la IA.
Las aplicaciones nativas de IA de próxima generación no solo necesitan modelos o billeteras, sino también datos programables y de alta calidad que no requieran confianza. Cuando los datos finalmente se valoren como merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.