Ця стаття з публічної розмови між Янном Лекуном, головним науковим співробітником зі штучного інтелекту в Meta та лауреатом премії Тюрінга, та Біллом Даллі, головним науковим співробітником NVIDIA. Лекун вважає, що великомасштабна мовна модель, (LLM) захоплення, наближається до свого кінця, і що майбутнє проривів у галузі штучного інтелекту полягатиме в розумінні фізичного світу, плануванні висновків і моделях з відкритим вихідним кодом. (Синопсис: OpenAI випускає моделі висновків o3 і o4-mini: може думати про картинки, автоматично вибирати інструменти та робити прориви в математиці та продуктивності кодування) (Довідкове доповнення: OpenAI таємно створює власну платформу спільноти, вказуючи на X Маска) Сьогодні, коли світом прокотилася хвиля штучного інтелекту, увага всіх, як і раніше, прикута до (LLM) великих мовних моделей У цей час Янн Лекун, відомий як батько згорткових нейронних мереж, а нині головний науковий співробітник зі штучного інтелекту в Meta, нещодавно зробив несподівану заяву про те, що його інтерес до LLM згас. У поглибленій бесіді з головним науковим співробітником NVIDIA Біллом Даллі минулого місяця Лекун докладно розповів про своє унікальне розуміння майбутнього напрямку штучного інтелекту, підкресливши, що розуміння фізичного світу, тривала пам'ять, можливості міркувань і планування, а також важливість екосистеми з відкритим вихідним кодом є ключами до лідерства в наступній хвилі революції штучного інтелекту. Попрощайтеся з міфом про LLM: чому штучний інтелект повинен краще розуміти світ? Лекун визнає, що, незважаючи на захоплюючі розробки в галузі штучного інтелекту за останній рік, він вважає, що LLM значною мірою став технікою для галузевих продуктових команд, щоб вдосконалюватися на маржі, наприклад, прагнути до більших наборів даних, більшої обчислювальної потужності та навіть генерувати синтетичні дані для навчання моделей. Він вважає, що це не найперспективніші напрямки досліджень. Замість цього він ставить перед собою ще чотири фундаментальні завдання: Розуміння фізичного світу: змусити машини зрозуміти реальні закони середовища, в якому ми живемо. Майте тривалу пам'ять: дозвольте штучному інтелекту накопичувати та застосовувати досвід, як людина. Здатність міркувати: Лекун вважає, що нинішній спосіб міркування з LLM є занадто спрощеним і вимагає більш фундаментального підходу. Реалізуйте можливості планування: Дозвольте штучному інтелекту передбачати наслідки дій і складати плани. Лекун підкреслює, що людські немовлята вивчають основні моделі фізичного світу, такі як різниця між перекиданням і розсуванням пляшок з водою, протягом декількох місяців після народження. Це інтуїтивне розуміння того, як влаштований світ, є фундаментальним для нашої взаємодії з реальним світом, набагато складніше, ніж мати справу з мовою. Він вважає, що для того, щоб штучний інтелект по-справжньому розумів реальний світ і реагував на нього, необхідна архітектура буде повністю відрізнятися від нинішньої основної LLM. Він також пояснив, що суть LLM полягає в тому, щоб передбачити наступний «символ». У той час як символи можуть бути будь-якими, наприклад, в моделі автономного водіння, де символи, введені датчиками, в кінцевому підсумку виробляють символи, які керують автомобілем, що в якійсь мірі міркує про фізичний світ (наприклад, судити про те, де безпечно їздити), цей дискретний підхід, заснований на символах, має свої обмеження. Лекун зазначає, що типова кількість символів LLM становить близько 100 000, і модель створює розподіл ймовірностей, який охоплює всі можливі символи. Однак цей підхід важко застосувати до високовимірних, безперервних реальних даних, таких як плівка. «Всі спроби змусити систему зрозуміти світ або змоделювати світ, передбачивши деталі на рівні пікселів у фільмі, в основному зазнали невдачі». Лекун зазначає, що досвід останніх 20 років показав, що навіть методи вивчення представлення зображень, такі як автокодери, шляхом реконструкції пошкоджених або трансформованих зображень, не такі ефективні, як архітектура «федеративного вбудовування», яку він відстоює (Joint Embedding). Останній не намагається реконструювати на піксельному рівні, а вивчає абстрактну репрезентацію (representation) зображенні чи фільмі та робить прогнози в цьому абстрактному просторі. Наприклад, якщо ви знімаєте відео кімнати, а потім зупиняєтеся і просите систему передбачити наступну фотографію, система може передбачити, хто сидить у кімнаті, але вона не може точно передбачити, як усі виглядатимуть, оскільки деталі непередбачувані. Якщо ви змусите модель передбачити ці деталі на рівні пікселів, ви витратите багато ресурсів на завдання, яких неможливо досягти. «Спроби самоконтрольованого навчання за допомогою предиктивного відео не спрацюють, лише на рівні репрезентації». Це означає, що архітектура моделі, яка по-справжньому розуміє світ, може не бути генеративною. Модель світу та JAPA: шлях до істинних міркувань Отже, як би виглядала модель, яка могла б розуміти фізичний світ, мати тривалу пам'ять і чи виглядало б програмування міркувань, якби не LLM? Лекун вважає, що відповідь криється в (World Models) «світової моделі». Модель світу, пояснює він, є нашим внутрішнім симулятором того, як влаштований світ, що дозволяє нам маніпулювати ідеями в нашій свідомості та передбачати наслідки наших дій. Це основний механізм людського планування і міркування, і ми не мислимо в символічному просторі. Він запропонував концепцію Embedding Predictive Architecture, (Joint названу «Joint Embedding Predictive Architecture», JAPA). Ця архітектура працює, подаючи фрагмент фільму або зображення в кодувальник, щоб отримати представлення, потім передаючи наступні фільми або зображення в інший кодувальник, а потім намагаючись зробити передбачення в «просторі представлення», а не в початковому просторі введення (наприклад, пікселі або символи). У той час як може бути використаний метод навчання «заповнення пропусків», операція відбувається в абстрактному латентному просторі (latent space). Складність такого підходу полягає в тому, що при неправильному проектуванні система може «вийти з ладу», тобто проігнорувати вхідні дані, і видавати лише постійне і неінформативне представлення. ЛеКун каже, що лише п'ять-шість років тому з'явилася технологія, яка ефективно запобігала цьому. За останні роки він і його колеги опублікували кілька статей про попередні результати Світової моделі ЯПА. Метою JAPA є побудова предиктора: коли система спостерігає за відео, вона формує розуміння поточного стану світу; Потім він повинен бути в змозі передбачити, «яким буде наступний стан світу, якщо я зроблю уявну дію». За допомогою такого предиктора ШІ може спланувати низку дій для досягнення конкретної мети. Лекун твердо переконаний, що це правильний шлях до досягнення істинних міркувань і планування, набагато кращий, ніж деякі з сьогоднішніх так званих «сурогатних систем міркувань». Ці системи, як правило, генерують велику кількість символьних послідовностей, а потім використовують іншу нейронну мережу для вибору найкращої послідовності, підхід, який Лекун описує як «випадкове написання програми, а потім перевірку, яка з них працює», що є вкрай неефективним і ненадійним. Лекун також заперечує твердження деяких дослідників штучного інтелекту про те, що штучний загальний інтелект (AGI) або те, що він вважає за краще називати передовим (AMI машинного інтелекту, Advanced Machine Intelligence), не за горами. Він вважає, що ідея про те, що інтелект людського рівня може бути досягнутий простим масштабуванням LLM і генерацією масивних послідовностей символів, є «нісенітницею» (nonsense). Хоча він очікує, що в найближчі 3-5 років він зможе освоїти побудову систем з абстрактними моделями світу та використовувати їх для планування висновків у невеликих масштабах, і може досягти людського рівня приблизно через десять років, він підкреслює, що дослідники ШІ неодноразово заявляли про наближення революції, і результати виявилися надмірно оптимістичними. «Зараз ця хвиля теж неправильна». Він вважає, що штучний інтелект досяг докторського рівня в певній галузі або...
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Батько згорткових нейронних мереж Ян Лікун: мені більше не цікаві моделі LLM, ці чотири великі виклики можуть визначити наступний крок AI.
Ця стаття з публічної розмови між Янном Лекуном, головним науковим співробітником зі штучного інтелекту в Meta та лауреатом премії Тюрінга, та Біллом Даллі, головним науковим співробітником NVIDIA. Лекун вважає, що великомасштабна мовна модель, (LLM) захоплення, наближається до свого кінця, і що майбутнє проривів у галузі штучного інтелекту полягатиме в розумінні фізичного світу, плануванні висновків і моделях з відкритим вихідним кодом. (Синопсис: OpenAI випускає моделі висновків o3 і o4-mini: може думати про картинки, автоматично вибирати інструменти та робити прориви в математиці та продуктивності кодування) (Довідкове доповнення: OpenAI таємно створює власну платформу спільноти, вказуючи на X Маска) Сьогодні, коли світом прокотилася хвиля штучного інтелекту, увага всіх, як і раніше, прикута до (LLM) великих мовних моделей У цей час Янн Лекун, відомий як батько згорткових нейронних мереж, а нині головний науковий співробітник зі штучного інтелекту в Meta, нещодавно зробив несподівану заяву про те, що його інтерес до LLM згас. У поглибленій бесіді з головним науковим співробітником NVIDIA Біллом Даллі минулого місяця Лекун докладно розповів про своє унікальне розуміння майбутнього напрямку штучного інтелекту, підкресливши, що розуміння фізичного світу, тривала пам'ять, можливості міркувань і планування, а також важливість екосистеми з відкритим вихідним кодом є ключами до лідерства в наступній хвилі революції штучного інтелекту. Попрощайтеся з міфом про LLM: чому штучний інтелект повинен краще розуміти світ? Лекун визнає, що, незважаючи на захоплюючі розробки в галузі штучного інтелекту за останній рік, він вважає, що LLM значною мірою став технікою для галузевих продуктових команд, щоб вдосконалюватися на маржі, наприклад, прагнути до більших наборів даних, більшої обчислювальної потужності та навіть генерувати синтетичні дані для навчання моделей. Він вважає, що це не найперспективніші напрямки досліджень. Замість цього він ставить перед собою ще чотири фундаментальні завдання: Розуміння фізичного світу: змусити машини зрозуміти реальні закони середовища, в якому ми живемо. Майте тривалу пам'ять: дозвольте штучному інтелекту накопичувати та застосовувати досвід, як людина. Здатність міркувати: Лекун вважає, що нинішній спосіб міркування з LLM є занадто спрощеним і вимагає більш фундаментального підходу. Реалізуйте можливості планування: Дозвольте штучному інтелекту передбачати наслідки дій і складати плани. Лекун підкреслює, що людські немовлята вивчають основні моделі фізичного світу, такі як різниця між перекиданням і розсуванням пляшок з водою, протягом декількох місяців після народження. Це інтуїтивне розуміння того, як влаштований світ, є фундаментальним для нашої взаємодії з реальним світом, набагато складніше, ніж мати справу з мовою. Він вважає, що для того, щоб штучний інтелект по-справжньому розумів реальний світ і реагував на нього, необхідна архітектура буде повністю відрізнятися від нинішньої основної LLM. Він також пояснив, що суть LLM полягає в тому, щоб передбачити наступний «символ». У той час як символи можуть бути будь-якими, наприклад, в моделі автономного водіння, де символи, введені датчиками, в кінцевому підсумку виробляють символи, які керують автомобілем, що в якійсь мірі міркує про фізичний світ (наприклад, судити про те, де безпечно їздити), цей дискретний підхід, заснований на символах, має свої обмеження. Лекун зазначає, що типова кількість символів LLM становить близько 100 000, і модель створює розподіл ймовірностей, який охоплює всі можливі символи. Однак цей підхід важко застосувати до високовимірних, безперервних реальних даних, таких як плівка. «Всі спроби змусити систему зрозуміти світ або змоделювати світ, передбачивши деталі на рівні пікселів у фільмі, в основному зазнали невдачі». Лекун зазначає, що досвід останніх 20 років показав, що навіть методи вивчення представлення зображень, такі як автокодери, шляхом реконструкції пошкоджених або трансформованих зображень, не такі ефективні, як архітектура «федеративного вбудовування», яку він відстоює (Joint Embedding). Останній не намагається реконструювати на піксельному рівні, а вивчає абстрактну репрезентацію (representation) зображенні чи фільмі та робить прогнози в цьому абстрактному просторі. Наприклад, якщо ви знімаєте відео кімнати, а потім зупиняєтеся і просите систему передбачити наступну фотографію, система може передбачити, хто сидить у кімнаті, але вона не може точно передбачити, як усі виглядатимуть, оскільки деталі непередбачувані. Якщо ви змусите модель передбачити ці деталі на рівні пікселів, ви витратите багато ресурсів на завдання, яких неможливо досягти. «Спроби самоконтрольованого навчання за допомогою предиктивного відео не спрацюють, лише на рівні репрезентації». Це означає, що архітектура моделі, яка по-справжньому розуміє світ, може не бути генеративною. Модель світу та JAPA: шлях до істинних міркувань Отже, як би виглядала модель, яка могла б розуміти фізичний світ, мати тривалу пам'ять і чи виглядало б програмування міркувань, якби не LLM? Лекун вважає, що відповідь криється в (World Models) «світової моделі». Модель світу, пояснює він, є нашим внутрішнім симулятором того, як влаштований світ, що дозволяє нам маніпулювати ідеями в нашій свідомості та передбачати наслідки наших дій. Це основний механізм людського планування і міркування, і ми не мислимо в символічному просторі. Він запропонував концепцію Embedding Predictive Architecture, (Joint названу «Joint Embedding Predictive Architecture», JAPA). Ця архітектура працює, подаючи фрагмент фільму або зображення в кодувальник, щоб отримати представлення, потім передаючи наступні фільми або зображення в інший кодувальник, а потім намагаючись зробити передбачення в «просторі представлення», а не в початковому просторі введення (наприклад, пікселі або символи). У той час як може бути використаний метод навчання «заповнення пропусків», операція відбувається в абстрактному латентному просторі (latent space). Складність такого підходу полягає в тому, що при неправильному проектуванні система може «вийти з ладу», тобто проігнорувати вхідні дані, і видавати лише постійне і неінформативне представлення. ЛеКун каже, що лише п'ять-шість років тому з'явилася технологія, яка ефективно запобігала цьому. За останні роки він і його колеги опублікували кілька статей про попередні результати Світової моделі ЯПА. Метою JAPA є побудова предиктора: коли система спостерігає за відео, вона формує розуміння поточного стану світу; Потім він повинен бути в змозі передбачити, «яким буде наступний стан світу, якщо я зроблю уявну дію». За допомогою такого предиктора ШІ може спланувати низку дій для досягнення конкретної мети. Лекун твердо переконаний, що це правильний шлях до досягнення істинних міркувань і планування, набагато кращий, ніж деякі з сьогоднішніх так званих «сурогатних систем міркувань». Ці системи, як правило, генерують велику кількість символьних послідовностей, а потім використовують іншу нейронну мережу для вибору найкращої послідовності, підхід, який Лекун описує як «випадкове написання програми, а потім перевірку, яка з них працює», що є вкрай неефективним і ненадійним. Лекун також заперечує твердження деяких дослідників штучного інтелекту про те, що штучний загальний інтелект (AGI) або те, що він вважає за краще називати передовим (AMI машинного інтелекту, Advanced Machine Intelligence), не за горами. Він вважає, що ідея про те, що інтелект людського рівня може бути досягнутий простим масштабуванням LLM і генерацією масивних послідовностей символів, є «нісенітницею» (nonsense). Хоча він очікує, що в найближчі 3-5 років він зможе освоїти побудову систем з абстрактними моделями світу та використовувати їх для планування висновків у невеликих масштабах, і може досягти людського рівня приблизно через десять років, він підкреслює, що дослідники ШІ неодноразово заявляли про наближення революції, і результати виявилися надмірно оптимістичними. «Зараз ця хвиля теж неправильна». Він вважає, що штучний інтелект досяг докторського рівня в певній галузі або...