Развитие индустрии искусственного интеллекта в последнее время рассматривается некоторыми как четвертая промышленная революция. Появление крупных моделей значительно повысило эффективность в различных отраслях, согласно исследованиям, GPT повысил производительность труда в США примерно на 20%. В то же время, общая способность крупных моделей считается новой парадигмой проектирования программного обеспечения; в отличие от точного проектирования кода в прошлом, современное проектирование программного обеспечения больше связано с внедрением обобщенных структур крупных моделей в программное обеспечение, что позволяет этим программам демонстрировать более высокие результаты и поддерживать более широкий диапазон входных и выходных модальностей. Технология глубокого обучения действительно принесла новый виток процветания в индустрию ИИ, и эта волна также распространилась на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого мы подробно обсудим суть взаимосвязи между криптовалютами и отраслью ИИ и рассмотрим структуру цепочки поставок ИИ, связанной с криптовалютами.
AI-индустрия начала развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта, академические и промышленные круги в разные эпохи и с различным предметным фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в задачах. Основные шаги заключаются в том, чтобы передать данные алгоритму, использовать эти данные для обучения модели, протестировать развернутую модель и использовать модель для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символическая теория и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительная теория, представленная нейронными сетями, занимает ведущее положение (, также известная как глубокое обучение ). Основная причина этого заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточно большими, появляется возможность подстроить сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном счете, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметров ), что и называется "выдающимся результатом при больших усилиях", и именно это стало причиной появления термина "глубокий" — достаточное количество слоев и нейронов.
На основе технологий глубокого обучения, основанных на нейронных сетях, произошло множество технологических итераций и эволюций, таких как ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer - это всего лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ) для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, так нейронная сеть может адаптироваться к любому типу данных, что означает реализацию мультимодальности.
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека и машины. В то же время родились экспертные системы, завершенные под руководством Стэнфордского университета в NASA, система DENRAL. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система по химии может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ Иудея Перл (Judea Pearl ) предложил байесовские сети, которые также называют сетями убеждений. В то же время Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова со счетом 3.5:2.5, эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили вторую волну развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Йошуа Бенжио предложили концепцию глубокого обучения, алгоритма, использующего искусственные нейронные сети для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью волну технологий, и это также был расцвет соединения.
Многие знаковые события также постепенно появляются вместе с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Goodfellow предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем противоборства двух нейронных сетей и может генерировать фальшивые фотографии, которые трудно отличить от реальных. Кроме того, Goodfellow написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу вызвало большой резонанс как в академических кругах, так и в промышленности.
В 2015 году OpenAI был основан, несколько известных личностей объявили о совместном вложении 1 миллиарда долларов.
В 2016 году основанный на технологии глубокого обучения AlphaGo провел битву человека против машины в го с мировым чемпионом, профессиональным девятимерным игроком Ли Сидо, одержав победу со счетом 4:1.
В 2017 году компания Hanson Robotics из Гонконга, (Hanson Robotics), разработала гуманоидного робота Софию, который стал первым роботом в истории, получившим статус гражданина первого класса, обладая богатым набором лицевых выражений и способностью понимать человеческий язык.
В 2017 году Google, обладая богатым кадровым и техническим потенциалом в области искусственного интеллекта, опубликовал статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный предварительно обученный трансформер), созданный на основе алгоритма Transformer, который является одной из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo на основе глубокого обучения, способную предсказывать структуру белков, что считается огромным прогрессом в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, содержащую 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может демонстрировать передовые результаты в различных задачах NLP(, таких как ответы на вопросы, перевод, написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года был запущен ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Цепочка поставок в области глубокого обучения
В настоящее время все крупные языковые модели используют методы глубокого обучения на основе нейронных сетей. Во главе с GPT крупные модели создали волну искусственного интеллекта, и множество игроков хлынули на этот рынок. Мы также обнаружили, что на рынке наблюдается резкий рост спроса на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как сформированы её верхний и нижний уровни в AI-индустрии, доминирующей благодаря алгоритмам глубокого обучения, и каковы текущее состояние и соотношение спроса и предложения этих уровней, а также их будущее развитие.
Прежде всего, нам необходимо прояснить, что при обучении больших моделей LLMs на базе GPT, основанных на технологии Transformer, (, всего есть три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация". Затем эти числовые значения называются токенами. В общем практическом правиле одно английское слово или символ можно грубо считать одним токеном, а каждый китайский иероглиф можно грубо считать двумя токенами. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогично приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. В это время требуется большое количество данных, а этот процесс также является самым ресурсоемким, так как нейроны должны многократно итеративно пробовать различные параметры. После завершения обучения одной партии данных обычно используют ту же партию данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это процесс обучения на небольшом, но высококачественном наборе данных, что позволит улучшить качество вывода модели, так как предварительное обучение требует большого объема данных, но многие из них могут содержать ошибки или быть низкокачественными. Этап дообучения может повысить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создан совершенно новый модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста - сортировать результаты вывода, поэтому создание этой модели будет довольно простым, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели высококачественным, так что мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) однако иногда также требуется человеческое участие для оценки качества вывода модели (
Короче говоря, в процессе обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также максимальна, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно обновлять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые они могут аппроксимировать, крайне ограничены, потому что по своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно обновить больше параметров, что позволяет аппроксимировать больше данных. Вот почему большие модели творят чудеса, и это также причина, по которой их называют большими моделями — по сути, это огромное количество нейронов и параметров, огромное количество данных, и в то же время требуется огромное количество вычислительной мощности.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), который рассчитывается по количеству токенов(. Тогда мы можем использовать обычные эмпирические правила для вычисления необходимой вычислительной мощности, что позволит нам примерно оценить, какую вычислительную мощность нам нужно будет приобрести и сколько времени потребуется на обучение.
Мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления — это общее название для операций сложения, вычитания, умножения и деления с нецелыми числами, например 2.5+3.557. Плавающее число обозначает возможность наличия десятичной точки, а FP16 указывает на поддержку точности с плавающей запятой, FP32 — это более распространенная точность. Согласно практическим правилам, предварительная тренировка )Pre-traning( один раз ) обычно требует многократной тренировки ( больших моделей, примерно требуется 6np Flops, 6 называется постоянной в отрасли. А вывод )Inference — это процесс, когда мы вводим данные и ждем вывода большой модели (, который делится на две части: ввод n токенов и вывод n токенов, тогда для этого потребуется примерно 2np Flops.
На ранних стадиях использовались чипы CPU для обучения и предоставления вычислительной мощности, но затем постепенно начали заменять их на GPU, такие как чипы A100, H100 некоторых компаний. Потому что CPU существуют как универсальные вычисления, но GPU могут использоваться как специализированные вычисления, и по эффективности энергопотребления они значительно превосходят CPU. GPU выполняют операции с плавающей запятой в основном через модуль, называемый Tensor Core. Поэтому у обычных чипов есть данные Flops при точности FP16 / FP32, это
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Интеграция ИИ и криптоактивов: панорамный анализ цепочки создания стоимости глубокого обучения
AI x Crypto: от нуля до вершины
Введение
Развитие индустрии искусственного интеллекта в последнее время рассматривается некоторыми как четвертая промышленная революция. Появление крупных моделей значительно повысило эффективность в различных отраслях, согласно исследованиям, GPT повысил производительность труда в США примерно на 20%. В то же время, общая способность крупных моделей считается новой парадигмой проектирования программного обеспечения; в отличие от точного проектирования кода в прошлом, современное проектирование программного обеспечения больше связано с внедрением обобщенных структур крупных моделей в программное обеспечение, что позволяет этим программам демонстрировать более высокие результаты и поддерживать более широкий диапазон входных и выходных модальностей. Технология глубокого обучения действительно принесла новый виток процветания в индустрию ИИ, и эта волна также распространилась на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития отрасли ИИ, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и их текущее состояние и тенденции. После этого мы подробно обсудим суть взаимосвязи между криптовалютами и отраслью ИИ и рассмотрим структуру цепочки поставок ИИ, связанной с криптовалютами.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития индустрии ИИ
AI-индустрия начала развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта, академические и промышленные круги в разные эпохи и с различным предметным фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в задачах. Основные шаги заключаются в том, чтобы передать данные алгоритму, использовать эти данные для обучения модели, протестировать развернутую модель и использовать модель для выполнения автоматизированных предсказательных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символическая теория и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительная теория, представленная нейронными сетями, занимает ведущее положение (, также известная как глубокое обучение ). Основная причина этого заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточно большими, появляется возможность подстроить сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном счете, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметров ), что и называется "выдающимся результатом при больших усилиях", и именно это стало причиной появления термина "глубокий" — достаточное количество слоев и нейронов.
На основе технологий глубокого обучения, основанных на нейронных сетях, произошло множество технологических итераций и эволюций, таких как ранние нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer - это всего лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ) для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, так нейронная сеть может адаптироваться к любому типу данных, что означает реализацию мультимодальности.
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека и машины. В то же время родились экспертные системы, завершенные под руководством Стэнфордского университета в NASA, система DENRAL. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система по химии может рассматриваться как сочетание химической базы знаний и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ Иудея Перл (Judea Pearl ) предложил байесовские сети, которые также называют сетями убеждений. В то же время Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова со счетом 3.5:2.5, эта победа считается вехой в области искусственного интеллекта, и технологии ИИ пережили вторую волну развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Йошуа Бенжио предложили концепцию глубокого обучения, алгоритма, использующего искусственные нейронные сети для обучения представлениям данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN и GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью волну технологий, и это также был расцвет соединения.
Многие знаковые события также постепенно появляются вместе с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Goodfellow предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем противоборства двух нейронных сетей и может генерировать фальшивые фотографии, которые трудно отличить от реальных. Кроме того, Goodfellow написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», и это предложение глубокого обучения сразу вызвало большой резонанс как в академических кругах, так и в промышленности.
В 2015 году OpenAI был основан, несколько известных личностей объявили о совместном вложении 1 миллиарда долларов.
В 2016 году основанный на технологии глубокого обучения AlphaGo провел битву человека против машины в го с мировым чемпионом, профессиональным девятимерным игроком Ли Сидо, одержав победу со счетом 4:1.
В 2017 году компания Hanson Robotics из Гонконга, (Hanson Robotics), разработала гуманоидного робота Софию, который стал первым роботом в истории, получившим статус гражданина первого класса, обладая богатым набором лицевых выражений и способностью понимать человеческий язык.
В 2017 году Google, обладая богатым кадровым и техническим потенциалом в области искусственного интеллекта, опубликовал статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году OpenAI выпустила GPT( Генеративный предварительно обученный трансформер), созданный на основе алгоритма Transformer, который является одной из крупнейших языковых моделей на тот момент.
В 2018 году команда Google Deepmind выпустила AlphaGo на основе глубокого обучения, способную предсказывать структуру белков, что считается огромным прогрессом в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, содержащую 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может демонстрировать передовые результаты в различных задачах NLP(, таких как ответы на вопросы, перевод, написание статей).
В 2021 году OpenAI выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года был запущен ChatGPT на основе модели GPT-4, в марте ChatGPT достиг ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
Цепочка поставок в области глубокого обучения
В настоящее время все крупные языковые модели используют методы глубокого обучения на основе нейронных сетей. Во главе с GPT крупные модели создали волну искусственного интеллекта, и множество игроков хлынули на этот рынок. Мы также обнаружили, что на рынке наблюдается резкий рост спроса на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения, как сформированы её верхний и нижний уровни в AI-индустрии, доминирующей благодаря алгоритмам глубокого обучения, и каковы текущее состояние и соотношение спроса и предложения этих уровней, а также их будущее развитие.
Прежде всего, нам необходимо прояснить, что при обучении больших моделей LLMs на базе GPT, основанных на технологии Transformer, (, всего есть три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Токенизация". Затем эти числовые значения называются токенами. В общем практическом правиле одно английское слово или символ можно грубо считать одним токеном, а каждый китайский иероглиф можно грубо считать двумя токенами. Это также является основной единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогично приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. В это время требуется большое количество данных, а этот процесс также является самым ресурсоемким, так как нейроны должны многократно итеративно пробовать различные параметры. После завершения обучения одной партии данных обычно используют ту же партию данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это процесс обучения на небольшом, но высококачественном наборе данных, что позволит улучшить качество вывода модели, так как предварительное обучение требует большого объема данных, но многие из них могут содержать ошибки или быть низкокачественными. Этап дообучения может повысить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создан совершенно новый модель, которую мы называем "моделью вознаграждения", цель этой модели очень проста - сортировать результаты вывода, поэтому создание этой модели будет довольно простым, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели высококачественным, так что мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) однако иногда также требуется человеческое участие для оценки качества вывода модели (
Короче говоря, в процессе обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также максимальна, в то время как дообучение требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно обновлять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0, поэтому, как бы ни изменялись параметры, данные, которые они могут аппроксимировать, крайне ограничены, потому что по своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно обновить больше параметров, что позволяет аппроксимировать больше данных. Вот почему большие модели творят чудеса, и это также причина, по которой их называют большими моделями — по сути, это огромное количество нейронов и параметров, огромное количество данных, и в то же время требуется огромное количество вычислительной мощности.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n), который рассчитывается по количеству токенов(. Тогда мы можем использовать обычные эмпирические правила для вычисления необходимой вычислительной мощности, что позволит нам примерно оценить, какую вычислительную мощность нам нужно будет приобрести и сколько времени потребуется на обучение.
Мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления — это общее название для операций сложения, вычитания, умножения и деления с нецелыми числами, например 2.5+3.557. Плавающее число обозначает возможность наличия десятичной точки, а FP16 указывает на поддержку точности с плавающей запятой, FP32 — это более распространенная точность. Согласно практическим правилам, предварительная тренировка )Pre-traning( один раз ) обычно требует многократной тренировки ( больших моделей, примерно требуется 6np Flops, 6 называется постоянной в отрасли. А вывод )Inference — это процесс, когда мы вводим данные и ждем вывода большой модели (, который делится на две части: ввод n токенов и вывод n токенов, тогда для этого потребуется примерно 2np Flops.
На ранних стадиях использовались чипы CPU для обучения и предоставления вычислительной мощности, но затем постепенно начали заменять их на GPU, такие как чипы A100, H100 некоторых компаний. Потому что CPU существуют как универсальные вычисления, но GPU могут использоваться как специализированные вычисления, и по эффективности энергопотребления они значительно превосходят CPU. GPU выполняют операции с плавающей запятой в основном через модуль, называемый Tensor Core. Поэтому у обычных чипов есть данные Flops при точности FP16 / FP32, это