Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người xem là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao hiệu suất của nhiều ngành, theo nghiên cứu, GPT đã cải thiện hiệu suất làm việc của Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, so với thiết kế mã chính xác trong quá khứ, thiết kế phần mềm hiện tại chủ yếu là tích hợp khung mô hình tổng quát vào phần mềm, những phần mềm này có thể có hiệu suất tốt hơn và hỗ trợ đầu vào và đầu ra đa dạng hơn. Công nghệ học sâu thực sự đã mang lại một làn sóng thịnh vượng mới cho ngành AI, làn sóng này cũng đã lan tới ngành công nghiệp tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của công nghệ học sâu đối với ngành. Sau đó sẽ phân tích sâu về chuỗi công nghiệp thượng hạ của học sâu như GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cũng như tình trạng và xu hướng phát triển của chúng. Tiếp theo, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, và tổng hợp cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành công nghiệp AI bắt đầu từ những năm 1950, nhằm hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để hiện thực hóa trí tuệ nhân tạo trong các bối cảnh khoa học khác nhau qua các thời kỳ.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", với ý tưởng là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, và sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, máy học có ba trường phái chính, đó là liên kết học, ký hiệu học và hành vi học, lần lượt mô phỏng hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa kết hợp đại diện bởi mạng nơ-ron chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, khi số lượng lớp và số lượng nơ-ron ( và tham số ) trở nên đủ lớn, thì có đủ cơ hội để khớp với các tác vụ phức tạp chung. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, thì cuối cùng, sau nhiều lần trải qua dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây chính là điều được gọi là "làm việc chăm chỉ tạo ra kỳ tích", và đây cũng là nguyên nhân cho hai chữ "sâu" - đủ số lượng lớp và nơ-ron.
Công nghệ học sâu dựa trên mạng nơ-ron đã trải qua nhiều lần lặp và tiến hóa, bắt đầu từ mạng nơ-ron đầu tiên, mạng nơ-ron truyền tiếp, RNN, CNN, GAN và cuối cùng tiến hóa đến các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm một bộ chuyển đổi ( Transformer ), được sử dụng để mã hóa dữ liệu từ tất cả các chế độ ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, nghĩa là thực hiện đa chế độ.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, là một thập kỷ sau khi công nghệ AI được đề xuất, làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng. Công nghệ này đã giải quyết vấn đề xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là hệ thống DENRAL được hoàn thành dưới sự giám sát của NASA tại Đại học Stanford. Hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy diễn và tạo ra các câu trả lời giống như một chuyên gia hóa học, hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa cơ sở dữ liệu kiến thức hóa học và hệ thống suy diễn.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng định hình làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện biểu tượng cũng dần xuất hiện cùng với sự khám phá và tiến triển của công nghệ học sâu, bao gồm:
Năm 2011, Watson của IBM ) đã đánh bại con người và giành chiến thắng trong chương trình thi quiz "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) Mạng đối kháng sinh tạo, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron tranh đấu lẫn nhau để học, có thể tạo ra những bức ảnh giống như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tựa đề "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách quan trọng cho người mới bắt đầu trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này đã ngay lập tức gây ra phản ứng mạnh mẽ trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, nhiều nhân vật nổi tiếng đã công bố cùng nhau đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch thế giới cờ vây, kỳ thủ chuyên nghiệp cấp chín Lee Sedol và chiến thắng với tỷ số chung cuộc 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics tại Hồng Kông, Trung Quốc )Hanson Robotics( đã phát triển robot hình người Sophia, được gọi là robot đầu tiên trong lịch sử nhận được quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google, với nguồn nhân lực và công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo, đã công bố bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT)Generative Pre-trained Transformer( được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu mốc tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, gấp 100 lần so với phiên bản trước đó là GPT-2, mô hình này sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến trong nhiều nhiệm vụ NLP) như trả lời câu hỏi, dịch thuật, viết bài(.
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3 ChatGPT đã đạt một triệu người dùng, trở thành ứng dụng đạt một triệu người dùng nhanh nhất trong lịch sử.
Năm 2024, OpenAI ra mắt GPT-4 omni.
![Người mới phổ cập丨AI x Crypto: Từ số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn đầu của GPT, các mô hình lớn đã tạo ra một làn sóng sốt sắng về trí tuệ nhân tạo, nhiều người chơi đã đổ xô vào lĩnh vực này, và chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, trong ngành công nghiệp AI do thuật toán học sâu dẫn dắt, các mối quan hệ giữa các bên tham gia trong chuỗi cung ứng là như thế nào, và tình hình hiện tại cũng như mối quan hệ cung cầu của chuỗi cung ứng và sự phát triển trong tương lai sẽ ra sao.
Trước tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer, đứng đầu là GPT ), sẽ được chia thành ba bước.
Trước khi đào tạo, vì nó dựa trên Transformer, do đó bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi ký tự Trung Quốc có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Thông qua việc cung cấp đủ nhiều cặp dữ liệu cho lớp đầu vào, tương tự như ví dụ được đưa ra trong phần đầu của báo cáo (X,Y), để tìm kiếm các tham số tối ưu cho từng nơ-ron trong mô hình này, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tốn kém sức mạnh tính toán nhất, vì cần phải lặp đi lặp lại để các nơ-ron thử nghiệm nhiều tham số khác nhau. Sau khi một đợt dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một đợt dữ liệu để huấn luyện lại nhằm điều chỉnh các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi như vậy sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước thứ ba, học tăng cường. Đầu tiên, sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì ngữ cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình đào tạo mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về số lượng dữ liệu, và GPU cần thiết để xử lý cũng là nhiều nhất, trong khi tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình phần thưởng để tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát của mô hình càng cao, ví dụ như trong ví dụ về hàm Y = aX + b, thực tế có hai nơ-ron X và X0, vì vậy sự thay đổi của các tham số sẽ có khả năng khớp dữ liệu rất hạn chế, vì bản chất vẫn chỉ là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đó là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và cũng là lý do tại sao người ta gọi chúng là mô hình lớn, bản chất chính là hàng triệu nơ-ron và tham số, cùng với một lượng dữ liệu khổng lồ, đồng thời cần một lượng tính toán lớn.
Do đó, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này đồng thời ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Chúng ta giả định số lượng tham số là p, lượng dữ liệu là n( được tính bằng số lượng Token), thì chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết thông qua quy tắc kinh nghiệm chung, từ đó có thể ước tính tình hình sức mạnh tính toán mà chúng ta cần mua và thời gian đào tạo.
Công suất thường được tính bằng đơn vị Flops, đại diện cho một phép toán dấu phẩy động, phép toán dấu phẩy động là thuật ngữ chung cho các phép cộng, trừ, nhân, chia của các số không nguyên, chẳng hạn như 2.5+3.557, dấu phẩy động đại diện cho khả năng có dấu thập phân, trong khi FP16 đại diện cho độ chính xác hỗ trợ số thập phân, FP32 là độ chính xác phổ biến hơn. Theo quy tắc kinh nghiệm trong thực tế, việc tiền huấn luyện (Pre-traning) một lần ( thường sẽ huấn luyện nhiều lần ) một mô hình lớn, khoảng cần 6np Flops, 6 được gọi là hằng số trong ngành. Còn suy diễn (Inference, là quá trình mà chúng ta nhập một dữ liệu, chờ đợi đầu ra của mô hình lớn ), được chia thành hai phần, nhập n token, xuất n token, vậy tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc đào tạo sử dụng chip CPU để cung cấp hỗ trợ tính toán, nhưng sau đó bắt đầu dần dần sử dụng GPU thay thế, như các chip A100, H100 của một số công ty. Bởi vì CPU tồn tại như một tính toán tổng quát, nhưng GPU có thể được sử dụng như một tính toán chuyên dụng, về hiệu suất năng lượng thì vượt xa CPU. GPU thực hiện phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core. Do đó, các chip thông thường có dữ liệu Flops dưới độ chính xác FP16 / FP32, cái này.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Sự kết hợp của AI và tài sản tiền điện tử: Phân tích toàn cảnh chuỗi công nghiệp độ sâu
AI x Crypto: Từ số không đến đỉnh cao
Giới thiệu
Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người xem là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao hiệu suất của nhiều ngành, theo nghiên cứu, GPT đã cải thiện hiệu suất làm việc của Mỹ khoảng 20%. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, so với thiết kế mã chính xác trong quá khứ, thiết kế phần mềm hiện tại chủ yếu là tích hợp khung mô hình tổng quát vào phần mềm, những phần mềm này có thể có hiệu suất tốt hơn và hỗ trợ đầu vào và đầu ra đa dạng hơn. Công nghệ học sâu thực sự đã mang lại một làn sóng thịnh vượng mới cho ngành AI, làn sóng này cũng đã lan tới ngành công nghiệp tiền điện tử.
Báo cáo này sẽ khám phá chi tiết lịch sử phát triển của ngành AI, phân loại công nghệ, cũng như tác động của công nghệ học sâu đối với ngành. Sau đó sẽ phân tích sâu về chuỗi công nghiệp thượng hạ của học sâu như GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, cũng như tình trạng và xu hướng phát triển của chúng. Tiếp theo, chúng tôi sẽ thảo luận chi tiết về mối quan hệ giữa tiền điện tử và ngành AI, và tổng hợp cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành công nghiệp AI bắt đầu từ những năm 1950, nhằm hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau để hiện thực hóa trí tuệ nhân tạo trong các bối cảnh khoa học khác nhau qua các thời kỳ.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", với ý tưởng là để máy móc dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ nhằm cải thiện hiệu suất hệ thống. Các bước chính là đưa dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, và sử dụng mô hình để hoàn thành các nhiệm vụ dự đoán tự động.
Hiện nay, máy học có ba trường phái chính, đó là liên kết học, ký hiệu học và hành vi học, lần lượt mô phỏng hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa kết hợp đại diện bởi mạng nơ-ron chiếm ưu thế ( còn được gọi là học sâu ), lý do chính là vì kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn, khi số lượng lớp và số lượng nơ-ron ( và tham số ) trở nên đủ lớn, thì có đủ cơ hội để khớp với các tác vụ phức tạp chung. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số của nơ-ron, thì cuối cùng, sau nhiều lần trải qua dữ liệu, nơ-ron đó sẽ đạt được trạng thái tối ưu ( tham số ), đây chính là điều được gọi là "làm việc chăm chỉ tạo ra kỳ tích", và đây cũng là nguyên nhân cho hai chữ "sâu" - đủ số lượng lớp và nơ-ron.
Công nghệ học sâu dựa trên mạng nơ-ron đã trải qua nhiều lần lặp và tiến hóa, bắt đầu từ mạng nơ-ron đầu tiên, mạng nơ-ron truyền tiếp, RNN, CNN, GAN và cuối cùng tiến hóa đến các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, thêm một bộ chuyển đổi ( Transformer ), được sử dụng để mã hóa dữ liệu từ tất cả các chế độ ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó, dữ liệu này được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp với bất kỳ loại dữ liệu nào, nghĩa là thực hiện đa chế độ.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ, làn sóng đầu tiên diễn ra vào những năm 60 của thế kỷ 20, là một thập kỷ sau khi công nghệ AI được đề xuất, làn sóng này được gây ra bởi sự phát triển của công nghệ biểu tượng. Công nghệ này đã giải quyết vấn đề xử lý ngôn ngữ tự nhiên tổng quát cũng như đối thoại giữa người và máy. Cùng thời gian đó, hệ thống chuyên gia ra đời, đây là hệ thống DENRAL được hoàn thành dưới sự giám sát của NASA tại Đại học Stanford. Hệ thống này có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy diễn và tạo ra các câu trả lời giống như một chuyên gia hóa học, hệ thống chuyên gia hóa học này có thể được coi là sự kết hợp giữa cơ sở dữ liệu kiến thức hóa học và hệ thống suy diễn.
Sau hệ thống chuyên gia, vào những năm 1990, nhà khoa học và triết gia người Mỹ gốc Israel Judea Pearl( đã đề xuất mạng Bayes, mạng này còn được gọi là mạng niềm tin. Cùng thời gian đó, Brooks đã đưa ra robot học dựa trên hành vi, đánh dấu sự ra đời của chủ nghĩa hành vi.
Năm 1997, IBM Deep Blue đã đánh bại nhà vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc của trí tuệ nhân tạo, công nghệ AI đã bước vào giai đoạn phát triển thứ hai.
Làn sóng công nghệ AI thứ ba xảy ra vào năm 2006. Ba ông lớn của học sâu Yann LeCun, Geoffrey Hinton và Yoshua Bengio đã đưa ra khái niệm học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, hai thuật toán này đã cùng định hình làn sóng công nghệ thứ ba, và đây cũng là thời kỳ hoàng kim của chủ nghĩa liên kết.
Nhiều sự kiện biểu tượng cũng dần xuất hiện cùng với sự khám phá và tiến triển của công nghệ học sâu, bao gồm:
Năm 2011, Watson của IBM ) đã đánh bại con người và giành chiến thắng trong chương trình thi quiz "Jeopardy" (.
Năm 2014, Goodfellow đã đề xuất GAN) Mạng đối kháng sinh tạo, Generative Adversarial Network(, thông qua việc cho hai mạng nơ-ron tranh đấu lẫn nhau để học, có thể tạo ra những bức ảnh giống như thật. Đồng thời, Goodfellow cũng đã viết một cuốn sách có tựa đề "Deep Learning", được gọi là sách hoa, là một trong những cuốn sách quan trọng cho người mới bắt đầu trong lĩnh vực học sâu.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trong tạp chí "Nature", phương pháp học sâu này đã ngay lập tức gây ra phản ứng mạnh mẽ trong giới học thuật cũng như trong ngành công nghiệp.
Năm 2015, OpenAI được thành lập, nhiều nhân vật nổi tiếng đã công bố cùng nhau đầu tư 1 tỷ đô la.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã thi đấu với nhà vô địch thế giới cờ vây, kỳ thủ chuyên nghiệp cấp chín Lee Sedol và chiến thắng với tỷ số chung cuộc 4-1.
Năm 2017, công ty công nghệ robot Hanson Robotics tại Hồng Kông, Trung Quốc )Hanson Robotics( đã phát triển robot hình người Sophia, được gọi là robot đầu tiên trong lịch sử nhận được quyền công dân hạng nhất, với khả năng biểu cảm khuôn mặt phong phú và khả năng hiểu ngôn ngữ của con người.
Năm 2017, Google, với nguồn nhân lực và công nghệ phong phú trong lĩnh vực trí tuệ nhân tạo, đã công bố bài báo "Attention is all you need" đề xuất thuật toán Transformer, các mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI đã phát hành GPT)Generative Pre-trained Transformer( được xây dựng dựa trên thuật toán Transformer, đây là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2018, đội ngũ Google Deepmind đã phát hành AlphaGo dựa trên học sâu, có khả năng dự đoán cấu trúc protein, được coi là một dấu mốc tiến bộ lớn trong lĩnh vực trí tuệ nhân tạo.
Năm 2019, OpenAI phát hành GPT-2, mô hình này có 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển, có 175 tỷ tham số, gấp 100 lần so với phiên bản trước đó là GPT-2, mô hình này sử dụng 570GB văn bản để huấn luyện, có thể đạt hiệu suất tiên tiến trong nhiều nhiệm vụ NLP) như trả lời câu hỏi, dịch thuật, viết bài(.
Năm 2021, OpenAI phát hành GPT-4, mô hình này có 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đến tháng 3 ChatGPT đã đạt một triệu người dùng, trở thành ứng dụng đạt một triệu người dùng nhanh nhất trong lịch sử.
Năm 2024, OpenAI ra mắt GPT-4 omni.
![Người mới phổ cập丨AI x Crypto: Từ số không đến đỉnh cao])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chuỗi công nghiệp học sâu
Các mô hình ngôn ngữ lớn hiện tại đều sử dụng phương pháp học sâu dựa trên mạng nơ-ron. Với sự dẫn đầu của GPT, các mô hình lớn đã tạo ra một làn sóng sốt sắng về trí tuệ nhân tạo, nhiều người chơi đã đổ xô vào lĩnh vực này, và chúng tôi cũng nhận thấy nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã bùng nổ mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, trong ngành công nghiệp AI do thuật toán học sâu dẫn dắt, các mối quan hệ giữa các bên tham gia trong chuỗi cung ứng là như thế nào, và tình hình hiện tại cũng như mối quan hệ cung cầu của chuỗi cung ứng và sự phát triển trong tương lai sẽ ra sao.
Trước tiên, chúng ta cần làm rõ rằng, trong quá trình đào tạo các mô hình lớn LLMs dựa trên công nghệ Transformer, đứng đầu là GPT ), sẽ được chia thành ba bước.
Trước khi đào tạo, vì nó dựa trên Transformer, do đó bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị số này được gọi là Token. Theo quy tắc kinh nghiệm chung, một từ hoặc ký tự tiếng Anh có thể được coi là một Token, trong khi mỗi ký tự Trung Quốc có thể được coi là hai Token. Đây cũng là đơn vị cơ bản được sử dụng để định giá GPT.
Bước đầu tiên, tiền huấn luyện. Thông qua việc cung cấp đủ nhiều cặp dữ liệu cho lớp đầu vào, tương tự như ví dụ được đưa ra trong phần đầu của báo cáo (X,Y), để tìm kiếm các tham số tối ưu cho từng nơ-ron trong mô hình này, lúc này cần một lượng lớn dữ liệu, và quá trình này cũng là quá trình tốn kém sức mạnh tính toán nhất, vì cần phải lặp đi lặp lại để các nơ-ron thử nghiệm nhiều tham số khác nhau. Sau khi một đợt dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một đợt dữ liệu để huấn luyện lại nhằm điều chỉnh các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi như vậy sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có lỗi hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước thứ ba, học tăng cường. Đầu tiên, sẽ xây dựng một mô hình hoàn toàn mới, chúng tôi gọi nó là "mô hình thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp kết quả đầu ra, vì vậy việc thực hiện mô hình này sẽ khá đơn giản, vì ngữ cảnh kinh doanh khá chuyên biệt. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn của chúng tôi có chất lượng cao hay không, như vậy có thể sử dụng một mô hình thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình đào tạo mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về số lượng dữ liệu, và GPU cần thiết để xử lý cũng là nhiều nhất, trong khi tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình phần thưởng để tạo ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát của mô hình càng cao, ví dụ như trong ví dụ về hàm Y = aX + b, thực tế có hai nơ-ron X và X0, vì vậy sự thay đổi của các tham số sẽ có khả năng khớp dữ liệu rất hạn chế, vì bản chất vẫn chỉ là một đường thẳng. Nếu số lượng nơ-ron nhiều hơn, thì có thể lặp lại nhiều tham số hơn, từ đó có thể khớp nhiều dữ liệu hơn, đó là lý do tại sao các mô hình lớn lại tạo ra những điều kỳ diệu, và cũng là lý do tại sao người ta gọi chúng là mô hình lớn, bản chất chính là hàng triệu nơ-ron và tham số, cùng với một lượng dữ liệu khổng lồ, đồng thời cần một lượng tính toán lớn.
Do đó, hiệu suất của mô hình lớn chủ yếu được xác định bởi ba yếu tố: số lượng tham số, lượng và chất lượng dữ liệu, và sức mạnh tính toán. Ba yếu tố này đồng thời ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn. Chúng ta giả định số lượng tham số là p, lượng dữ liệu là n( được tính bằng số lượng Token), thì chúng ta có thể tính toán lượng sức mạnh tính toán cần thiết thông qua quy tắc kinh nghiệm chung, từ đó có thể ước tính tình hình sức mạnh tính toán mà chúng ta cần mua và thời gian đào tạo.
Công suất thường được tính bằng đơn vị Flops, đại diện cho một phép toán dấu phẩy động, phép toán dấu phẩy động là thuật ngữ chung cho các phép cộng, trừ, nhân, chia của các số không nguyên, chẳng hạn như 2.5+3.557, dấu phẩy động đại diện cho khả năng có dấu thập phân, trong khi FP16 đại diện cho độ chính xác hỗ trợ số thập phân, FP32 là độ chính xác phổ biến hơn. Theo quy tắc kinh nghiệm trong thực tế, việc tiền huấn luyện (Pre-traning) một lần ( thường sẽ huấn luyện nhiều lần ) một mô hình lớn, khoảng cần 6np Flops, 6 được gọi là hằng số trong ngành. Còn suy diễn (Inference, là quá trình mà chúng ta nhập một dữ liệu, chờ đợi đầu ra của mô hình lớn ), được chia thành hai phần, nhập n token, xuất n token, vậy tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc đào tạo sử dụng chip CPU để cung cấp hỗ trợ tính toán, nhưng sau đó bắt đầu dần dần sử dụng GPU thay thế, như các chip A100, H100 của một số công ty. Bởi vì CPU tồn tại như một tính toán tổng quát, nhưng GPU có thể được sử dụng như một tính toán chuyên dụng, về hiệu suất năng lượng thì vượt xa CPU. GPU thực hiện phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core. Do đó, các chip thông thường có dữ liệu Flops dưới độ chính xác FP16 / FP32, cái này.