Bài báo mới của Apple phân tích vấn đề sụp đổ độ chính xác của DeepSeek-R1

Những người đã sử dụng mô hình DeepSeek-R1 chắc hẳn không xa lạ gì với quá trình suy nghĩ của nó trước khi đưa ra câu trả lời, đây cũng là một trong những lý do khiến các mô hình suy luận lớn (LRM, Large Reasoning Model) bao gồm DeepSeek-R1 được đánh giá cao.

Tuy nhiên, một nhóm gồm sáu nhà nghiên cứu của Apple đã đặt câu hỏi về điều này. Bằng cách yêu cầu các mô hình giải nhiều câu đố khác nhau, nhóm nghiên cứu phát hiện ra rằng độ chính xác của các mô hình suy luận lớn tiên tiến, DeepSeek-R1, o3-mini và Claude-3.7-Sonnet-Thinking, đã sụp đổ trên diện rộng sau khi chúng vượt quá ngưỡng độ phức tạp nhất định.

Hình | Tài liệu liên quan (Nguồn:

Cần lưu ý rằng Giám đốc Nghiên cứu Học máy cao cấp của Apple, Samy Bengio, là đồng tác giả của bài báo này. Ông không chỉ là em trai của Yoshua Bengio, người đoạt Giải Turing, mà còn là một trong những thành viên đầu tiên của đội Google Brain.

Hình | Sáu tác giả của bài báo liên quan, bên phải thứ hai là Samy Bengio (Nguồn: Tư liệu)

Một cư dân mạng trên X kết luận Apple là Gary Marcus (Gary Marcus), trên thực tế, bản thân Gary Marcus cũng đăng tải trên LinkedIn để khẳng định bài báo của Apple. Ông viết: "Bài báo mới nhất của Apple về khả năng 'lý luận' trong các mô hình ngôn ngữ lớn khá ấn tượng. Trong một bài viết cuối tuần dài, tôi giải thích lý do tại sao (và khám phá một phản đối có thể xảy ra) để cho thấy lý do tại sao bạn không nên quá ngạc nhiên. ”

Trong "Bài báo cuối tuần dài" của Gary Marcus, ông viết: "Bài báo mới này của Apple tiếp tục hỗ trợ cho lời chỉ trích của chính tôi: mặc dù cái gọi là 'mô hình suy luận' mới được phát triển đã lặp đi lặp lại vượt qua phiên bản O1, chúng vẫn không đạt được lý luận đáng tin cậy ngoài phân phối về các vấn đề cổ điển như Tháp Hà Nội." Đây là tin xấu cho các nhà nghiên cứu hy vọng rằng 'sức mạnh suy luận' hoặc 'tính toán thời gian suy luận' sẽ đưa các mô hình ngôn ngữ lớn trở lại đúng hướng, tránh xa việc mở rộng quy mô đơn giản và thất bại lặp đi lặp lại (không bao giờ tạo ra những đột phá công nghệ xứng đáng với cái tên 'GPT-5'). ”

Hình | Gary Marcus đăng trên trang web cá nhân của mình "Bài viết dài cuối tuần" (Nguồn:

Vậy, đây cuối cùng là "tin xấu" hay "tin tốt", hãy bắt đầu từ chi tiết bài báo của Apple.

có thể thực hiện tối đa 100 hành động đúng, nhưng không thể đưa ra nhiều hơn 5 bước chính xác

Trong nghiên cứu, nhóm nghiên cứu từ Apple đã phát hiện ra ba loại mô hình suy luận khác nhau: trong các nhiệm vụ có độ phức tạp thấp, các mô hình ngôn ngữ lớn tiêu chuẩn thể hiện tốt hơn các mô hình suy luận lớn; trong các nhiệm vụ có độ phức tạp trung bình, các mô hình suy luận lớn thể hiện xuất sắc hơn; còn trong các nhiệm vụ có độ phức tạp cao, cả hai loại mô hình đều không thể hoàn thành nhiệm vụ một cách hiệu quả.

Khi vấn đề gần đạt đến độ phức tạp tới hạn, nỗ lực cần thiết cho việc suy luận lại giảm một cách ngược với trực giác, điều này cho thấy các mô hình suy luận lớn có thể tồn tại một giới hạn nội tại trong việc mở rộng quy mô tính toán.

Nhóm nghiên cứu cho biết, những hiểu biết này thách thức những giả thuyết chính thống về khả năng của các mô hình suy diễn lớn và chỉ ra rằng các phương pháp hiện tại có thể gặp phải trở ngại cơ bản trong việc đạt được suy diễn có thể tổng quát.

Điều đáng chú ý nhất là nhóm nghiên cứu đã quan sát thấy những hạn chế của các mô hình suy diễn lớn trong việc thực hiện các phép toán chính xác. Ví dụ, khi cung cấp cho mô hình thuật toán giải bài toán xếp chồng tháp Hà Nội, hiệu suất của chúng trong vấn đề này không được cải thiện.

Ngoài ra, một phân tích chuyên sâu về các bước thất bại đầu tiên của mô hình đã tiết lộ các mô hình hành vi đáng ngạc nhiên. Ví dụ, mô hình có thể hoàn thành tối đa 100 nước đi đúng trong Tháp Hà Nội, nhưng không thể đưa ra nhiều hơn 5 nước đi đúng trong trò chơi suy luận logic River Crossing Puzzle.

Nói chung, nhóm nghiên cứu cho rằng bài báo này vừa làm nổi bật những ưu điểm của các mô hình suy diễn lớn hiện có, vừa tiết lộ những hạn chế của chúng, với năm kết luận nghiên cứu chính như sau:

Thứ nhất, nhóm nghiên cứu đã đặt câu hỏi về phương pháp đánh giá các mô hình suy luận lớn hiện nay trên các tiêu chuẩn toán học đã định và thiết kế một nền tảng thử nghiệm có thể kiểm soát bằng cách sử dụng môi trường câu đố thuật toán.

Thứ hai, các thí nghiệm của nhóm nghiên cứu cho thấy ngay cả các mô hình suy luận quy mô lớn tiên tiến nhất (ví dụ: o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) vẫn không phát triển được khả năng giải quyết vấn đề có thể khái quát hóa. Trong các môi trường khác nhau, khi độ phức tạp của một vấn đề vượt quá một ngưỡng nhất định, độ chính xác của nó cuối cùng sẽ giảm xuống bằng không.

Thứ ba, nhóm nghiên cứu phát hiện ra rằng có một giới hạn mở rộng liên quan đến mức độ phức tạp của vấn đề trong khả năng suy luận của các mô hình suy luận lớn, điều này có thể được xác nhận bởi xu hướng giảm phản trực giác về số lượng token tư duy sau khi đạt đến một điểm phức tạp nhất định.

Thứ tư, nhóm nghiên cứu đặt câu hỏi về mô hình đánh giá hiện tại dựa trên độ chính xác cuối cùng và phân tích cho thấy khi độ phức tạp của vấn đề tăng lên, giải pháp chính xác xuất hiện muộn hơn trong quá trình suy luận so với giải pháp sai.

Thứ năm, nhóm nghiên cứu đã chỉ ra những hạn chế đáng kinh ngạc của các mô hình suy diễn lớn trong khả năng thực hiện các phép tính chính xác, bao gồm việc chúng không thể hưởng lợi từ các thuật toán rõ ràng và sự không nhất quán trong suy diễn giữa các loại câu đố khác nhau.

khả năng tự sửa chữa của các mô hình suy diễn lớn là hạn chế

Theo thông tin, mô hình suy diễn lớn - là một biến thể mới được tối ưu hóa đặc biệt cho các nhiệm vụ suy diễn, phát sinh từ các mô hình ngôn ngữ lớn.

Các mô hình này thuộc về sản phẩm công nghệ mới, với đặc điểm cốt lõi là cơ chế "suy nghĩ" độc đáo, chẳng hạn như chuỗi suy nghĩ (CoT, Chain-of-Thought) có khả năng tự phản ánh, và đã thể hiện hiệu suất vượt trội trong nhiều bài kiểm tra chuẩn mực suy luận.

Sự xuất hiện của những mô hình này đánh dấu khả năng xử lý suy luận phức tạp và giải quyết vấn đề của các mô hình ngôn ngữ lớn có thể đã có sự chuyển mình về phương thức. Một số nhà nghiên cứu cho rằng, điều này đại diện cho một bước tiến quan trọng hướng tới khả năng trí tuệ nhân tạo tổng quát hơn.

Bất chấp những quan điểm và tiến bộ về hiệu suất này, những lợi ích và hạn chế cơ bản của các mô hình suy luận lớn vẫn chưa được hiểu đầy đủ. Một câu hỏi quan trọng chưa được trả lời là: Các mô hình suy luận lớn này có khả năng suy luận tổng quát không? Hay họ chỉ tận dụng các hình thức khớp mẫu khác nhau?

Hiệu suất của họ thay đổi như thế nào khi độ phức tạp của vấn đề tăng lên? Với cùng một ngân sách điện toán mã thông báo suy luận, làm thế nào để chúng so sánh với các mô hình ngôn ngữ lớn tiêu chuẩn không có cơ chế "suy nghĩ"?

Điều quan trọng nhất là giới hạn vốn có của phương pháp suy luận hiện tại là gì? Cần có những cải tiến nào để đạt được khả năng suy luận mạnh mẽ hơn?

Nhóm nghiên cứu lập luận rằng những hạn chế của mô hình đánh giá hiện tại dẫn đến việc thiếu phân tích có hệ thống về những vấn đề này. Các đánh giá hiện có tập trung chủ yếu vào các tiêu chuẩn toán học và mã hóa đã được thiết lập. Mặc dù các điểm chuẩn này có một số giá trị, nhưng chúng thường bị ô nhiễm dữ liệu và không thể cung cấp các điều kiện thử nghiệm có thể kiểm soát được cho các kịch bản và độ phức tạp khác nhau.

Để hiểu rõ hơn về hành vi suy diễn của những mô hình này, nhóm nghiên cứu cho rằng cần một môi trường có thể thực hiện các thí nghiệm có kiểm soát.

Để làm điều này, họ không sử dụng các tiêu chuẩn tham chiếu giống như bài toán toán học, mà thay vào đó là một môi trường câu đố có thể kiểm soát, tức là điều chỉnh các yếu tố của câu đố trong khi vẫn giữ lại logic cốt lõi, để có thể thay đổi hệ thống độ phức tạp và kiểm tra quá trình giải quyết cũng như quá trình suy luận bên trong.

(Nguồn: Tư liệu hình ảnh)

Những câu đố này có những đặc điểm sau:

(1) Có thể cung cấp kiểm soát tinh vi đối với độ phức tạp;

(2) Tránh ô nhiễm phổ biến trong các tiêu chuẩn hiện tại;

(3) Chỉ cần dựa vào các quy tắc được xác định rõ ràng, nhấn mạnh khả năng suy luận theo thuật toán;

(4) Hỗ trợ đánh giá nghiêm ngặt dựa trên trình giả lập, có khả năng thực hiện kiểm tra giải pháp chính xác và phân tích lỗi chi tiết.

Thông qua nghiên cứu thực chứng, họ đã tiết lộ một số phát hiện quan trọng về các mô hình suy diễn lớn hiện tại:

Thứ nhất, mặc dù các mô hình suy luận lớn có thể học các cơ chế tự phản ánh phức tạp thông qua học tăng cường, nhưng chúng không phát triển khả năng giải quyết vấn đề có thể khái quát hóa cho các nhiệm vụ lập kế hoạch và hiệu suất của chúng giảm xuống 0 sau khi vượt quá ngưỡng độ phức tạp nhất định.

Thứ hai, nhóm nghiên cứu đã chỉ ra ba cơ chế suy diễn khác nhau thông qua việc so sánh mô hình suy diễn lớn và mô hình lớn tiêu chuẩn dưới sự tính toán suy diễn tương đương.

Cơ chế đầu tiên là: Đối với những vấn đề đơn giản hơn, có tính kết hợp thấp hơn, mô hình lớn tiêu chuẩn thể hiện hiệu suất và độ chính xác cao hơn.

Cơ chế thứ hai là: Khi độ phức tạp của vấn đề tăng lên một cách vừa phải, các mô hình suy luận lớn đã có lợi thế.

Cơ chế thứ ba là: Khi vấn đề trở nên phức tạp hơn với độ sâu của sự kết hợp, cả hai loại mô hình đều trải qua sự sụp đổ hiệu suất hoàn toàn.

(Nguồn: Tư liệu)

Cần lưu ý rằng, khi gần đến điểm giới hạn mất hiệu lực này, mặc dù việc chạy các mô hình suy diễn lớn chưa đạt đến giới hạn chiều dài sinh, nhưng với sự gia tăng độ phức tạp của vấn đề, chúng bắt đầu giảm đầu vào suy diễn (đo bằng số lượng tokens trong thời gian suy diễn).

(Nguồn: Tài liệu hình ảnh)

Điều này cho thấy rằng khả năng suy luận của các mô hình suy luận lớn có một giới hạn cơ bản: thời gian suy luận của chúng sẽ tăng đáng kể khi độ phức tạp của vấn đề tăng lên.

Ngoài ra, thông qua phân tích quỹ đạo suy luận trung gian, nhóm nghiên cứu đã tìm thấy một hiện tượng thường xuyên liên quan đến độ phức tạp của vấn đề, tức là trong các bài toán đơn giản hơn, mô hình suy luận thường có thể nhanh chóng tìm ra lời giải sai, nhưng vẫn không hiệu quả tiếp tục khám phá phương án sai, thường được gọi là "suy nghĩ quá nhiều".

Trong các vấn đề có độ phức tạp trung bình, mô hình cần phải trải qua việc khám phá rộng rãi nhiều con đường sai lầm trước khi tìm ra giải pháp đúng. Và khi vượt qua một ngưỡng độ phức tạp nhất định, mô hình hoàn toàn không thể tìm ra giải pháp đúng.

Bai Ting, phó giáo sư tại Đại học Bưu chính Viễn thông Bắc Kinh, nói với DeepTech rằng tương tự như cách suy nghĩ của con người, đối với các vấn đề phức tạp, mặc dù họ không biết đâu là câu trả lời đúng nhưng nhiều khi họ biết điều gì là sai. Cụ thể, điều này liên quan đến kích thước của không gian giải pháp, do không gian giải pháp của các vấn đề đơn giản ngắn và mức độ phù hợp tính năng cao nên lời giải đúng thường tự nhiên ở đầu tiên của con đường tư duy, trong khi không gian giải của các vấn đề phức tạp được mở rộng theo cấp số nhân do sự kết hợp của các biến đa chiều và sự lồng nhau của các cấp độ logic, và không gian giải pháp rất lớn, được thể hiện một cách khách quan là hậu đề tương đối trong trình tự tư duy.

Mô hình suy luận "tư duy" bên trong đã xảy ra điều gì?

Trong nghiên cứu, hầu hết các thí nghiệm được thực hiện trên các mô hình suy luận và các mô hình không suy luận của chúng, chẳng hạn như Claude 3.7 Sonnet (có suy luận/không suy luận) và DeepSeek-R1/V3. Nhóm nghiên cứu đã chọn các mô hình này bởi vì, không giống như các mô hình như O-series của OpenAI, chúng cho phép truy cập vào mã thông báo Thinking.

Đối với mỗi ví dụ câu đố, nhóm nghiên cứu đã tạo ra 25 mẫu và báo cáo hiệu suất trung bình của từng mô hình.

Để hiểu sâu hơn về quá trình suy nghĩ của các mô hình suy diễn, nhóm nghiên cứu đã thực hiện phân tích chi tiết về dấu vết suy diễn của chúng.

Trong thời gian này, họ đã xây dựng môi trường thí nghiệm câu đố, đạt được sự phân tích sâu sắc về câu trả lời cuối cùng của mô hình, từ đó có thể quan sát và phân tích một cách tinh vi hơn về đường đi suy luận mà nó tạo ra (tức là "quá trình tư duy").

Cụ thể, họ đã sử dụng bộ mô phỏng câu đố để trích xuất và phân tích các giải pháp trung gian được khám phá trong quá trình tư duy của mô hình.

Sau đó, họ đã khảo sát các mô hình và đặc điểm của những giải pháp trung gian này, tính đúng đắn của vị trí thứ tự trong quá trình suy luận, cũng như cách mà các mô hình này phát triển khi độ phức tạp của vấn đề tăng lên.

Đối với phân tích này, nhóm nghiên cứu đã tập trung vào dấu vết suy luận được tạo ra bởi mô hình suy luận Claude 3.7 Sonnet trong các thí nghiệm nhóm câu đố.

Đối với mỗi giải pháp trung gian được xác định trong dấu vết, nhóm nghiên cứu đã ghi lại những điều sau: (1) vị trí tương đối của nó trong quỹ đạo suy luận (chuẩn hóa bằng tổng độ dài suy nghĩ), (2) tính đúng đắn của nó được xác minh bởi trình mô phỏng câu đố của nhóm nghiên cứu và (3) độ phức tạp của vấn đề tương ứng.

Điều này cho phép nhóm nghiên cứu mô tả tiến trình và độ chính xác của việc hình thành giải pháp trong toàn bộ quá trình suy diễn.

lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

Nhóm nghiên cứu phát hiện rằng, đối với những vấn đề đơn giản hơn, mô hình suy luận thường sẽ tìm ra giải pháp đúng trong giai đoạn đầu của quá trình suy nghĩ, nhưng sau đó sẽ tiếp tục khám phá những phương pháp giải quyết sai.

So với giải pháp đúng (màu xanh lá cây), sự phân bố của giải pháp sai (màu đỏ) được dịch chuyển đáng kể về phía cuối chuỗi suy nghĩ. Xu hướng này đảo ngược khi độ phức tạp của vấn đề tăng vừa phải: mô hình khám phá giải pháp sai trước và chủ yếu đi đến giải pháp chính xác muộn trong suy nghĩ. Lần này, sự phân bố của giải pháp sai (màu đỏ) bị lệch xuống nhiều hơn so với giải pháp đúng (màu xanh lá cây).

Cuối cùng, đối với những vấn đề có độ phức tạp cao hơn, mô hình bắt đầu xuất hiện hiện tượng sụp đổ, điều này có nghĩa là mô hình trong quá trình suy nghĩ không thể tạo ra bất kỳ giải pháp đúng nào.

Hình dưới đây trình bày phân tích bổ sung về độ chính xác của giải pháp trong các đoạn (khoảng) của chuỗi tư duy trong môi trường Tháp Hà Nội.

! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

Có thể quan sát thấy rằng, đối với những vấn đề đơn giản hơn (giá trị N nhỏ hơn), khi quá trình suy nghĩ tiến triển, độ chính xác của giải pháp thường giảm xuống hoặc dao động, điều này cung cấp thêm bằng chứng cho hiện tượng quá suy nghĩ.

Tuy nhiên, đối với các vấn đề phức tạp hơn, xu hướng này thay đổi – độ chính xác của giải pháp tăng lên khi tư duy tiến triển, cho đến khi đạt đến một ngưỡng nhất định. Vượt quá ngưỡng độ phức tạp này, độ chính xác của mô hình bằng không trong "chế độ va chạm".

Bai Ting nói với DeepTech rằng mô hình cần nhiều suy luận trong các vấn đề phức tạp và với tiền đề là không có giải pháp chính xác, có thể cơ chế suy luận mô hình sử dụng nhiều lần lặp lại để tạo ra chiến lược tối ưu hóa hiệu quả, đây có thể là chiến lược bảo vệ tài nguyên để ngăn chặn quá nhiều lần lặp lại. Do đó, những phát hiện trong bài báo này cần được phân tích và kiểm chứng kỹ lưỡng từ cấp độ triển khai mô hình.

Bai Ting chỉ ra rằng cũng có thể quá trình suy luận của các mô hình lớn về cơ bản là việc gọi các mẫu bộ nhớ. Đối với các mô hình như DeepSeek-R1 và o3-mini, hiệu suất của chúng phụ thuộc nhiều vào độ bao phủ của chế độ bộ nhớ trong dữ liệu đào tạo và khi độ phức tạp của vấn đề vượt quá ngưỡng bao phủ của chế độ bộ nhớ (chẳng hạn như môi trường câu đố có thể điều khiển được thiết kế bởi nhóm nghiên cứu của Apple), mô hình rơi vào trạng thái "độ chính xác bằng không".

Mặc dù môi trường giải đố này cho phép các thí nghiệm có kiểm soát chi tiết về độ phức tạp của vấn đề, nhưng chúng chỉ đại diện cho một phần nhỏ của nhiệm vụ suy luận và có thể không nắm bắt được sự đa dạng của các vấn đề lý luận trong thế giới thực hoặc chuyên sâu về kiến thức.

Điều quan trọng cần chỉ ra là nghiên cứu này chủ yếu dựa trên quyền truy cập API hộp đen vào các mô hình suy luận lớn khép kín, tiên tiến, một hạn chế ngăn nhóm nghiên cứu phân tích trạng thái bên trong hoặc các thành phần kiến trúc của nó.

Ngoài ra, khi sử dụng mô phỏng câu đố xác định, nhóm nghiên cứu giả định rằng lý luận có thể được xác minh hoàn hảo từng bước một. Tuy nhiên, trong các lĩnh vực có cấu trúc thấp hơn, việc xác minh chính xác này có thể khó thực hiện, do đó hạn chế việc chuyển giao phương pháp phân tích này sang các kịch bản lý luận rộng hơn.

Nhìn chung, nhóm nghiên cứu đã kiểm tra các mô hình suy luận quy mô lớn tiên tiến từ góc độ phức tạp của vấn đề thông qua môi trường giải câu đố có thể kiểm soát được. Kết quả này cho thấy những hạn chế của các mô hình hiện tại: mặc dù có cơ chế tự phản ánh phức tạp, các mô hình này không thể phát triển các kỹ năng suy luận có thể khái quát hóa vượt quá một ngưỡng độ phức tạp nhất định. Nhóm nghiên cứu tin rằng kết quả này có thể mở đường cho việc nghiên cứu khả năng suy luận của các mô hình này.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)