Apple'ın yeni makalesi, DeepSeek-R1'in doğruluk oranındaki çöküş sorununu analiz ediyor.

DeepSeek-R1 modelini kullanmış olanlar, bu modelin cevap vermeden önceki düşünme sürecine aşina olduklarını biliyorlar. Bu, DeepSeek-R1'in de dahil olduğu büyük akıl yürütme modellerinin (LRM, Large Reasoning Model) neden bu kadar övgü aldığının sebeplerinden biridir.

Ancak, Apple'ın altı araştırmacısından oluşan bir ekip buna itiraz etti. Modellerin çeşitli bulmacaları çözmesine izin vererek, araştırma ekibi DeepSeek-R1, o3-mini ve Claude-3.7-Sonnet-Thinking gibi öncü büyük akıl yürütme modellerinin belirli bir karmaşıklık eşiğini aştıktan sonra doğruluk oranlarının tamamen çökme yaşadığını keşfetti.

Grafik | İlgili makaleler (Kaynak:

Özellikle, Apple'ın makine öğrenimi araştırmaları kıdemli direktörü Samy Bengio, makalenin ortak yazarıdır. Sadece Turing Ödülü sahibi Yoshua Bengio'nun küçük kardeşi değil, aynı zamanda Google Brain ekibinin ilk üyelerinden biriydi.

Görsel | İlgili makalenin altı yazarı, sağda ikinci kişi Samy Bengio (Kaynak: arşiv görsel)

X üzerinde bir kullanıcı, Apple'ın bir Gary Marcus gibi davrandığını özetledi, aslında Gary Marcus kendisi de LinkedIn'de Apple'ın bu makalesini onayladı. Şunları yazdı: "Apple'ın en son yayımladığı, büyük dil modellerindeki 'akıl yürütme' yetenekleriyle ilgili makale oldukça çarpıcı. Bir hafta sonu uzun yazımda bunun nedenlerini açıkladım (ve muhtemel bir karşıt görüşü tartıştım), bu nedenle herkesin aslında çok şaşırmaması gerektiğini gösterdim."

Gary Markus'un "Hafta Sonu Uzun Yazısı"nda şöyle yazıyor: "Bu Apple'ın yeni makalesi, benim eleştirel görüşümü daha da doğruluyor: En son geliştirilen sözde 'çıkarım modeli' o1 versiyonunu aşmış olsa bile, Hanoit kulesi gibi klasik sorunlarda dışarıda güvenilir çıkarım gerçekleştiremiyorlar. 'Çıkarım yeteneği' veya 'çıkarım sırasında hesaplama'nın büyük dil modellerini doğru yola döndüreceği, sadece ölçek genişlemesine dayanarak ama sürekli başarısız olan (her zaman 'GPT-5' unvanına layık bir teknik atılım üretemeyen) araştırmacılar için bu kesinlikle kötü bir haber."

Görsel | Gary Marcus'ın kişisel web sitesinde paylaştığı "hafta sonu uzun yazısı" (kaynak:

Peki, bu gerçekten "kötü haber" mi yoksa "iyi haber" mi? Öncelikle Apple'ın bu makalesinin detaylarından başlayalım.

###, 100 doğru hareket gerçekleştirebilir, ancak 5 adımın üzerinde doğru bir işlem veremez.

Araştırmada, Apple'dan gelen araştırma ekibi üç farklı akıl yürütme modeli keşfetti: Düşük karmaşıklık görevlerinde, standart büyük dil modellerinin performansı büyük akıl yürütme modellerinden daha iyiydi; orta karmaşıklık görevlerinde, büyük akıl yürütme modelleri daha iyi performans gösterdi; yüksek karmaşıklık görevlerinde ise her iki model türü de görevleri etkili bir şekilde tamamlayamadı.

Sorunlar kritik karmaşıklığa yaklaşırken, akıl yürütme için gereken çabanın tersine bir şekilde azaldığı görülüyor, bu da büyük akıl yürütme modellerinin hesaplama ölçeğinin genişlemesinde muhtemelen bir içsel sınır olduğunu gösteriyor.

Araştırma ekibi, bu bulguların büyük akıl yürütme modellerinin yetenekleriyle ilgili ana akım varsayımlara meydan okuduğunu ve mevcut yöntemlerin genelleştirilebilir akıl yürütme sağlama konusunda temel engellerle karşılaşabileceğini belirtmiştir.

En dikkat çekici olanı, araştırma ekibinin büyük çıkarım modellerinin kesin hesaplamalar yapma konusundaki sınırlamalarını gözlemlemesidir. Örneğin, modellere matematik bulmacası olan Hanoi kulesinin çözüm algoritması verildiğinde, bu konuda performansları artmamıştır.

Ayrıca, modelin ilk hata adımlarına dair derinlemesine analiz, beklenmedik davranış kalıplarını ortaya çıkardı. Örneğin, model Hanoi kulesinde 100'e kadar doğru hareket gerçekleştirebilirken, mantık yürütme oyunu olan nehir bulmacasında 5 adımın üzerinde doğru işlem verememektedir.

Genel olarak, araştırma ekibi bu makalenin mevcut büyük akıl yürütme modellerinin avantajlarını vurguladığını ve aynı zamanda sınırlamalarını ortaya koyduğunu düşünüyor. Ana araştırma sonuçları aşağıdaki beş maddeyi içeriyor:

Birincisi, araştırma ekibi mevcut büyük çıkarım modellerinin belirlenmiş matematiksel standartlar üzerindeki değerlendirme paradigmalarını sorguladı ve algoritma bulmacası ortamını kullanarak kontrol edilebilir bir deney testi platformu tasarladı.

İkincisi, araştırma ekibinin deneyleri, en gelişmiş büyük ölçekli çıkarım modellerinin bile (örneğin, o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) genelleştirilebilir problem çözme yetenekleri geliştiremediğini göstermektedir. Farklı ortamlarda, bir problemin karmaşıklığı belirli bir eşiği aştığında, doğruluğu sonunda sıfıra düşer.

Üçüncüsü, araştırma ekibi büyük akıl yürütme modellerinin akıl yürütme yeteneklerinde, problem karmaşıklığı ile ilişkili bir genişleme sınırı olduğunu keşfetti; bu durum, belirli bir karmaşıklık noktasına ulaştıktan sonra düşünce token sayısının tersine bir azalma eğilimi göstermesinden doğrulanabilir.

Dördüncüsü, araştırma ekibi nihai doğruluğa dayalı mevcut değerlendirme paradigmasını sorguladı ve analiz, sorunun karmaşıklığı arttıkça, doğru çözümün akıl yürütme sürecinde yanlış çözümden daha sonra ortaya çıktığını gösterdi.

Beşincisi, araştırma ekibi büyük akıl yürütme modellerinin kesin hesaplama yetenekleri konusundaki şaşırtıcı sınırlamalarını ortaya koydu; bunlar, açık algoritmalardan faydalanamama ve farklı bulmaca türlerinde akıl yürütmedeki tutarsızlıklar gibi durumları içeriyor.

Büyük ölçekli akıl yürütme modellerinin kendini düzeltme yeteneği sınırlıdır

Büyük çıkarım modelleri, büyük dil modellerinden türetilen ve çıkarım görevleri için optimize edilmiş yeni bir varyanttır.

Bu modeller yeni teknolojik ürünlerdir ve temel özellikleri, kendini yansıtan Düşünce Zinciri (CoT) gibi benzersiz "düşünme" mekanizmalarıdır ve çoklu çıkarım kıyaslamalarında mükemmel performans göstermiştir.

Bu modellerin ortaya çıkışı, büyük dil modellerinin karmaşık akıl yürütme ve sorun çözme yöntemlerinde bir paradigma kayması olabileceğini işaret ediyor. Bazı araştırmacılar, bunun daha genel yapay zeka yeteneklerine doğru önemli bir adım olduğunu düşünüyor.

Bu görüşler ve performans ilerlemeleri mevcut olmasına rağmen, büyük çıkarım modellerinin temel avantajları ve sınırlamaları henüz tam olarak anlaşılamamıştır. Hala yanıtlanmamış bir anahtar soru şudur: Bu büyük çıkarım modellerinin genelleme çıkarım yeteneği var mı? Yoksa sadece farklı biçimlerdeki kalıp eşleştirmelerini mi kullanıyorlar?

Soru karmaşıklığı arttıkça, performansları nasıl değişir? Verilen aynı akıl yürütme token hesaplama bütçesi altında, "düşünme" mekanizmasına sahip olmayan standart büyük dil modellerine göre nasıl bir performans sergiliyorlar?

En önemlisi, mevcut çıkarım yönteminin doğasında yatan sınırlamalar nelerdir? Daha güçlü bir çıkarım yeteneği sağlamak için hangi iyileştirmeler gerekebilir?

Araştırma ekibi, mevcut değerlendirme paradigmasının sınırlamalarının bu konuların sistematik analizinin eksikliğine yol açtığını savunuyor. Mevcut değerlendirmeler öncelikle yerleşik matematiksel ve kodlama ölçütlerine odaklanmaktadır. Bu kıyaslamaların bir değeri olsa da, genellikle veri kirliliğinden muzdariptirler ve farklı senaryolar ve karmaşıklıklar için kontrol edilebilir deneysel koşullar sağlayamazlar.

Bu modellerin çıkarım davranışlarını daha sıkı bir şekilde anlamak için, araştırma ekibi kontrollü deneyler yapabilecek bir ortama ihtiyaç olduğunu düşünüyor.

Bunu yapmak için, bir matematik problemi gibi standart bir kıyaslama kullanmak yerine, kontrollü bir bulmaca ortamını benimsediler, yani temel mantığı korurken bulmaca öğelerini değiştirerek, karmaşıklığın sistematik olarak değiştirilebilmesi ve çözüm süreci ve iç akıl yürütme süreci incelenebilir.

(kaynak: kaynak görüntü)

Bu bulmacaların aşağıdaki özellikleri vardır:

(1) Karmaşıklık üzerinde hassas kontrol sağlayabilme;

(2) Mevcut kriterlerde yaygın olan kirlilikten kaçınmak;

(3) Sadece açıkça verilen kurallara dayanmanız yeterlidir, algoritmik akıl yürütme yeteneğini vurgular.

(4) Simülatör tabanlı katı değerlendirmeleri destekler, kesin çözüm kontrolü ve ayrıntılı arıza analizi gerçekleştirme yeteneğine sahiptir.

Ampirik araştırmalar aracılığıyla, mevcut büyük akıl yürütme modelleri hakkında birkaç önemli bulguyu ortaya koydular:

Öncelikle, büyük çıkarım modelleri pekiştirme öğrenimi yoluyla karmaşık öz-yansıtma mekanizmalarını öğrenebilse de, planlama görevleri için genelleştirilebilir problem çözme yetenekleri geliştiremediler ve belirli bir karmaşıklık eşiğini aştıklarında performansları sıfıra düşüyor.

İkincisi, araştırma ekibi, eşdeğer akıl yürütme hesaplaması altında büyük akıl yürütme modelleri ile standart büyük modellerin karşılaştırılmasının üç farklı akıl yürütme mekanizmasını ortaya çıkardığını belirtti.

Birinci mekanizma şudur: Daha basit ve daha az birleştirilebilir sorunlar için, standart büyük modeller daha yüksek verimlilik ve doğruluk sergilemektedir.

İkinci mekanizma şudur: Sorunun karmaşıklığının makul bir şekilde artmasıyla, büyük akıl yürütme modelleri avantaj kazandı.

Üçüncü mekanizma şudur: Sorun, kombinasyon derinliği arttıkça karmaşıklaştığında, her iki model türü de tamamen performans çöküşü yaşar.

!

(Kaynak: Veri Görseli)

Problem karmaşıklığı arttıkça, büyük çıkarım modellerinin, problemin karmaşıklığı arttıkça üretim uzunluğu sınırına ulaşmaktan çok uzakta olmalarına rağmen, çıkarım çabalarını (çıkarım sırasındaki belirteç sayısıyla ölçüldüğü gibi) azaltmaya başladığını not etmek önemlidir.

(Kaynak: Veri Görseli)

Bu, büyük ölçekli çıkarım modellerinin çıkarım yeteneklerinin temel bir sınırlaması olduğunu göstermektedir: çıkarım süresi, sorun karmaşıklığı arttıkça belirgin bir şekilde artmaktadır.

Ek olarak, ara akıl yürütme yörüngelerinin analizi yoluyla, araştırma ekibi problemin karmaşıklığı ile ilgili düzenli bir fenomen buldu, yani daha basit problemlerde, çıkarım modeli genellikle hızlı bir şekilde yanlış çözümü bulabilir, ancak yine de verimsiz bir şekilde yanlış seçeneği keşfetmeye devam eder, bu da genellikle "fazla düşünme" olarak adlandırılır.

Orta karmaşıklıktaki sorunlarda, model doğru çözüme ulaşmadan önce çok sayıda yanlış yolu geniş bir şekilde keşfetmek zorundadır. Ancak belirli bir karmaşıklık eşiğini aştığında, model doğru çözümü bulamaz.

Pekin Posta ve Telekomünikasyon Üniversitesi'nde doçent olan Bai Ting, DeepTech'e insan düşünme biçimine benzer şekilde, karmaşık problemler için doğru cevabın ne olduğunu bilmeseler de, çoğu zaman neyin yanlış olduğunu bildiklerini söyledi. Spesifik olarak, bu, çözüm uzayının büyüklüğü ile ilgilidir, çünkü basit problemlerin çözüm uzayı kısadır ve özellik eşleştirme derecesi yüksektir, doğru çözüm genellikle doğal olarak düşünme yolunun ön ucundadır, karmaşık problemlerin çözüm alanı ise çok boyutlu değişkenlerin eşleşmesi ve mantıksal seviyelerin iç içe geçmesi nedeniyle üstel olarak genişler ve çözüm uzayı çok büyüktür, bu da nesnel olarak düşünme dizisindeki göreceli postarite olarak kendini gösterir.

Akıl yürütme modelinin "düşüncesinde" ne oldu?

Çalışmada, deneylerin çoğu çıkarım modelleri ve Claude 3.7 Sonnet (çıkarımlı/çıkarımsız) ve DeepSeek-R1/V3 gibi çıkarım olmayan muadilleri üzerinde gerçekleştirilmiştir. Araştırma ekibi bu modelleri seçti çünkü OpenAI'nin O serisi gibi modellerin aksine, Thinking token'a erişime izin veriyorlar.

Araştırma ekibi, her bir bulmaca örneği için 25 örnek oluşturdu ve her bir modelin ortalama performansını raporladı.

Düşünce süreçlerini daha derinlemesine anlamak için araştırma ekibi, bu modellerin akıl yürütme izlerini titiz bir şekilde analiz etti.

Bu süre zarfında, bulmaca deney ortamının inşası yoluyla modelin nihai cevabının ötesinde derinlemesine analiz elde ettiler, böylece onun tarafından oluşturulan akıl yürütme yörüngesinin (yani "düşünce süreci") daha ayrıntılı gözlem ve analizini yapabildiler.

Spesifik olarak, bir bulmaca simülatörünün yardımıyla, modelin düşünme sürecinde keşfedilen ara çözümleri çıkardılar ve analiz ettiler.

Daha sonra, bu ara çözümün kalıplarını ve özelliklerini, akıl yürütme sürecindeki sıralı pozisyona göre doğruluğunu ve bu kalıpların sorun karmaşıklığının artmasıyla nasıl evrildiğini incelediler.

Bu analizde, araştırma ekibi Claude 3.7 Sonnet akıl yürütme modelinin bulmaca grubu deneyinde ürettiği akıl yürütme izlerine odaklandı.

İzlemede tanımlanan her bir ara çözüm için, araştırma ekibi aşağıdakileri kaydetti: (1) akıl yürütme yörüngesindeki göreceli konumu (toplam düşünce uzunluğu ile normalleştirilmiş), (2) araştırma ekibinin bulmaca simülatörü tarafından doğrulanan doğruluğu ve (3) ilgili problemin karmaşıklığı.

Bu, araştırma ekibinin tüm akıl yürütme sürecinde çözümün oluşumundaki ilerleme ve doğruluğu tanımlamasını sağladı.

lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

Araştırma ekibi, daha basit sorunlar için akıl yürütme modellerinin genellikle düşünmenin erken aşamalarında doğru çözümleri bulduğunu, ancak sonrasında yanlış çözümler aramaya devam ettiğini keşfetti.

Doğru çözümle (yeşil) karşılaştırıldığında, yanlış çözümün (kırmızı) dağılımı düşünce zincirinin sonuna doğru önemli ölçüde kayar. Sorunun karmaşıklığı orta derecede arttıkça bu eğilim tersine döner: model önce yanlış çözümü araştırır ve çoğunlukla düşünmenin sonlarında doğru çözüme ulaşır. Bu sefer, yanlış çözeltinin (kırmızı) dağılımı, doğru çözeltiden (yeşil) daha aşağı doğru çarpıktır.

Son olarak, daha karmaşık sorunlar için model çökme belirtileri göstermeye başladı, bu da modelin düşünme sürecinde herhangi bir doğru çözüm üretemediği anlamına geliyor.

Aşağıdaki resim, Hanoi kulesi ortamında, düşünce dizilerinin kesim (aralık) içindeki çözümlerinin doğruluğuna yönelik ek bir analiz sunmaktadır.

! n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

Gözlemlenebilir ki, daha basit sorunlar (daha küçük N değerleri) için düşünme ilerledikçe, çözümün doğruluğu genellikle düşer veya dalgalanır; bu da aşırı düşünme fenomenine dair daha fazla kanıt sunar.

Ancak daha karmaşık sorunlar için bu eğilim değişir - çözümlerin doğruluğu düşünmenin ilerlemesiyle artar, belirli bir eşiğe ulaşana kadar. Bu karmaşıklık eşiğini aştığında, "çöküş modu" altında modelin doğruluk oranı sıfırdır.

Bai Ting, DeepTech'e modelin karmaşık problemlerde birden fazla çıkarıma ihtiyaç duyduğunu ve doğru bir çözüm olmadığı varsayımı altında, model çıkarım mekanizmasının bir verimlilik optimizasyon stratejisi oluşturmak için birden fazla yineleme kullanması mümkündür. Bu nedenle, bu makaledeki bulguların dikkatli bir şekilde analiz edilmesi ve model uygulama düzeyinden doğrulanması gerekir.

Bai Ting, büyük modellerin akıl yürütme sürecinin esasen hafıza kalıplarının çağrılması olmasının da mümkün olduğuna dikkat çekti. DeepSeek-R1 ve o3-mini gibi modeller için performansları, eğitim verilerindeki bellek modunun kapsamına büyük ölçüde bağlıdır ve sorun karmaşıklığı bellek modunun kapsama eşiğini aştığında (Apple araştırma ekibi tarafından tasarlanan kontrol edilebilir bulmaca ortamı gibi), model "sıfır doğruluk" durumuna düşer.

Bu bulmaca ortamı, sorun karmaşıklığını ince ayrıntılı bir şekilde kontrol etme olanağı sunan kontrollü deneyler için uygundur, ancak bunlar yalnızca akıl yürütme görevlerinin küçük bir kısmını temsil eder ve gerçek dünya veya bilgi yoğun akıl yürütme sorunlarının çeşitliliğini yakalayamayabilir.

Bu çalışmanın öncelikle, araştırma ekibinin iç durumunu veya mimari bileşenlerini analiz etmesini engelleyen bir sınırlama olan kapalı, son teknoloji büyük çıkarım modellerine kara kutu API erişimine dayandığını belirtmek önemlidir.

Ek olarak, deterministik bir bulmaca simülatörü kullanırken, araştırma ekibi akıl yürütmenin adım adım mükemmel bir şekilde doğrulanabileceğini varsaydı. Bununla birlikte, daha az yapılandırılmış etki alanlarında, bu kesin doğrulamanın elde edilmesi zor olabilir ve bu da analiz yönteminin daha geniş bir çıkarım senaryosu yelpazesine geçişini sınırlar.

Genel olarak, araştırma ekibi, kontrol edilebilir bir bulmaca çözme ortamı aracılığıyla problem karmaşıklığı perspektifinden son teknoloji büyük ölçekli çıkarım modellerini inceledi. Bu sonuç, mevcut modellerin sınırlılıklarını ortaya koymaktadır: karmaşık öz-yansıtma mekanizmalarına rağmen, bu modeller belirli bir karmaşıklık eşiğinin ötesinde genelleştirilebilir çıkarım becerileri geliştirememektedir. Araştırma ekibi, bu sonucun, bu modellerin akıl yürütme yeteneklerini incelemenin yolunu açabileceğine inanıyor.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)