İşte yeni yapay zeka modeli..
Singapur merkezli Sapient ekibi “Hiyerarşik Akıl Yürütme Modeli (HRM)” adını verdikleri, insan beynindeki çok katmanlı ve farklı zaman ölçekli işlemeyi taklit eden yeni bir mimari tanıttı. 27 milyon parametre ve yalnızca 1.000 eğitim örneğiyle eğitilen HRM, akıl yürütme odaklı ARC-AGI testlerinde güçlü sonuçlar aldı; bu haber 28 Ağustos 2025’te NTV’de de yer aldı.
HRM nasıl çalışıyor: Klasik adım adım düşünme yaklaşımını takip etmiyor. Bunun yerine yavaş ve soyut planlama yapan bir üst seviye modül ile hızlı ve ayrıntılı hesap yapan bir alt seviye modülü birlikte çalışıyor; model tek ileri geçişte ardışık akıl yürütme yapabiliyor ve çözümü birkaç kısa “düşünme patlamasıyla” iteratif olarak iyileştiriyor. Bu tasarım “beyinden esinli hiyerarşi ve çoklu zaman ölçeği” fikrine dayanıyor.
Sonuçlar ne diyor: Çalışmaya göre HRM, ARC-AGI-1’de yaklaşık %40,3; ARC-AGI-2’de %5 skor alarak, aynı ölçekte karşılaştırılan bazı ileri modellerin üzerinde puanlar elde ediyor. Örneğin OpenAI o3-mini-high ARC-AGI-1’de %34,5; Anthropic Claude 3.7 %21,2; DeepSeek R1 %15,8 olarak veriliyor. HRM ayrıca zor Sudoku’larda ve labirentlerde en kısa yol bulmada “neredeyse kusursuz” performans bildiriyor. Bu bulgular hakem değerlendirmesinden geçmemiş bir ön baskıdan geliyor.
“Gerçek fark nereden geliyor?” tartışması: ARC-AGI organizatörlerinin bağımsız incelemesi, performans farkının mimariden ziyade eğitimde kullanılan özel bir “iteratif iyileştirme” tekniğinden kaynaklanmış olabileceğini öne sürüyor. Yani yenilikçi hiyerarşik tasarım önemli olsa da, asıl sıçramayı sağlayan şeyin eğitim sürecindeki ince ayar olduğu iddia ediliyor.
Açık kaynak ve erişim: Sapient HRM’nin kodunu GitHub’da yayımladı. Bu, sonuçların daha geniş toplulukça yeniden denenmesini mümkün kılıyor ve iddiaların test edilmesine yardımcı oluyor.
Bu ne anlama geliyor: HRM, “daha küçük model + daha az veriyle güçlü akıl yürütme” fikrinin uygulanabilir olabileceğini gösteren umut verici bir örnek. Ancak “ChatGPT’yi geride bıraktı” ifadesi, genel amaçlı dil üretiminde değil, özellikle ARC-AGI gibi akıl yürütme ölçütlerinde yapılan karşılaştırmalar için geçerli. Ayrıca GPT-5’in 3–5 trilyon parametreye sahip olduğu yönündeki sayıların resmi olarak açıklanmış bir doğrulaması yok; bu değerler basına yansıyan tahminlerdir. Sonuçlar hakemli dergiye girmeden ve daha geniş, bağımsız testlerle desteklenmeden “genel üstünlük” olarak yorumlanmamalıdır.
ARC-AGI nedir: İnsanların yeni kuralları keşfederek çözmesi gereken küçük görsel-işitsel görevlerden oluşan, modelin ezberden ziyade soyutlama ve kural çıkarma yeteneğini ölçmeyi amaçlayan zorlu bir kıyaslama setidir. HRM’nin güçlü olduğu iddiaların odağı da burasıdır.
Günün sonunda tablo şunu söylüyor: HRM, akıl yürütme-ağırlıklı testlerde küçük ve verimli modellere kapı aralayabilecek bir yaklaşım sergiliyor; fakat bu iddiaların kalıcı hale gelmesi için açık kaynak kodunun toplulukça sınanması, eğitim hilelerinin şeffaflaşması ve daha geniş, çok yönlü kıyaslamalar gerekiyor.
Facebook Yorumları
Disqus Yorumları