Araştırmacılar, işlemci kullanımındaki uzun kuyruklu verimsizlikleri ehlileştirerek yapay zeka eğitim hızlarını iki katına çıkarıyor

Üzerinde "AI" kısaltması yazılı bir çipi gösteren dekoratif bir görüntü

Yeni bir sistem, daha küçük bir taslak modeli anında eğitmek için atıl bilgi işlem gücünden yararlanıyor ve doğruluktan ödün vermeden karmaşık büyük dil modelleri için takviye öğrenmeyi büyük ölçüde hızlandırıyor.

Chibuike Okpara (Çeviren DeepL / Ninh Duy), Yayınlandı 02/28/2026 🇺🇸 🇪🇸 ...

AI Science

Gelişmiş programlama ve çok adımlı planlama yapabilen, muhakeme yeteneğine sahip büyük dil modellerinin geliştirilmesi büyük hesaplama kaynakları gerektirir. Standart takviyeli öğrenme süreci sırasında modeller en iyi yanıtı öğrenmek için birden fazla potansiyel yanıt üretir. Yayılma olarak bilinen bu üretim aşaması, toplam yürütme süresinin %85'ine kadarını tüketebilir. Uzun kuyruk dağılımı ile karakterize edilen kritik bir darboğaz yaratır; burada daha kısa yanıtları tamamlayan işlemciler, diğerlerinin daha uzun sorguları tamamlamasını beklerken boşta kalır.

Bu boşa harcanan kesinti süresini ortadan kaldırmak için Massachusetts Teknoloji Enstitüsü'nden araştırmacılar, endüstri ve akademik işbirlikçilerle birlikte "Taming the Long Tail" (TLT) adlı bir sistem geliştirdi. Yaklaşım, boşta kalan işlemcileri sürekli olarak eğiten uyarlanabilir bir taslak modeli kullanıyor. Bu hafif model, daha büyük hedef modelin gelecekteki çıktılarını hızla tahmin ediyor ve ardından spekülatif kod çözme adı verilen bir teknikle tüm tahminleri aynı anda doğruluyor.

Geleneksel spekülatif kod çözme, sürekli eğitim güncellemeleri sırasında hızla eski hale gelen statik bir taslağa dayanırken, TLT sistemi eğitim sırasında taslağı ekstra hesaplama maliyeti olmadan sürekli olarak yeniden hizalar. Entegre bir uyarlanabilir dağıtım motoru, önceden yakalanmış grafiklerin bellek açısından verimli bir havuzunu koruyarak ve her yeni girdi grubu için en iyi kod çözme stratejisini dinamik olarak seçerek süreci daha da optimize eder.

Birden fazla muhakeme modelinde yapılan değerlendirmeler, bu kayıpsız çözümün uçtan uca eğitim hızlarını son teknoloji sistemlere kıyasla %70-110 oranında hızlandırdığını göstermektedir. Orijinal doğruluk seviyelerini koruyarak ve ücretsiz bir dağıtım yan ürünü olarak yüksek kaliteli bir taslak model sağlayarak bu yöntem, gelişmiş yapay zeka mimarileri geliştirmenin enerji ve mali yüklerini azaltmak için oldukça verimli bir yol sunmaktadır.

Kaynak(lar)

arXiv.org MIT News aracılığıyla

⟨

Yoga Pro 3D: Lenovo stereoskopik 3D ekranlı yeni dizüstü bilgisayarını piyasaya sürüyor

Xiaomi, Xiaomi 17'yi yeni sürümüyle dünya çapında piyasaya sürüyor

⟩

Add as a preferred source on Google

İlgili makaleler

Editor of the original article: Chibuike Okpara - Tech Writer - 506 articles published on Notebookcheck since 2024

contact me via: @chibuikeokparaf, Facebook

Translator: Ninh Ngoc Duy - Editorial Assistant - 800841 articles published on Notebookcheck since 2008

contact me via: Facebook

> Notebooklar Hakkında Aradığınız Herşey > Haberler > Haber Arşivi > Haber arşivi 2026 02 > Araştırmacılar, işlemci kullanımındaki uzun kuyruklu verimsizlikleri ehlileştirerek yapay zeka eğitim hızlarını iki katına çıkarıyor

Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)