Notebookcheck Logo

Araştırmacılar, işlemci kullanımındaki uzun kuyruklu verimsizlikleri ehlileştirerek yapay zeka eğitim hızlarını iki katına çıkarıyor

Üzerinde
ⓘ Igor Omilaev via Unsplash
Üzerinde "AI" kısaltması yazılı bir çipi gösteren dekoratif bir görüntü
Yeni bir sistem, daha küçük bir taslak modeli anında eğitmek için atıl bilgi işlem gücünden yararlanıyor ve doğruluktan ödün vermeden karmaşık büyük dil modelleri için takviye öğrenmeyi büyük ölçüde hızlandırıyor.

Gelişmiş programlama ve çok adımlı planlama yapabilen, muhakeme yeteneğine sahip büyük dil modellerinin geliştirilmesi büyük hesaplama kaynakları gerektirir. Standart takviyeli öğrenme süreci sırasında modeller en iyi yanıtı öğrenmek için birden fazla potansiyel yanıt üretir. Yayılma olarak bilinen bu üretim aşaması, toplam yürütme süresinin %85'ine kadarını tüketebilir. Uzun kuyruk dağılımı ile karakterize edilen kritik bir darboğaz yaratır; burada daha kısa yanıtları tamamlayan işlemciler, diğerlerinin daha uzun sorguları tamamlamasını beklerken boşta kalır.

Bu boşa harcanan kesinti süresini ortadan kaldırmak için Massachusetts Teknoloji Enstitüsü'nden araştırmacılar, endüstri ve akademik işbirlikçilerle birlikte "Taming the Long Tail" (TLT) adlı bir sistem geliştirdi. Yaklaşım, boşta kalan işlemcileri sürekli olarak eğiten uyarlanabilir bir taslak modeli kullanıyor. Bu hafif model, daha büyük hedef modelin gelecekteki çıktılarını hızla tahmin ediyor ve ardından spekülatif kod çözme adı verilen bir teknikle tüm tahminleri aynı anda doğruluyor.

Geleneksel spekülatif kod çözme, sürekli eğitim güncellemeleri sırasında hızla eski hale gelen statik bir taslağa dayanırken, TLT sistemi eğitim sırasında taslağı ekstra hesaplama maliyeti olmadan sürekli olarak yeniden hizalar. Entegre bir uyarlanabilir dağıtım motoru, önceden yakalanmış grafiklerin bellek açısından verimli bir havuzunu koruyarak ve her yeni girdi grubu için en iyi kod çözme stratejisini dinamik olarak seçerek süreci daha da optimize eder.

Birden fazla muhakeme modelinde yapılan değerlendirmeler, bu kayıpsız çözümün uçtan uca eğitim hızlarını son teknoloji sistemlere kıyasla %70-110 oranında hızlandırdığını göstermektedir. Orijinal doğruluk seviyelerini koruyarak ve ücretsiz bir dağıtım yan ürünü olarak yüksek kaliteli bir taslak model sağlayarak bu yöntem, gelişmiş yapay zeka mimarileri geliştirmenin enerji ve mali yüklerini azaltmak için oldukça verimli bir yol sunmaktadır.

Please share our article, every link counts!
Mail Logo
> Notebooklar Hakkında Aradığınız Herşey > Haberler > Haber Arşivi > Haber arşivi 2026 02 > Araştırmacılar, işlemci kullanımındaki uzun kuyruklu verimsizlikleri ehlileştirerek yapay zeka eğitim hızlarını iki katına çıkarıyor
Chibuike Okpara, 2026-02-28 (Update: 2026-02-28)