OpenAI, GPT-Realtime-2 dahil olmak üzere üç yeni gerçek zamanlı ses API modelini piyasaya sürüyor

OpenAI, API'si aracılığıyla üç yeni gerçek zamanlı ses modelini kullanıma sunarak, sesli yapay zekayı temel soru-cevap etkileşimlerinden tek bir canlı görüşmede dinleyebilen, muhakeme edebilen, tercüme edebilen ve harekete geçebilen ajanlara doğru itiyor. Bu sürüm aynı zamanda Realtime API'nin beta sürümünden çıktığını ve ilk kez genel olarak üretimde kullanılabileceğini gösteriyor.
Sürümün merkezinde OpenAI'nin GPT-5 sınıfı muhakeme üzerine inşa edilmiş ilk ses modeli olan GPT-Realtime-2 yer alıyor. Çoğu ses sisteminin dayandığı adım adım mimarinin aksine, GPT-Realtime-2 sesi sürekli bir akışta işleyerek, konuşmayı gerçekleştiği anda yorumlamasına ve ayrı transkripsiyon ve sentez aşamalarının neden olduğu boşluk olmadan yanıt vermesine olanak tanır. Model, önceki sürümde 32K olan 128K token bağlam penceresini desteklemektedir, bu da daha uzun ses oturumlarını ve karmaşık çok adımlı ajan akışlarını harici bellek iskelesi olmadan pratik hale getirir.
GPT-Realtime-2 neler yapabilir
Model, OpenAI'nin "ajan davranışı" olarak adlandırdığı şey için özel olarak oluşturulmuştur sesli aramalar sırasında. Önsözler, araç çağrılarını yürütürken "Şunu bir kontrol edeyim" veya "Bir dakika" demesini sağlar, böylece kullanıcılar boşta kalmaz. Paralel araç çağrıları, birden fazla arka uç isteğini aynı anda çalıştırmasına ve hangisinin uçuşta olduğunu anlatmasına izin verir. Daha güçlü kurtarma davranışı, konuşmanın ortasında donmak yerine arızaları yüksek sesle ele aldığı anlamına gelir. Ton ayarı, bağlama göre stiller arasında geçiş yapmasını sağlar: destek çağrıları için daha ölçülü ve onaylar için daha neşeli.
GPT-Realtime-2, OpenAI'nin sesli muhakeme kıyaslaması olan Big Bench Audio'da GPT-Realtime-1.5'ten %15,2 ve talimat takibi için Audio Multichallenger'da %13,8 daha yüksek puan alıyor. Gerçek dünya testlerinde Zillow, GPT-Realtime-2'deki hızlı optimizasyondan sonra en zorlu rakip kıyaslamasında çağrı başarı oranında %69'dan %95'e çıkarak 26 puanlık bir artış bildirdi. Model, milyon ses giriş belirteci başına 32 $ ve milyon ses çıkış belirteci başına 64 $ olarak fiyatlandırılmıştır ve milyon önbelleğe alınmış giriş belirteci başına 0,40 $'dır.
GPT-Realtime-Translate ve GPT-Realtime-Whisper
İkinci model, GPT-Realtime-Translate, özel bir canlı konuşma çeviri sistemidir. Konuşulan girdiyi sürekli olarak işler ve konuşmacıların duraklamasına veya tam cümleleri bitirmesine gerek kalmadan çevirileri gerçek zamanlı olarak çıkarır. Model, müşteri desteği, eğitim, canlı etkinlikler ve sınır ötesi satış ortamlarını hedefleyen 70'ten fazla giriş dilini ve 13 çıkış dilini desteklemektedir. Hindistan dil pazarları için bir sesli yapay zeka şirketi olan BolnaAI, Hintçe, Tamilce ve Telugu dillerinde önceki çeviri yaklaşımına kıyasla %12,5 daha düşük kelime hatası oranları bildiriyor. GPT-Realtime-Translate, ses işlemenin dakikası başına 0,034 $ olarak fiyatlandırılmıştır.
GPT-Realtime-Whisper, OpenAI'nin yaygın olarak benimsenen Whisper konuşma tanıma teknolojisini bir akış sistemine genişleten üçüncü modeldir. Orijinal Whisper kayıt sonrası transkripsiyon için geliştirilmişken, bu versiyon konuşma yapılırken canlı altyazılar üretiyor. Kullanım alanları arasında canlı toplantılar, mahkeme salonu dokümantasyonu, haber odası transkripsiyonu ve işitme engelli kullanıcılar için erişilebilirlik araçları yer alıyor. Dakikası 0,017 dolar ile üç model arasında en uygun fiyatlı olanıdır. Her üç model de OpenAI API ve geliştirici oyun alanı aracılığıyla şu anda kullanılabilir.
Lansman ayrıca Realtime API'ye MCP sunucu desteği, görüntü giriş özellikleri ve SIP telefon arama entegrasyonu ekleyerek geliştiricilerin API'den ayrılmadan oluşturabilecekleri kurumsal telefon ve ajan iş akışları yelpazesini genişletiyor.
Yapay zeka araçları alanı, yeni ürünlere olan ilgiyi istismar etmek isteyen saldırganları da cezbetti. Notebookcheck dün bir haber yayınladı sahte Claude AI beagle Windows arka kapısını Google sponsorluğundaki arama sonuçları aracılığıyla truva atı haline getirilmiş bir Claude-Pro Relay yükleyicisi kullanarak iten web sitesi.
Kaynak(lar)
Top 10
» Top 10 Multimedia Notebook listesi
» Top 10 oyun notebooku
» Top 10 bütçeye uygun Ofis/İş Notebook Listesi
» Top 10 Premium Ofis/İş notebookları
» Top 10 Çalışma istasyonu laptopları
» Top 10 Subnotebook listesi
» Top 10 Ultrabooklar
» En iyi 10 dönüştürülebilir modeli
» Seçimi en iyi 10 tablet
» Notebookcheck Top 10 Windows Tabletleri
» Top 10 Subnotebook listesi
» NotebookCheck tarafından incelenen en iyi Notebook ekranları
» Notebookcheck'in 500 Euro altındaki en iyi 10 Notebook listesi
» NotebookCheck tarafından seçilen 300 Euro altındaki en iyi 10 Notebook
» Notebookcheck'in 500 Euro altındaki en iyi 10 Notebook listesi
» Notebookcheck'in Top 10 akıllı telefon listesi
» Notebookcheck'in Top 10 hafif oyun notebookları









