Dolandırıcı Bildirim
Bu makale bu nedenle İngilizce olarak mevcuttur. Yayınlamadan önce teknik yardım ve editoryal revizyon ile çevrildi.
Bir daha gösterme.
Apple, ses veya canlı kayıtların transkripsiyonunda işletim sisteminin sonraki sürümlerinde açıkça artar. Çeşitli testlerde performanslar artık diğer yaygın vokal tanıma modelleriyle karşılaştırılmıştır. Bununla birlikte, sonuçlar karışıktır: iOS 26, iPados 26 ve MacOS 26 Taoe'de sağlanan yeni Apple API'si, örneğin yaygın fısıltılı openi modelinin hızında önemli ölçüde daha iyidir. Ancak, hassasiyeti iyileştirmek için hala yer var.
Apple News MacStries blogu, 34 -Minute video dosyasıyla geliştirilen vokal çerçevesini test etti. Transkripsiyon için, GitHub'da geri çağrılabilen Apple API testi için YAP adlı bir cihaz kullanılmıştır. Görevi sadece 45 saniye içinde gerçekleştirirken, oldukça popüler MacWhisper aracı 1:41 dakika ile 3:55 dakika arasında gerekli olan harika modelleri.
Modeller nasıl karşılaştırılır
9to5mac News sayfasında Apple Apple'ın çok hızlı kabul edilen Nvidia Parkeet'e karşı yarıştı ve OpenAAI'ye karşı büyük V3 Turbo'ya karşı. Test hesap makinesi, Unified M2 Pro belleği ve 16 GB'lı bir MacBook Pro'du. Parrocchetto ses dosyasını 2 saniyede 7:31 dakika yönetirken, Apple'ın transkripsiyonunun 9 saniyeye ihtiyacı vardı. Openi modeli sadece 40 saniye sonra bitirildi. Ses dosyası ne kadar uzun olursa, modeller o kadar ayrılmıştır.
Ancak fısıltının yavaşlaması doğruluğu geri ödedi. Karakter kusurlarının oranı (karakter hızı, CER) ve kelimeler hataları (kelime hata oranı, WHO) arasında bir ayrım yapıldı. Ortalama olarak, fısıldayan büyük V3 turbo, daha kesin bir çözüm olarak yüzde 0,3 ve yüzde 1'den biri olduğunu kanıtladı. Apple'ın işaretlerde ortalama yüzde 3 ve kelimeler için yüzde 8'i vardı. Parakakeet yüzde 7 CER ve yüzde 12'lik bir DSÖ ile önemli ölçüde geri döndü.
Apple API tavsiye nedir
Sonuç olarak, Apple'ın transkripsiyonu fısıltıya kıyasla açık bir avantaj vaat ediyor ve NVIDIA modelinin pek çok hatasını yapmıyor. Test uzmanları, modelin seçiminin esas olarak uygulama sorunu olduğu sonucuna varıyor. Apple modeli, canlı altyazılar veya endeksleme için daha uzun içeriğin yaklaşık transkripsiyonu olarak zaman kritik uygulamaları için önerilir. Whisper, sadece bir post -minimum detaylandırma istediğinizde veya doğruluğa bağlı olduğu uygulamalarda ön tarafın önüne sahiptir.
(MKI)
Ne yazık ki, bu bağlantı artık geçerli değil.
Boşa harcanan eşyalara olan bağlantılar, 7 günlük daha büyükse veya çok sık çağrılmışsa gerçekleşmez.
Bu makaleyi okumak için bir Haberler+ paketine ihtiyacınız var. Şimdi yükümlülük olmadan bir hafta deneyin – yükümlülük olmadan!
Bu makale bu nedenle İngilizce olarak mevcuttur. Yayınlamadan önce teknik yardım ve editoryal revizyon ile çevrildi.
Bir daha gösterme.
Apple, ses veya canlı kayıtların transkripsiyonunda işletim sisteminin sonraki sürümlerinde açıkça artar. Çeşitli testlerde performanslar artık diğer yaygın vokal tanıma modelleriyle karşılaştırılmıştır. Bununla birlikte, sonuçlar karışıktır: iOS 26, iPados 26 ve MacOS 26 Taoe'de sağlanan yeni Apple API'si, örneğin yaygın fısıltılı openi modelinin hızında önemli ölçüde daha iyidir. Ancak, hassasiyeti iyileştirmek için hala yer var.
Apple News MacStries blogu, 34 -Minute video dosyasıyla geliştirilen vokal çerçevesini test etti. Transkripsiyon için, GitHub'da geri çağrılabilen Apple API testi için YAP adlı bir cihaz kullanılmıştır. Görevi sadece 45 saniye içinde gerçekleştirirken, oldukça popüler MacWhisper aracı 1:41 dakika ile 3:55 dakika arasında gerekli olan harika modelleri.
Modeller nasıl karşılaştırılır
9to5mac News sayfasında Apple Apple'ın çok hızlı kabul edilen Nvidia Parkeet'e karşı yarıştı ve OpenAAI'ye karşı büyük V3 Turbo'ya karşı. Test hesap makinesi, Unified M2 Pro belleği ve 16 GB'lı bir MacBook Pro'du. Parrocchetto ses dosyasını 2 saniyede 7:31 dakika yönetirken, Apple'ın transkripsiyonunun 9 saniyeye ihtiyacı vardı. Openi modeli sadece 40 saniye sonra bitirildi. Ses dosyası ne kadar uzun olursa, modeller o kadar ayrılmıştır.
Ancak fısıltının yavaşlaması doğruluğu geri ödedi. Karakter kusurlarının oranı (karakter hızı, CER) ve kelimeler hataları (kelime hata oranı, WHO) arasında bir ayrım yapıldı. Ortalama olarak, fısıldayan büyük V3 turbo, daha kesin bir çözüm olarak yüzde 0,3 ve yüzde 1'den biri olduğunu kanıtladı. Apple'ın işaretlerde ortalama yüzde 3 ve kelimeler için yüzde 8'i vardı. Parakakeet yüzde 7 CER ve yüzde 12'lik bir DSÖ ile önemli ölçüde geri döndü.
Apple API tavsiye nedir
Sonuç olarak, Apple'ın transkripsiyonu fısıltıya kıyasla açık bir avantaj vaat ediyor ve NVIDIA modelinin pek çok hatasını yapmıyor. Test uzmanları, modelin seçiminin esas olarak uygulama sorunu olduğu sonucuna varıyor. Apple modeli, canlı altyazılar veya endeksleme için daha uzun içeriğin yaklaşık transkripsiyonu olarak zaman kritik uygulamaları için önerilir. Whisper, sadece bir post -minimum detaylandırma istediğinizde veya doğruluğa bağlı olduğu uygulamalarda ön tarafın önüne sahiptir.
(MKI)
Ne yazık ki, bu bağlantı artık geçerli değil.
Boşa harcanan eşyalara olan bağlantılar, 7 günlük daha büyükse veya çok sık çağrılmışsa gerçekleşmez.
Bu makaleyi okumak için bir Haberler+ paketine ihtiyacınız var. Şimdi yükümlülük olmadan bir hafta deneyin – yükümlülük olmadan!