06.10.2017 - 13:24 | Son Güncellenme:
Onur Binay/milliyet.com.tr
Geçen yıl, yapay zeka (AI) araştırma şirketi DeepMind, gerçekçi insan konuşmasını sentezlemek için kullanılan derin sinir ağı WaveNet ile ilgili detayları paylaşmıştı. Artık, teknolojinin geliştirilmiş bir sürümü Google Asistan ile kullanıma sunuluyor.
Konuşma sentezi için bir sistem - aksi halde text-to-speech (TTS) olarak da bilinir - tipik olarak iki tekniğin birinden yararlanıyor.
Birleştirici TTS, bir sesli aktörden gelen kayıt parçalarının bir araya getirilmesini içeriyor. Bu yöntemin dezavantajı, yükseltmeler veya değişiklikler yapıldığında ses kütüphanelerinin değiştirilmesi gerektiğidir.
Diğer teknik olan parametrik TTS, bilgisayar tarafından üretilen konuşma üretmek için bir dizi parametre kullanıyor, ancak bu konuşma bazen doğal olmayan ve robotik görünebiliyor.
WaveNet, diğer yandan, konvolüsyonel bir sinir ağı kullanılarak geliştirilen bir sisteme dayalı olarak sıfırdan dalga formu üretiyor.
Başlamak için, hangi dalga formlarının gerçekçi ve hangisinin gelmediğini dikkate alarak, ses sentezleme platformunu eğitmek için çok sayıda konuşma örneği kullanıldı. Bu, konuşma sentezleyicisine dudak balığı gibi detaylar da dahil olmak üzere doğal tonlama üretme olanağı verdi. Sistemi besleyen örneklere bağlı olarak, bu sayede yapay zeka yazılımı, insansı bir aksanda akıcı bir dille konuşabilir hale getirildi.
WaveNet'in en büyük kısıtlılığı başlangıçta önemli bir bilgi işlem gücüne ihtiyaç duyması ve çok hızlı olmamasıydı, saniyede 0.02 saniyelik bir ses üretmek için bir saniye gerekiyordu.
Son 12 ay boyunca sistemi geliştirdikten sonra DeepMind'in mühendisleri WaveNet'i, orijinalinden 1.000 kat daha hızlı, sadece 50 milisaniyede bir saniyelik bir ham dalga formu üretebilecekleri noktaya getirdiler. Dahası, her bir örneğin çözünürlüğü 8 bitten 16 bit'e yükseltilerek, insan dinleyicileri ile yaptığı testlerde yüksek puanlar elde etti.
Bu iyileştirmeler, sistemin artık Google Yardımcısı gibi tüketici ürünleriyle bütünleştirilebileceği anlamına geliyor.
WaveNet şu anda tüm platformlarda Google Assistant için ABD İngilizcesi ve Japonca sesleri üretmek için kullanılmakta. Sistem, içine alınan örnekleri temel alarak özel sesler oluşturabileceğinden, Google diğer diller ve lehçeler için ilerlemeye yönelik gerçekçi ses geleneğini üretmek için WaveNet'i kullanabilir.
Ses arabirimleri her türlü bilgi işleminde giderek daha yaygın hale geliyor, ancak bazı sentetik konuşmanın sakin doğası birçok potansiyel kullanıcıyı eritiyor. DeepMind'in bu teknolojiyi geliştirme çabaları daha yaygın kabul edilmesine neden olabilir ve mevcut tecrübeyi düzeltmek için kesinlikle görev yapacaktır.