Metinden konuşma teknolojisinin kısa tarihi

Konuşma sentezi, yani insan sesinin yapay olarak üretilmesi, son 70 yılda büyük bir yol katetti. Şu anda metinden konuşma servislerini kitap dinlemek, ders çalışmak veya kendi yazılarınızı gözden geçirmek için kullanıyor olsanız da, bu hizmetlerin pek çok meslek grubundaki insanlar için hayatı kolaylaştırdığı tartışmasız bir gerçek.

Burada, metinden konuşma işlemenin nasıl çalıştığına ve bu destekleyici teknolojinin zaman içinde nasıl değiştiğine yakından bakacağız.

Giriş

1700'lerde, Rus profesör Christian Kratzenstein insan sesini taklit eden akustik rezonatörler geliştirdi. Yirmi yıl sonra VODER (Voice Operating Demonstrator), yaratıcısı Homer Dudley’nin kalabalıklara insan sesinin yapay yollarla nasıl üretilebileceğini gösterdiği New York Dünya Fuarı’nda büyük yankı uyandırdı. Cihazı kullanmak zorluydu — Dudley temel frekansı ayak pedallarıyla kontrol etmek zorundaydı.

1800'lerin başında Charles Wheatstone, ilk mekanik konuşma sentezleyicisini geliştirdi. Bu, artikülasyon sentezi araç ve teknolojilerinin hızla evrilmesini başlattı.

İyi bir metinden konuşma programını tam olarak tarif etmek zor olabilir ama pek çok şeyde olduğu gibi, duyduğunuzda anlarsınız. Yüksek kaliteli bir metinden konuşma programı, doğal tonda, gerçek hayattaki infleksiyon ve tonlamalara sahip sesler sunar.

Metinden konuşma teknolojisi, görme engelli veya başka engelleri olan kişilerin işlerinde başarılı olmalarını ve başkalarıyla iletişim kurmalarını kolaylaştırır. Ayrıca öğrenciler ve okuma yükü ağır olan diğer kişiler, hareket halindeyken bilgilerini insan sesiyle dinleyebilir. Sentetik konuşma, insanların daha kısa sürede daha çok iş yapmasına olanak tanır ve video oyunu üretiminden dil işleme bozuklukları olan kişilere destek vermeye kadar pek çok alanda işe yarar.

1950'ler ve 60'lar

1950'lerin sonlarında, ilk konuşma sentezi sistemleri geliştirildi. Bu sistemler bilgisayar tabanlıydı. 1961’de, Bell Labs’ten fizikçi John Larry Kelly Jr., bir IBM bilgisayar kullanarak konuşma sentezledi. Sentezleyicisi Daisy Bell şarkısını yeniden üretti.

Kelly vokoderini mükemmelleştirirken, 2001: Bir Uzay Destanı'nın yazarı Arthur C. Clarke, Kelly'nin gösterimini kitabının senaryosuna taşıdı. Bu sahnede HAL 9000 bilgisayarı Daisy Bell şarkısını söylüyor.

1966'da doğrusal öngörü kodlaması ortaya çıktı. Bu konuşma kodlama biçimi, Fumitada Itakura ve Shuzo Saito’nun öncülüğünde geliştirilmeye başlandı. Bishnu S. Atal ve Manfred R. Schroeder da doğrusal öngörü kodlamasının gelişimine katkıda bulundu.

1970'ler

1975 yılında, Itakura tarafından çizgisel spektral çiftler yöntemi geliştirildi. Bu yüksek sıkıştırmalı konuşma kodlama yöntemi, Itakura'nın konuşma analizi ve sentezi hakkında daha fazla bilgi edinmesini, zayıf noktaları bulmasını ve iyileştirmenin yollarını keşfetmesini sağladı.

Bu yıl içinde, MUSA da tanıtıldı. Bu bağımsız konuşma sentezi sistemi, bir algoritma kullanarak İtalyanca metni yüksek sesle okuyordu. Üç yıl sonra çıkan bir versiyonu ise İtalyanca şarkı söyleyebiliyordu.

70'lerde, insan ses yoluna dayalı ilk artikülasyon sentezleyicisi geliştirildi. İlk bilinen sentezleyici, Tom Baer, Paul Mermelstein ve Philip Rubin tarafından Haskins Laboratuvarlarında üretildi. Üçlü, Bell Laboratuvarlarında 60’larda ve 70’lerde oluşturulan ses yolu modellerinden yararlandı.

1976’da, görme engelliler için Kurzweil Okuma Makineleri tanıtıldı. Bu cihazlar genel kullanıcı için çok pahalıydı, ancak kütüphaneler çoğu zaman görme engellilere kitap dinlemeleri için bu cihazları sağlayabiliyordu.

Doğrusal öngörü kodlaması, sentezleyici çiplerin çıkış noktası oldu. Texas Instruments LPC Konuşma Çipleri ve 1970'lerin sonlarındaki Speak & Spell oyuncakları, sentezleyici çip teknolojisi kullanıyordu. Bu oyuncaklar, dönemin robotik tınlayan sentezlenmiş seslerinden ayrışan, doğru tonlamaya sahip insan ses sentezinin örnekleriydi. Konuşma sentezleme özelliği olan birçok elde taşınabilir elektronik cihaz bu on yılda popüler oldu; buna görme engelliler için Telesensory Systems Speech+ hesap makinesi de dahildir. 1979 yılında, konuşma sentezleyebilen bir satranç bilgisayarı olan Fidelity Voice Chess Challenger piyasaya çıktı.

1980'ler

1980’lerde, konuşma sentezi video oyun dünyasında da kendini göstermeye başladı. 1980’de Sun Electronics tarafından piyasaya sürülen Stratovox (atış tarzı bir arcade oyunu) çıktı. Manbiki Shoujo (İngilizce'ye Shoplifting Girl olarak çevrilmiştir) konuşma sentezleme yeteneğine sahip ilk kişisel bilgisayar oyunuydu. Elektronik oyun Milton da 1980’de piyasaya sürüldü ve Milton Bradley Company’nin insan sesi sentezleyebilen ilk elektronik oyunu oldu.

1983’te, bağımsız akustik-mekanik konuşma makinesi DECtalk tanıtıldı. DECtalk, kelimelerin fonetik yazımlarını anlayarak olağandışı kelimelerin telaffuzunun özelleştirilmesine imkân tanıdı. Bu fonetik yazımlar ayrıca bir ton göstergesi de içerebilir; DECtalk bu tonu fonetik parçaları söylerken kullanırdı. Bu sayede DECtalk şarkı da söyleyebiliyordu.

80’lerin sonlarına doğru, Steve Jobs Trillium Sound Research tarafından geliştirilen NeXT sistemini üretti. NeXT ticari olarak başarılı olmasa da, Jobs daha sonra bu programı 90’larda Apple ile birleştirdi.

1990'lar

Sentetik metinden konuşma sistemlerinin ilk versiyonları oldukça robotik tınlarken, bu durum 80’lerin sonu ve 90’ların başında değişmeye başladı. Yumuşak ünsüzler, konuşan makinelerin elektronik tınısını kaybedip daha insansı bir sese kavuşmasını sağladı. 1990 yılında, AT&T Bell Laboratuvarları’ndan Ann Syrdal kadın sesiyle konuşan bir sentezleyici geliştirdi. 90'lar boyunca mühendisler, sesleri daha doğal hale getirmek için çalıştı.

1999 yılında Microsoft, artık Windows’un her sürümünde yer alan ekran okuyucu çözümü Narrator’ı kullanıma sundu.

2000'ler

2000'lerde, konuşma sentezi bazı sorunlarla karşılaştı; geliştiriciler sentezlenmiş konuşma için üzerinde uzlaşılmış standartlar oluşturmakta zorlandı. Konuşma son derece bireysel olduğu için, dünyanın dört bir yanındaki insanların fonem, difon, intonasyon, ton, örüntü oynatma ve infleksiyonun doğru telaffuzu konusunda ortak karara varması zordu.

90’larda, biçimant sentezinde konuşma ses kalitesi de daha fazla önemsenmeye başlandı. Mühendisler ve araştırmacılar, laboratuvar ortamında sentezlenmiş konuşmayı oynatan sistemlerin kalitesinin, kullanıcının sahip olduğu ekipmandan çok daha ileri olduğunu fark etti. Konuşma sentezi dendiğinde, çoğu insanın aklına Stephen Hawking’in robotik ve pek insansı olmayan tonda ses veren ses sentezleyicisi gelir.

2005 yılında, araştırmacılar sonunda bazı uzlaşmalara vardı ve ortak bir konuşma veri seti kullanmaya başladı. Böylece üst düzey konuşma sentezi sistemleri geliştirirken aynı temel ilkelerden hareket edebildiler.

2007 yılında yapılan bir araştırmada, dinleyicilerin konuşan bir kişinin gülümsediğini anlayabildiği gösterildi. Araştırmacılar hâlâ bu bilgiyi konuşma tanıma ve konuşma sentezi yazılımlarını daha doğal hale getirmek için nasıl kullanabileceklerini keşfetmeye çalışıyor.

2010'lar

Bugün, konuşma sinyallerini kullanan konuşma sentezi ürünleri her yerde; Siri’den Alexa’ya kadar. Elektronik konuşma sentezleyicileri hayatı sadece kolaylaştırmakla kalmaz, aynı zamanda daha eğlenceli hale de getirir. İster hareket halindeyken roman dinlemek için bir TTS sistemi kullanın, ister yabancı dil öğrenimini kolaylaştıran uygulamalardan yararlanın, muhtemelen her gün sinir ağlarınızı harekete geçirmek için metinden konuşma teknolojisinden faydalanıyorsunuzdur.

Gelecek

Önümüzdeki yıllarda, ses sentezi teknolojisinin beynin bir modelini oluşturmaya odaklanması ve konuşma verilerini zihnimizde nasıl kaydettiğimizi daha iyi anlamaya çalışması muhtemel. Konuşma teknolojileri ayrıca, duygunun konuşmadaki rolünü daha iyi anlamaya çalışacak ve bu bilgilerden yararlanarak yapay zeka sesleri üretecek; bu sesler gerçek insanlardan ayırt edilemeyecek kadar doğal olacak.

Ses Sentezi Teknolojisindeki En Son Gelişmeler: Speechify

Önceki konuşma sentezi teknolojilerinden bugüne geçişleri incelediğinizde bilimin ne kadar ilerlediğini görmek büyüleyici. Bugün, Speechify gibi uygulamalar, herhangi bir metni kolayca ses dosyalarına dönüştürüyor. Sadece bir düğmeye basarak (veya uygulamada dokunarak) Speechify, web sitelerini, belgeleri ve metin görüntülerini doğal sesli konuşmaya çeviriyor. Speechify’ın kitaplığı tüm cihazlarınızda senkronize oluyor, böylece hareket halindeyken öğrenmeye ve çalışmaya devam etmek çok daha kolaylaşıyor. Speechify uygulamasına hem Apple’ın App Store’unda hem de Android Google Play’de göz atın.

Sıkça Sorulan Sorular

Metinden konuşma teknolojisini kim icat etti?

İngilizce için metinden konuşma teknolojisi Noriko Umeda tarafından geliştirildi. Sistem, 1968’de Japonya’daki Elektroteknik Laboratuvarı’nda tasarlandı.

Metinden konuşma teknolojisinin amacı nedir?

Pek çok kişi metinden konuşma teknolojisini kullanır. Bilgilerini sesli formatta almayı tercih edenler için TTS teknolojisi kitap başında saatler harcamadan bilgiye kolayca ulaşmayı sağlar. Yoğun çalışan profesyoneller de TTS teknolojisini, bilgisayar ekranı başında oturamadıklarında işlerini takip etmek için kullanır. TTS teknolojisinin birçok türü başlangıçta görme engelliler için geliştirilmiştir ve TTS, görme güçlüğü yaşayanların ihtiyaç duyduğu bilgiye ulaşmasının harika bir yoludur.

Konuşma nasıl sentezlenir?

Kayıtlı konuşma parçaları, veritabanında çeşitli birimlerde saklanır. Yazılım, birim seçimi yoluyla ses dosyalarını hazırlar ve buradan bir ses akışı oluşturulur. Genellikle bir programın çıktı aralığı ne kadar genişse, kullanıcıya net ve anlaşılır bir ses sunmak o kadar zorlaşır.

Speechify dünyanın önde gelen metinden sese platformudur. 50 milyondan fazla kişi tarafından kullanılır ve 500.000'den fazla beş yıldızlı yorumla desteklenir; metinden sese iOS, Android, Chrome Eklentisi, web uygulaması ve Mac masaüstü uygulamalarında sunulur. 2025 yılında Apple, Speechify'a prestijli Apple Tasarım Ödülünü WWDC'de vermiş ve onu “insanların hayatlarını yaşamalarına yardımcı olan kritik bir kaynak” olarak nitelendirmiştir. Speechify, 60+ dilde 1.000+ doğal ses seçeneğiyle neredeyse 200 ülkede kullanılmaktadır. Ünlü seslerden bazıları Snoop Dogg ve Gwyneth Paltrow'a aittir. Yaratıcılar ve işletmeler için Speechify Studio gelişmiş araçlar sunar; bunlar arasında Yapay Zeka Ses Üreticisi, Yapay Zeka Ses Klonlama, Yapay Zeka Dublaj ve Yapay Zeka Ses Değiştirici bulunmaktadır. Speechify ayrıca üstün kalitede ve uygun maliyetli metinden sese APIsiyle önde gelen ürünlere güç verir. The Wall Street Journal, CNBC, Forbes, TechCrunch ve diğer önde gelen medya kuruluşlarında yer alan Speechify, dünyanın en büyük metinden sese sağlayıcısıdır. Daha fazla bilgi için speechify.com/news, speechify.com/blog ve speechify.com/press adreslerini ziyaret edin.

Metinden konuşma teknolojisinin kısa tarihi

Tyler Weitzman

Speechify, Senin Sesli Yapay Zeka Asistanın
Metinden Sese. Sesli Yazma. Hızlı Yanıtlar.

1970'ler

1980'ler

1990'lar

2000'ler

2010'lar

Gelecek

Ses Sentezi Teknolojisindeki En Son Gelişmeler: Speechify

Sıkça Sorulan Sorular

Metinden konuşma teknolojisini kim icat etti?

Metinden konuşma teknolojisinin amacı nedir?

Konuşma nasıl sentezlenir?

En gelişmiş yapay zeka seslerin, sınırsız dosyanın ve 7/24 desteğin keyfini çıkar

Bu Makaleyi Paylaş

Tyler Weitzman

Speechify Hakkında

Önerilen Yazılar

Son Yazılar

Neden Speechify En İyi Sürükleyici Okuma Uygulaması?

Speechify vs NoteGPT

Speechify Çoklu Modlu Öğrenme Özelliklerini Kullanıma Sundu

Metinden konuşma teknolojisinin kısa tarihi

Tyler Weitzman

Speechify, Senin Sesli Yapay Zeka AsistanınMetinden Sese. Sesli Yazma. Hızlı Yanıtlar.

1970'ler

1980'ler

1990'lar

2000'ler

2010'lar

Gelecek

Ses Sentezi Teknolojisindeki En Son Gelişmeler: Speechify

Sıkça Sorulan Sorular

Metinden konuşma teknolojisini kim icat etti?

Metinden konuşma teknolojisinin amacı nedir?

Konuşma nasıl sentezlenir?

En gelişmiş yapay zeka seslerin, sınırsız dosyanın ve 7/24 desteğin keyfini çıkar

Bu Makaleyi Paylaş

Tyler Weitzman

Speechify Hakkında

Önerilen Yazılar

Son Yazılar

Neden Speechify En İyi Sürükleyici Okuma Uygulaması?

Speechify vs NoteGPT

Speechify Çoklu Modlu Öğrenme Özelliklerini Kullanıma Sundu

Speechify, Senin Sesli Yapay Zeka Asistanın
Metinden Sese. Sesli Yazma. Hızlı Yanıtlar.