1. Ana Sayfa
  2. TTS
  3. Metinden konuşma teknolojisinin kısa tarihi
TTS

Metinden konuşma teknolojisinin kısa tarihi

Tyler Weitzman

Tyler Weitzman

Stanford Üniversitesi Bilgisayar Bilimleri Yüksek Lisans mezunu, Disleksi & Erişilebilirlik Savunucusu, Speechify CEO'su ve Kurucusu

apple logo2025 Apple Tasarım Ödülü
50M+ Kullanıcı

Konuşma sentezi, yani insan sesinin yapay olarak üretilmesi, son 70 yılda büyük bir yol katetti. Şu anda metinden konuşma servislerini kitap dinlemek, ders çalışmak veya kendi yazılarınızı gözden geçirmek için kullanıyor olsanız da, bu hizmetlerin pek çok meslek grubundaki insanlar için hayatı kolaylaştırdığı tartışmasız bir gerçek.

Burada, metinden konuşma işlemenin nasıl çalıştığına ve bu destekleyici teknolojinin zaman içinde nasıl değiştiğine yakından bakacağız.

Giriş

1700'lerde, Rus profesör Christian Kratzenstein insan sesini taklit eden akustik rezonatörler geliştirdi. Yirmi yıl sonra VODER (Voice Operating Demonstrator), yaratıcısı Homer Dudley’nin kalabalıklara insan sesinin yapay yollarla nasıl üretilebileceğini gösterdiği New York Dünya Fuarı’nda büyük yankı uyandırdı. Cihazı kullanmak zorluydu — Dudley temel frekansı ayak pedallarıyla kontrol etmek zorundaydı.

1800'lerin başında Charles Wheatstone, ilk mekanik konuşma sentezleyicisini geliştirdi. Bu, artikülasyon sentezi araç ve teknolojilerinin hızla evrilmesini başlattı.

İyi bir metinden konuşma programını tam olarak tarif etmek zor olabilir ama pek çok şeyde olduğu gibi, duyduğunuzda anlarsınız. Yüksek kaliteli bir metinden konuşma programı, doğal tonda, gerçek hayattaki infleksiyon ve tonlamalara sahip sesler sunar.

Metinden konuşma teknolojisi, görme engelli veya başka engelleri olan kişilerin işlerinde başarılı olmalarını ve başkalarıyla iletişim kurmalarını kolaylaştırır. Ayrıca öğrenciler ve okuma yükü ağır olan diğer kişiler, hareket halindeyken bilgilerini insan sesiyle dinleyebilir. Sentetik konuşma, insanların daha kısa sürede daha çok iş yapmasına olanak tanır ve video oyunu üretiminden dil işleme bozuklukları olan kişilere destek vermeye kadar pek çok alanda işe yarar.

1950'ler ve 60'lar

1950'lerin sonlarında, ilk konuşma sentezi sistemleri geliştirildi. Bu sistemler bilgisayar tabanlıydı. 1961’de, Bell Labs’ten fizikçi John Larry Kelly Jr., bir IBM bilgisayar kullanarak konuşma sentezledi. Sentezleyicisi Daisy Bell şarkısını yeniden üretti.

Kelly vokoderini mükemmelleştirirken, 2001: Bir Uzay Destanı'nın yazarı Arthur C. Clarke, Kelly'nin gösterimini kitabının senaryosuna taşıdı. Bu sahnede HAL 9000 bilgisayarı Daisy Bell şarkısını söylüyor.

1966'da doğrusal öngörü kodlaması ortaya çıktı. Bu konuşma kodlama biçimi, Fumitada Itakura ve Shuzo Saito’nun öncülüğünde geliştirilmeye başlandı. Bishnu S. Atal ve Manfred R. Schroeder da doğrusal öngörü kodlamasının gelişimine katkıda bulundu.

1970'ler

1975 yılında, Itakura tarafından çizgisel spektral çiftler yöntemi geliştirildi. Bu yüksek sıkıştırmalı konuşma kodlama yöntemi, Itakura'nın konuşma analizi ve sentezi hakkında daha fazla bilgi edinmesini, zayıf noktaları bulmasını ve iyileştirmenin yollarını keşfetmesini sağladı.

Bu yıl içinde, MUSA da tanıtıldı. Bu bağımsız konuşma sentezi sistemi, bir algoritma kullanarak İtalyanca metni yüksek sesle okuyordu. Üç yıl sonra çıkan bir versiyonu ise İtalyanca şarkı söyleyebiliyordu.

70'lerde, insan ses yoluna dayalı ilk artikülasyon sentezleyicisi geliştirildi. İlk bilinen sentezleyici, Tom Baer, Paul Mermelstein ve Philip Rubin tarafından Haskins Laboratuvarlarında üretildi. Üçlü, Bell Laboratuvarlarında 60’larda ve 70’lerde oluşturulan ses yolu modellerinden yararlandı.

1976’da, görme engelliler için Kurzweil Okuma Makineleri tanıtıldı. Bu cihazlar genel kullanıcı için çok pahalıydı, ancak kütüphaneler çoğu zaman görme engellilere kitap dinlemeleri için bu cihazları sağlayabiliyordu.

Doğrusal öngörü kodlaması, sentezleyici çiplerin çıkış noktası oldu. Texas Instruments LPC Konuşma Çipleri ve 1970'lerin sonlarındaki Speak & Spell oyuncakları, sentezleyici çip teknolojisi kullanıyordu. Bu oyuncaklar, dönemin robotik tınlayan sentezlenmiş seslerinden ayrışan, doğru tonlamaya sahip insan ses sentezinin örnekleriydi. Konuşma sentezleme özelliği olan birçok elde taşınabilir elektronik cihaz bu on yılda popüler oldu; buna görme engelliler için Telesensory Systems Speech+ hesap makinesi de dahildir. 1979 yılında, konuşma sentezleyebilen bir satranç bilgisayarı olan Fidelity Voice Chess Challenger piyasaya çıktı.

1980'ler

1980’lerde, konuşma sentezi video oyun dünyasında da kendini göstermeye başladı. 1980’de Sun Electronics tarafından piyasaya sürülen Stratovox (atış tarzı bir arcade oyunu) çıktı. Manbiki Shoujo (İngilizce'ye Shoplifting Girl olarak çevrilmiştir) konuşma sentezleme yeteneğine sahip ilk kişisel bilgisayar oyunuydu. Elektronik oyun Milton da 1980’de piyasaya sürüldü ve Milton Bradley Company’nin insan sesi sentezleyebilen ilk elektronik oyunu oldu.

1983’te, bağımsız akustik-mekanik konuşma makinesi DECtalk tanıtıldı. DECtalk, kelimelerin fonetik yazımlarını anlayarak olağandışı kelimelerin telaffuzunun özelleştirilmesine imkân tanıdı. Bu fonetik yazımlar ayrıca bir ton göstergesi de içerebilir; DECtalk bu tonu fonetik parçaları söylerken kullanırdı. Bu sayede DECtalk şarkı da söyleyebiliyordu.

80’lerin sonlarına doğru, Steve Jobs Trillium Sound Research tarafından geliştirilen NeXT sistemini üretti. NeXT ticari olarak başarılı olmasa da, Jobs daha sonra bu programı 90’larda Apple ile birleştirdi.

1990'lar

Sentetik metinden konuşma sistemlerinin ilk versiyonları oldukça robotik tınlarken, bu durum 80’lerin sonu ve 90’ların başında değişmeye başladı. Yumuşak ünsüzler, konuşan makinelerin elektronik tınısını kaybedip daha insansı bir sese kavuşmasını sağladı. 1990 yılında, AT&T Bell Laboratuvarları’ndan Ann Syrdal kadın sesiyle konuşan bir sentezleyici geliştirdi. 90'lar boyunca mühendisler, sesleri daha doğal hale getirmek için çalıştı.

1999 yılında Microsoft, artık Windows’un her sürümünde yer alan ekran okuyucu çözümü Narrator’ı kullanıma sundu.

2000'ler

2000'lerde, konuşma sentezi bazı sorunlarla karşılaştı; geliştiriciler sentezlenmiş konuşma için üzerinde uzlaşılmış standartlar oluşturmakta zorlandı. Konuşma son derece bireysel olduğu için, dünyanın dört bir yanındaki insanların fonem, difon, intonasyon, ton, örüntü oynatma ve infleksiyonun doğru telaffuzu konusunda ortak karara varması zordu.

90’larda, biçimant sentezinde konuşma ses kalitesi de daha fazla önemsenmeye başlandı. Mühendisler ve araştırmacılar, laboratuvar ortamında sentezlenmiş konuşmayı oynatan sistemlerin kalitesinin, kullanıcının sahip olduğu ekipmandan çok daha ileri olduğunu fark etti. Konuşma sentezi dendiğinde, çoğu insanın aklına Stephen Hawking’in robotik ve pek insansı olmayan tonda ses veren ses sentezleyicisi gelir.

2005 yılında, araştırmacılar sonunda bazı uzlaşmalara vardı ve ortak bir konuşma veri seti kullanmaya başladı. Böylece üst düzey konuşma sentezi sistemleri geliştirirken aynı temel ilkelerden hareket edebildiler.

2007 yılında yapılan bir araştırmada, dinleyicilerin konuşan bir kişinin gülümsediğini anlayabildiği gösterildi. Araştırmacılar hâlâ bu bilgiyi konuşma tanıma ve konuşma sentezi yazılımlarını daha doğal hale getirmek için nasıl kullanabileceklerini keşfetmeye çalışıyor.

2010'lar

Bugün, konuşma sinyallerini kullanan konuşma sentezi ürünleri her yerde; Siri’den Alexa’ya kadar. Elektronik konuşma sentezleyicileri hayatı sadece kolaylaştırmakla kalmaz, aynı zamanda daha eğlenceli hale de getirir. İster hareket halindeyken roman dinlemek için bir TTS sistemi kullanın, ister yabancı dil öğrenimini kolaylaştıran uygulamalardan yararlanın, muhtemelen her gün sinir ağlarınızı harekete geçirmek için metinden konuşma teknolojisinden faydalanıyorsunuzdur.

Gelecek

Önümüzdeki yıllarda, ses sentezi teknolojisinin beynin bir modelini oluşturmaya odaklanması ve konuşma verilerini zihnimizde nasıl kaydettiğimizi daha iyi anlamaya çalışması muhtemel. Konuşma teknolojileri ayrıca, duygunun konuşmadaki rolünü daha iyi anlamaya çalışacak ve bu bilgilerden yararlanarak yapay zeka sesleri üretecek; bu sesler gerçek insanlardan ayırt edilemeyecek kadar doğal olacak.

Ses Sentezi Teknolojisindeki En Son Gelişmeler: Speechify

Önceki konuşma sentezi teknolojilerinden bugüne geçişleri incelediğinizde bilimin ne kadar ilerlediğini görmek büyüleyici. Bugün, Speechify gibi uygulamalar, herhangi bir metni kolayca ses dosyalarına dönüştürüyor. Sadece bir düğmeye basarak (veya uygulamada dokunarak) Speechify, web sitelerini, belgeleri ve metin görüntülerini doğal sesli konuşmaya çeviriyor. Speechify’ın kitaplığı tüm cihazlarınızda senkronize oluyor, böylece hareket halindeyken öğrenmeye ve çalışmaya devam etmek çok daha kolaylaşıyor. Speechify uygulamasına hem Apple’ın App Store’unda hem de Android Google Play’de göz atın.  

Sıkça Sorulan Sorular

Metinden konuşma teknolojisini kim icat etti?

İngilizce için metinden konuşma teknolojisi Noriko Umeda tarafından geliştirildi. Sistem, 1968’de Japonya’daki Elektroteknik Laboratuvarı’nda tasarlandı.

Metinden konuşma teknolojisinin amacı nedir?

Pek çok kişi metinden konuşma teknolojisini kullanır. Bilgilerini sesli formatta almayı tercih edenler için TTS teknolojisi kitap başında saatler harcamadan bilgiye kolayca ulaşmayı sağlar. Yoğun çalışan profesyoneller de TTS teknolojisini, bilgisayar ekranı başında oturamadıklarında işlerini takip etmek için kullanır. TTS teknolojisinin birçok türü başlangıçta görme engelliler için geliştirilmiştir ve TTS, görme güçlüğü yaşayanların ihtiyaç duyduğu bilgiye ulaşmasının harika bir yoludur.

Konuşma nasıl sentezlenir?

Kayıtlı konuşma parçaları, veritabanında çeşitli birimlerde saklanır. Yazılım, birim seçimi yoluyla ses dosyalarını hazırlar ve buradan bir ses akışı oluşturulur. Genellikle bir programın çıktı aralığı ne kadar genişse, kullanıcıya net ve anlaşılır bir ses sunmak o kadar zorlaşır.

En gelişmiş yapay zeka seslerin, sınırsız dosya ve 7/24 desteğin keyfini çıkarın

Ücretsiz Dene
tts banner for blog

Bu Makaleyi Paylaş

Tyler Weitzman

Tyler Weitzman

Stanford Üniversitesi Bilgisayar Bilimleri Yüksek Lisans mezunu, Disleksi & Erişilebilirlik Savunucusu, Speechify CEO'su ve Kurucusu

Tyler Weitzman, dünyanın 1 numaralı metinden sese uygulaması Speechify'ın Kurucu Ortağı, Yapay Zekâ Başkanı ve Başkanıdır; uygulamanın 100.000'in üzerinde 5 yıldızlı yorumu vardır. Weitzman, Stanford Üniversitesi'nden matematik alanında lisans ve yapay zekâ odaklı Bilgisayar Bilimleri yüksek lisans dereceleriyle mezun olmuştur. Inc. Magazine tarafından En İyi 50 Girişimci arasında gösterilmiş; Business Insider, TechCrunch, LifeHacker, CBS ve daha birçok yayında yer almıştır. Weitzman'ın yüksek lisans araştırmaları yapay zekâ ve metinden sese teknolojilerine odaklanmıştır ve bitirme tezi “CloneBot: Kişiselleştirilmiş Diyalog-Cevap Tahminleri” başlığını taşımaktadır.

speechify logo

Speechify Hakkında

#1 Metin Okuyucu

Speechify dünyanın önde gelen metin okuma platformudur; 50 milyondan fazla kullanıcıya sahip ve 500.000'den fazla beş yıldızlı yorumu ile güvenilir bir hizmettir. Speechify, iOS, Android, Chrome eklentisi, web uygulaması ve Mac masaüstü uygulamalarıyla öne çıkıyor. 2025 yılında, Apple, Speechify'a prestijli Apple Tasarım Ödülü’nü WWDC'de takdim etti ve “insanların yaşamlarını kolaylaştıran kritik bir kaynak” olarak tanımladı. Speechify; 60+ dilde 1.000+ doğal ses sunuyor ve neredeyse 200 ülkede kullanılıyor. Ünlü sesler arasında Snoop Dogg, Mr. Beast ve Gwyneth Paltrow bulunuyor. İçerik üreticileri ve işletmeler için Speechify Studio gelişmiş araçlar sunar: AI Ses Oluşturucu, AI Ses Klonlama, AI Dublaj ve AI Ses Değiştirici dahil. Speechify aynı zamanda uygun maliyetli ve yüksek kaliteli metin okuma API'si ile lider ürünlere güç katmaktadır. The Wall Street Journal, CNBC, Forbes, TechCrunch ve diğer büyük medya kuruluşlarında yer alan Speechify, dünyanın en büyük metin okuma sağlayıcısıdır. Daha fazlası için speechify.com/news, speechify.com/blog ve speechify.com/press adreslerini ziyaret edebilirsiniz.