1. Trang chủ
  2. API
  3. Tất tần tật về Google Cloud Text to Speech API
API

Tất tần tật về Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

Giám đốc điều hành/Nhà sáng lập Speechify

Speechify API mang đến độ trễ 300ms, giọng đọc tự nhiên và hỗ trợ hơn 50 ngôn ngữ

apple logoGiải thưởng Thiết kế Apple 2025
Hơn 50 triệu người dùng

Trí tuệ nhân tạo sinh (Generative AI) và trí tuệ nhân tạo đã phát triển đáng kể. Chuyển văn bản thành giọng nói là một ý tưởng không mới và đã tồn tại một thời gian. Chủ đề này rất rộng và cần hệ thống lại, tôi sẽ trình bày và phân tích ở nhiều khía cạnh. Dù bạn là người mới hay đã có kinh nghiệm, bài viết này sẽ giúp bạn hiểu rõ hơn về API Text to Speech của Google.

Trước khi đi sâu vào bất kỳ chủ đề nào, chúng ta cần thống nhất một số nguyên tắc cơ bản. Hãy cùng định nghĩa vài thuật ngữ quan trọng để tạo nền tảng vững chắc cho phần kiến thức tiếp theo.

Hãy tách biệt hai công nghệ sau: chuyển văn bản thành giọng nói và API, đồng thời làm rõ vai trò của Google Cloud.

Lưu ý của biên tập viên: Bạn đang tìm kiếm API chuyển văn bản thành giọng nói tốt nhất? Hãy khám phá API chuyển văn bản thành giọng nói của Speechify, có tài liệu rõ ràng và cực kỳ dễ dùng tại đây.

Chuyển văn bản thành giọng nói

Tôi đã viết khá nhiều về chủ đề này, bạn có thể đọc blog của tôi về Chuyển văn bản thành giọng nói là gì và tìm hiểu thêm về tổng hợp giọng nói để nắm chắc đề tài này. Những nội dung đó phân tích sâu hơn và bạn có thể tạm bỏ qua bây giờ. Tôi sẽ tóm lược lại chỉ trong vài câu dưới đây.

Công nghệ chuyển văn bản thành giọng nói dựa vào kỹ thuật tổng hợp giọng nói (speech synthesis) để chuyển chữ thành âm thanh do AI tạo ra. Ứng dụng của công nghệ này vô cùng đa dạng, từ hỗ trợ những người gặp khó khăn khi đọc như mắc chứng khó đọc (dyslexia), thị lực kém cho tới những người muốn tăng hiệu suất làm việc.

API

API là viết tắt của Application Programming Interface (Giao diện lập trình ứng dụng). API đóng vai trò như một chiếc cầu nối giữa hai ứng dụng. Nếu bạn phát triển một ứng dụng có nội dung âm thanh cần chức năng chuyển văn bản thành lời nói, bạn có thể tự xây dựng hoặc đơn giản là kết nối với một API chuyển văn bản thành giọng nói sẵn có.

Nhờ vậy, bạn chỉ cần tập trung xây dựng ứng dụng và dùng API của bên thứ ba như chiếc cầu nối để tích hợp sẵn chức năng chuyển văn bản thành giọng nói vào sản phẩm của mình.

Google Cloud API

Đây là lúc Google Cloud phát huy thế mạnh. Google đã phát triển một API chuyển văn bản thành giọng nói mạnh mẽ và cung cấp cho các lập trình viên với nhiều mức phí khác nhau. Bất kỳ lập trình viên nào đang phát triển ứng dụng riêng hoặc ứng dụng web cần chức năng chuyển văn bản thành giọng nói đều có thể dùng tính năng TTS (Text to Speech) của Google để đáp ứng nhu cầu. TTS là viết tắt của chuyển văn bản thành giọng nói.

Bạn có thể tìm hướng dẫn nhanh tại Google Cloud Console https://cloud.google.com/. Tại đây có tài liệu hướng dẫn, quản lý tài khoản dịch vụ, truy cập giọng đọc wavenet và nhiều tính năng khác.

Bản thân Google Cloud là nền tảng điện toán đám mây do Google cung cấp với nhiều dịch vụ dạng module. Bạn có thể chọn dùng một, một vài hoặc toàn bộ dịch vụ của họ. Để sử dụng từng API riêng lẻ, bạn cần tạo các khóa truy cập cho từng API để xác thực - giống như một chiếc cầu nối. Hầu hết các dịch vụ đều có tính phí, dù đôi khi vẫn có một mức sử dụng miễn phí nhất định.

Google đã mua lại DeepMind vào năm 2014 với mục tiêu phát triển công nghệ chuyển văn bản thành giọng nói và xây dựng mạng nơ-ron. Do đó, khi bạn nghe đến DeepMind, thì đó chính là Google DeepMind - hai tên gọi cho cùng một đơn vị.

Giờ thì chúng ta đã có nền tảng vững vàng, hãy cùng đào sâu hơn vào API Google Cloud Text to Speech.

Các tính năng của Google Text to Speech API

Google là tập đoàn công nghệ tiên phong và hàng đầu thế giới, điều này hầu như ai cũng biết. Với TTS API, bạn hoàn toàn có thể kỳ vọng những tính năng đẳng cấp quốc tế liên tục được nâng cấp.

Giọng nói chất lượng cao

Các giọng chuyển văn bản thành lời nói của Google nằm trong số những giọng đọc tốt nhất trên thị trường. Chúng rất giống giọng người thật với ngữ điệu tự nhiên. Công nghệ TTS tuy vẫn còn trong giai đoạn đầu phát triển, nhưng ai tạo ra được giọng đọc tự nhiên nhất sẽ nắm lợi thế dẫn đầu.

Lựa chọn đa dạng giọng nói

Google tự hào sở hữu bộ sưu tập giọng nói đa dạng bậc nhất, giúp dự án của bạn không bị “đụng hàng” với hàng nghìn dự án khác hoặc, tệ hơn, trùng với chính đối thủ cạnh tranh.

Tạo giọng nói riêng

Tính năng này gần giống với công nghệ nhân bản giọng nói. Bạn có thể tạo giọng đọc riêng cho mình bằng cách ghi âm chính bạn hoặc người khác (có sự cho phép). Sau đó dùng mẫu này để đọc to mọi nội dung văn bản.

Giọng nói thần kinh (Neural Voices)

Giọng thần kinh mang lại chất lượng vượt trội trong số rất nhiều giọng nói. Bạn còn có thể quốc tế hóa những giọng này để mở rộng tập người dùng trên toàn cầu.

Giọng phòng thu (Studio Voices)

Giọng phòng thu là các giọng đọc cao cấp, nghe rất chuyên nghiệp như được thu trong studio truyền thống.

Tùy chỉnh giọng nói

Chọn một giọng đọc rồi điều chỉnh tốc độ, cao độ, v.v... để cá nhân hóa tông và giọng theo ý muốn.

Google Text to Speech API có giá bao nhiêu?

Mức giá phụ thuộc vào chất lượng giọng nói và độ dài văn bản của bạn. Giọng càng tự nhiên thì giá càng cao, nhưng “đắt” ở đây cũng chỉ là tương đối. Ngay cả những giọng chất lượng rất cao vẫn có giá khá dễ chịu.

Loại giọngMiễn phí mỗi thángSau khi hết lượt miễn phí
Giọng Neural20 đến 1 triệu bytes16 USD trên mỗi triệu bytes
Giọng Polyglot0 đến 1 triệu bytes16 USD trên mỗi triệu bytes
Giọng phòng thu0 đến 100.000 bytes160 USD trên mỗi triệu bytes
Giọng chuẩn0 đến 4 triệu ký tự4 USD trên mỗi triệu ký tự
Giọng Wavenet0 đến 1 triệu ký tự16 USD trên mỗi triệu ký tự

Sự khác biệt giữa ký tự & byte là gì?

Như bạn thấy, giá cả thay đổi đáng kể tùy vào chất lượng của giọng đọc. Việc mã hóa và xử lý âm thanh để chuyển văn bản thành giọng nói cũng khác nhau giữa các loại giọng. Với những giọng chuẩn như Standard Voices, chi phí thấp hơn và được tính dựa trên số lượng ký tự.

Điều này có nghĩa, nếu dự án của bạn có 4 triệu ký tự, bạn sẽ tốn 16 USD để chuyển số ký tự đó thành giọng nói khi dùng gói Giọng Chuẩn.

Ngược lại, Giọng phòng thu yêu cầu khả năng xử lý cao hơn nên được tính phí dựa trên byte. Ở một số ngôn ngữ như tiếng Nhật, một ký tự có thể chiếm nhiều byte.

Vì vậy, để tính giá sát nhất, bạn cần biết ngôn ngữ mình dùng và nắm sơ qua số byte trung bình cho mỗi ký tự để ước lượng cho phù hợp.

Cách thiết lập dự án Google Cloud Platform Text to Speech API của bạn

  1. Tạo tài khoản Google Cloud hoặc đăng nhập tại đây
  2. Tạo dự án mới và đặt tên phù hợp
  3. Thêm phương thức thanh toán. Bạn chỉ bị tính phí cho những gì mình sử dụng.
  4. Chọn dự án của bạn và liên kết với tài khoản thanh toán.
  5. Kích hoạt API Text-to-Speech. Vào thanh tìm kiếm sản phẩm và tài nguyên ở đầu trang và nhập "speech."
  6. Từ kết quả hiển thị, chọn Cloud Text-to-Speech API
  7. Thiết lập xác thực cho môi trường phát triển của bạn. Xem hướng dẫn về cách thiết lập xác thực cho Text-to-Speech trong tài liệu.

Bạn cũng có thể thử Text-to-Speech mà không cần liên kết với dự án:

  1. Chọn tùy chọn DÙNG THỬ API NÀY (TRY THIS API).
  2. Để kích hoạt Text-to-Speech API dùng với dự án của bạn, nhấn ENABLE.

Tham khảo thêm tài liệu hướng dẫn Google Cloud nếu cần hỗ trợ thêm.

Cách tắt Text to Speech API

Để vô hiệu hóa API Text-to-Speech, hãy vào bảng điều khiển Google Cloud Platform của bạn và nhấn vào "Truy cập tổng quan APIs" trong mục APIs. Tìm Text-to-Speech API, nhấn vào đó, sau đó chọn nút "DISABLE API" ở đầu trang.

Bắt đầu với Google Text to Speech API

Sau khi thiết lập xong dự án, bạn có thể bắt đầu sử dụng qua dòng lệnh.

gcloud init

Tạo xác thực cục bộ

gcloud auth application-default login

Giờ bạn có thể cài đặt thư viện client. Ví dụ này sẽ sử dụng Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API hỗ trợ các ngôn ngữ sau:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

API Google Cloud hoạt động như thế nào?

Mọi thứ bắt đầu từ một lệnh gọi API đơn giản. Bạn gửi văn bản trong lệnh transcript, sau đó sẽ nhận lại một file âm thanh giọng đọc của nội dung đó. Với mỗi yêu cầu, bạn có thể chọn các tùy chọn như giọng, ngôn ngữ, v.v. để API chuyển văn bản thành giọng nói trả về file audio phù hợp.

Bạn có thể xem hướng dẫn cài đặt và sử dụng thư viện client text to speech tại đây. Mẫu code dưới đây dành cho Node.js, nhưng bạn cũng có thể chọn Python, PHP hoặc các ngôn ngữ khác tùy ý.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

Và như vậy là xong. Bạn đã thiết lập Google Cloud Text to Speech API và gửi yêu cầu chuyển đổi văn bản thành giọng nói đầu tiên. Bạn có thể nhận lại file dưới nhiều định dạng khác nhau, từ OGG đến MP3.

Một số ứng dụng tiêu biểu của Google Text to Speech API

Google Text-to-Speech (TTS) API mang đến giải pháp linh hoạt cho nhiều lĩnh vực, ngành nghề khác nhau. Một số ứng dụng phổ biến có thể kể đến:

  1. Chuyển văn bản thành giọng nói cho người khiếm thị: Tích hợp TTS vào ứng dụng để chuyển đổi nội dung văn bản thành âm thanh, giúp người khiếm thị truy cập thông tin số dễ dàng hơn.
  2. Hệ thống điện thoại tự động: Sử dụng TTS để tạo lời thoại tự nhiên cho hệ thống trả lời tự động trong dịch vụ khách hàng, tổng đài thông tin.
  3. Lồng tiếng cho nội dung truyền thông: Tạo giọng đọc tự nhiên cho video, podcast hoặc các nội dung đa phương tiện khác để nâng cao trải nghiệm người dùng.
  4. Chuyển văn bản dịch thành giọng nói: Chuyển văn bản đã dịch ra âm thanh để hỗ trợ học ngoại ngữ, giao tiếp quốc tế hay tiêu thụ nội dung đa ngôn ngữ.
  5. Hỗ trợ đọc cho người mắc chứng khó đọc: Cung cấp chức năng TTS để giúp người mắc chứng khó đọc hoặc gặp khó khăn khi đọc tiếp cận nội dung văn bản dễ dàng hơn.
  6. Dẫn đường bằng giọng nói trong ứng dụng: Tích hợp TTS vào ứng dụng dẫn đường để cung cấp chỉ dẫn hoặc thông tin vị trí bằng âm thanh.
  7. Chuyển văn bản thành giọng nói cho nội dung giáo dục: Nâng cao trải nghiệm học tập trực tuyến bằng cách chuyển nội dung học tập sang âm thanh, giúp người học dễ hiểu và ghi nhớ hơn.
  8. Tổng hợp giọng nói trong ứng dụng năng suất: Tích hợp TTS vào các ứng dụng ghi chú, quản lý công việc... để cung cấp phản hồi hoặc truy xuất thông tin bằng giọng nói.
  9. Giọng tự nhiên cho trợ lý ảo: Cung cấp cho trợ lý ảo giọng đọc tự nhiên, giúp nâng cao trải nghiệm tương tác và truyền đạt thông tin một cách gần gũi như hội thoại.
  10. Cảnh báo và thông báo bằng âm thanh: Sử dụng TTS để phát thông báo, cảnh báo hoặc các cập nhật trạng thái trên thiết bị IoT nhằm nâng cao nhận thức của người dùng.

Các giải pháp thay thế tốt nhất cho Google Cloud TTS API

Tính đến lần cập nhật kiến thức gần nhất của tôi vào tháng 1/2022, có khá nhiều giải pháp thay thế cho Google Text-to-Speech API. Cần lưu ý rằng mức độ phổ biến và tính năng của các dịch vụ này có thể đã thay đổi kể từ thời điểm đó. Sau đây là một số lựa chọn đáng chú ý:

  1. Speechify Text to Speech API: Chúng tôi rất hào hứng giới thiệu API chuyển văn bản thành giọng nói, mang những giọng AI đặc trưng và tự nhiên nhất của Speechify đến với các lập trình viên trên toàn thế giới. Đăng ký giữ chỗ ngay.
  2. Amazon Polly: Dịch vụ của Amazon Web Services (AWS), Polly cung cấp tổng hợp giọng nói tự nhiên ở nhiều ngôn ngữ và giọng khác nhau. Tích hợp tốt với các dịch vụ AWS khác.
  3. Microsoft Azure Speech Service: Azure Speech Service có tính năng Text-to-Speech và hỗ trợ nhiều ứng dụng như trợ lý ảo, hệ thống điều hướng,...
  4. IBM Watson Text to Speech: IBM Watson cung cấp dịch vụ chuyển văn bản thành giọng nói tự nhiên với nhiều lựa chọn giọng khác nhau.
  5. Nuance Communications: Nuance phát triển các giải pháp nhận diện giọng nói, tổng hợp giọng nói cho nhiều ngành từ y tế, ô tô đến dịch vụ khách hàng.
  6. CereProc: CereProc là công ty công nghệ tổng hợp giọng nói, cung cấp các giọng ảo chất lượng cao cho ứng dụng trợ năng, giải trí, giao tiếp.
  7. iSpeech: iSpeech cung cấp dịch vụ chuyển văn bản lên đám mây với đa dạng giọng, ngôn ngữ, phù hợp cho ứng dụng di động, web,...
  8. ResponsiveVoice: ResponsiveVoice là API đơn giản, giá phải chăng, hỗ trợ nhiều ngôn ngữ và dễ tích hợp trong ứng dụng web.
  9. Neospeech: Neospeech tập trung vào phát triển giọng đọc tự nhiên, được ứng dụng trong e-learning, giải trí,...
  10. ReadSpeaker: ReadSpeaker cung cấp giải pháp đọc văn bản online & offline cho nhiều lĩnh vực như website, giáo dục, dịch vụ trợ năng.
  11. Acapelabox: Acapela Group mang đến API chuyển văn bản lên đám mây, hỗ trợ nhiều ngôn ngữ, giọng nói cho nhiều ngành nghề khác nhau.

Câu hỏi thường gặp về Google Text to Speech API

Google có nhiều cấp độ giọng đọc, hầu hết các cấp đều có hạn mức miễn phí. Ví dụ, giọng chuẩn được miễn phí cho 1 triệu bytes đầu tiên. Sau đó tính phí 16 USD cho mỗi triệu bytes. Như vậy, bạn có thể dùng miễn phí nhưng sẽ bị giới hạn về số lượng ký tự hoặc byte.

Chỉ cần tạo tài khoản tại https://cloud.google.com/text-to-speech/ và làm theo các bước hướng dẫn trên đó. Ngoài ra, tôi cũng đã hướng dẫn chi tiết trong bài viết phía trên.

Bạn có thể lấy key API Google Text-to-Speech bằng cách đăng nhập vào tài khoản Google Cloud, tạo một dự án mới, sau đó tạo key API cho dự án đó.

URL của Google text to speech API là https://cloud.google.com/text-to-speech/

Thực tế Google Cloud không có thời gian dùng thử miễn phí cố định. Có nhiều dịch vụ trong Google Cloud, mỗi dịch vụ sẽ có chính sách và hạn mức miễn phí riêng.

Không. Google Cloud Text-to-Speech API cần có kết nối internet.

Xác thực với các dịch vụ Google Cloud, bao gồm Text-to-Speech API, có thể thực hiện qua API key, OAuth 2.0 hoặc tài khoản dịch vụ. Phương thức xác thực phù hợp tùy vào mục đích sử dụng và loại ứng dụng.

Tôi chấm 5 sao. Giao diện dễ dùng, chức năng tìm kiếm rất hữu ích và là một trong những tính năng mình dùng nhiều nhất. Giá cả hợp lý và nhìn chung là một sản phẩm rất tốt.

Google Text-to-Speech API cung cấp thư viện cho nhiều ngôn ngữ lập trình khác nhau, bao gồm Python. Ngoài ra, còn hỗ trợ thực hiện lệnh RESTful API, phù hợp với mọi ngôn ngữ có thể gửi yêu cầu HTTP.

Để tích hợp Google Text-to-Speech API vào ứng dụng Android, bạn cần dùng lớp TextToSpeech và gọi API. Hướng dẫn chi tiết được cung cấp trong tài liệu chính thức dành cho lập trình viên Android.

Để tích hợp Google Text-to-Speech API vào ứng dụng JavaScript, bạn có thể gửi yêu cầu HTTP đến endpoint API. Quá trình bao gồm xây dựng request và xử lý response trong code JavaScript. Tham khảo tài liệu chính thức để biết thêm chi tiết.

Truy cập các giọng đọc được yêu thích của Speechify qua API nhanh chóng, linh hoạt và thân thiện với lập trình viên

Nhận quyền truy cập API
api access banner

Chia sẻ bài viết

Cliff Weitzman

Cliff Weitzman

Giám đốc điều hành/Nhà sáng lập Speechify

Cliff Weitzman là một người luôn lên tiếng bảo vệ những người mắc chứng khó đọc và là Giám đốc điều hành kiêm nhà sáng lập Speechify, ứng dụng chuyển văn bản thành giọng nói số 1 thế giới, với hơn 100.000 lượt đánh giá 5 sao và nhiều lần giữ vị trí số một trong mục Tin tức & Tạp chí trên App Store. Năm 2017, Weitzman được vinh danh trong danh sách Forbes 30 Under 30 nhờ những đóng góp giúp internet trở nên dễ tiếp cận hơn với người gặp khó khăn trong học tập. Cliff Weitzman cũng từng được nhắc đến trên EdSurge, Inc., PC Mag, Entrepreneur, Mashable cùng nhiều kênh truyền thông lớn khác.

speechify logo

Về Speechify

Trình đọc chuyển văn bản thành giọng nói số 1

Speechify là nền tảng chuyển văn bản thành giọng nói hàng đầu thế giới, được hơn 50 triệu người tin dùng và có hơn 500.000 đánh giá 5 sao trên các ứng dụng chuyển văn bản thành giọng nói cho iOS, Android, Tiện ích Chrome, ứng dụng webứng dụng Mac. Năm 2025, Apple đã trao giải thưởng Thiết kế Apple cho Speechify tại WWDC, và gọi Speechify là “một nguồn lực thiết yếu giúp mọi người sống tốt hơn.” Speechify cung cấp hơn 1.000 giọng đọc tự nhiên bằng hơn 60 ngôn ngữ và được sử dụng tại gần 200 quốc gia. Các giọng nổi bật gồm Snoop Dogg, Mr. BeastGwyneth Paltrow. Dành cho nhà sáng tạo nội dung và doanh nghiệp, Speechify Studio cung cấp các công cụ nâng cao như Tạo giọng nói AI, Nhân bản giọng nói AI, Lồng tiếng AIThay đổi giọng AI. Speechify cũng hỗ trợ các sản phẩm hàng đầu với API chuyển văn bản thành giọng nói chất lượng cao, tối ưu chi phí của mình. Được nhắc đến trên The Wall Street Journal, CNBC, Forbes, TechCrunch và nhiều hãng tin lớn khác, Speechify là nhà cung cấp giải pháp chuyển văn bản thành giọng nói lớn nhất thế giới. Truy cập speechify.com/news, speechify.com/blogspeechify.com/press để biết thêm thông tin.