Tính năng nhân bản giọng nói của Apple là gì? Công nghệ đột phá này cho phép người dùng Apple tạo bản sao giọng nói của ai đó bằng trí tuệ nhân tạo (AI). Được giới thiệu tại WWDC 2023, tính năng hỗ trợ tiếp cận mới này sử dụng máy học để tạo ra một giọng nói tổng hợp bắt chước gần như hoàn hảo âm thanh, sắc thái và ngữ điệu của chính bạn hoặc người thân.
Tính năng nhân bản giọng nói của Apple là gì?
Tính năng nhân bản giọng nói của Apple là một bước tiến công nghệ sáng tạo được Apple giới thiệu tại WWDC 2023. Sử dụng máy học và trí tuệ nhân tạo (AI), tính năng này cho phép người dùng tạo ra một bản sao tổng hợp của chính giọng nói mình hoặc người thân. Giọng nói đã được nhân bản có thể được dùng trên nhiều thiết bị Apple cho các mục đích khác nhau.
Làm thế nào để nhân bản giọng nói của một người?
Để nhân bản giọng nói của một người bằng tính năng nhân bản giọng nói của Apple, bạn sẽ thực hiện theo các bước sau:
- Ghi lại vài phút âm thanh khi người đó nói chuyện một cách tự nhiên và rõ ràng.
- AI sẽ phân tích đoạn âm thanh này để nhận biết các điểm đặc trưng và nét riêng trong giọng nói.
- Hệ thống sau đó sẽ tạo ra một giọng nói tổng hợp bắt chước sát nhất có thể so với giọng gốc.
Để đạt kết quả tốt nhất, nên sử dụng các đoạn hội thoại rõ ràng, được ghi âm trực tiếp trên iPhone, iPad hoặc Mac.
Apple có chính thức ra mắt tính năng nhân bản giọng nói trực tiếp trên thiết bị không?
Có, Apple đã chính thức công bố ra mắt tính năng nhân bản giọng nói trực tiếp trên thiết bị tại WWDC 2023. Tính năng này nhằm tăng cường khả năng tiếp cận và hỗ trợ những người gặp khó khăn về ngôn ngữ, nhận thức như người mắc ALS (xơ cứng teo cơ một bên) để họ có thể giao tiếp bằng chính giọng nói của mình.
Bạn có thể sử dụng nhân bản giọng nói để làm gì?
Nhân bản giọng nói có rất nhiều cách ứng dụng khác nhau:
- Cá nhân hóa các cuộc gọi điện thoại và Facetime.
- Tạo podcast và nội dung mạng xã hội bằng chính giọng của bạn.
- Vận hành các tính năng điều khiển bằng giọng nói như Siri với giọng của bạn.
- Dùng cho tính năng "live speech" trong các ứng dụng hỗ trợ chuyển văn bản thành giọng nói.
Sự khác biệt giữa nhân bản giọng nói và nhận diện giọng nói là gì?
Nhận diện giọng nói là công nghệ nhận biết hoặc xác thực giọng của một người, được sử dụng trong các trợ lý điều khiển bằng giọng nói như Siri hay Google Assistant. Ngược lại, nhân bản giọng nói dùng AI để tạo ra một giọng nói tổng hợp nghe giống như giọng của một người cụ thể.
Lợi ích của việc sử dụng nhân bản giọng nói là gì?
Những lợi ích chính của nhân bản giọng nói gồm có:
- Tăng cường khả năng hỗ trợ tiếp cận cho người gặp khó khăn về phát âm.
- Tạo trải nghiệm tương tác kỹ thuật số cá nhân hóa hơn.
- Giúp giao tiếp trở nên chân thực và cuốn hút hơn trên nhiều nền tảng khác nhau.
Nhân bản giọng nói hoạt động như thế nào?
Nhân bản giọng nói hoạt động bằng cách sử dụng AI và máy học để phân tích các đặc điểm riêng biệt trong giọng nói của một người dựa trên clip âm thanh đã ghi. Điều này bao gồm cao độ, ngữ điệu, tông giọng và nhiều yếu tố khác. AI sau đó tạo ra giọng nói tổng hợp mô phỏng các đặc tính này sát với giọng gốc nhất có thể.
Làm sao để bạn có thể tạo bản sao giọng nói trên thiết bị Apple?
Theo thông báo tại WWDC 2023, bạn sẽ có thể truy cập tính năng nhân bản giọng nói này trên iOS 17 và iPadOS với các thiết bị như iPhone, iPad, Mac và Apple Watch. Quy trình cụ thể cũng như các yêu cầu cần thiết khi sử dụng sẽ được Apple hướng dẫn chi tiết khi tính năng này chính thức phát hành.
8 phần mềm hoặc ứng dụng nhân bản giọng nói hàng đầu (ngoài Apple) bao gồm:
- Resemble AI: Cung cấp dịch vụ nhân bản giọng nói và chuyển văn bản thành giọng nói chất lượng cao bằng deep learning.
- Overdub của Descript: Cho phép bạn nhân bản giọng nói để chỉnh sửa podcast hay video lồng tiếng một cách dễ dàng.
- Custom Neural Voice của Microsoft: Một công cụ mạnh mẽ để tổng hợp giọng nói chất lượng cao.
- CereProc: Nổi bật với hỗ trợ đa ngôn ngữ và khả năng tạo cảm xúc cho giọng nói.
- iSpeech: Được biết đến với API chuyển văn bản thành giọng nói và nhân bản giọng nói dựa trên đám mây.
- My-Own-Voice của Acapela: Hỗ trợ những người mất khả năng nói tái tạo lại giọng của mình dưới dạng kỹ thuật số.
- Replica Studios: Thường được sử dụng để lồng tiếng trong phát triển game.
- Tacotron của Google: Công cụ mã nguồn mở chuyển đổi văn bản thành giọng nói bằng máy học.
Song song với sự bùng nổ của công nghệ nhân bản giọng nói, nhiều lo ngại về việc sử dụng sai mục đích như lừa đảo cũng xuất hiện. Do đó, việc sử dụng công nghệ này một cách có trách nhiệm là vô cùng quan trọng. Cần sớm có các quy tắc đạo đức rõ ràng để bảo vệ quyền lợi cá nhân và ngăn chặn việc lạm dụng giọng nói đã nhân bản.
Những tính năng hỗ trợ tiếp cận mới tương thích với iOS 17, iPadOS và tất cả thiết bị Apple như Apple Watch và MacBook. Các nâng cấp hỗ trợ tiếp cận còn mở rộng sang tính năng Kính lúp (Magnifier), chức năng "Chỉ và nói" (Point and Speak), cùng ứng dụng Vision Pro dành cho người khiếm thị. Dù tính năng giọng nói cá nhân không liên kết trực tiếp với các công cụ này, nó vẫn thể hiện cam kết không ngừng của Apple trong việc nâng cao khả năng tiếp cận trên toàn hệ sinh thái.
Trong bối cảnh xu hướng công nghệ mới này đang phát triển mạnh mẽ, hãy nhớ rằng tính năng này có thể định hình tương lai của giao tiếp kỹ thuật số. Từ việc giúp Philip Green trò chuyện, tạo podcast sinh động cho đến để vang lên chính giọng nói của bạn trong các cuộc gọi Facetime, sức mạnh của nhân bản giọng nói giờ đã nằm trong tầm tay bạn.

