Trong thời điểm những năm gần đây, các ứng dụng của giọng nói nhân tạo hiện ngày càng được quan tâm bởi những giá trị thực tiễn riêng mà nó mang lại như ứng dụng trong hệ thống các tổng đài chăm sóc khách hàng, các chốt thông báo, thuyết minh đọc ở các địa điểm tham quan, du lịch, hay là các hệ thống phát thanh trong các lĩnh vực công cộng như là giao thông, y tế, đọc báo. Cùng với xu thế của thời đại, Công ty Viettel đã nghiên cứu và phát triển thành công ứng dụng chuyển giọng đọc Viettel hiện đang có rất nhiều tiềm năng được ứng dụng trong cuộc sống. Cùng bài viết sau đây tìm hiểu vể công nghệ AI đặc biệt này.
Đặc điểm nổi bật của giọng đọc Viettel
Giọng nói tự nhiên
Với việc sử dụng cập nhật các công nghệ tiên tiến thế giới về xử lý ngôn ngữ cực tự nhiên, xử lý tiếng nói, học sâu, hệ thống tổng hợp cho các giọng đọc tự nhiên, ngắt nghỉ một cách tự động và kết hợp biểu cảm chính xác
Giọng đọc đa dạng
Hiện tại thì công ty Viettel cung cấp giọng đọc báo, đọc truyện với người dùng cả 3 vùng miền: Bắc (3 giọng nữ, 2 giọng nam), gióng Trung (1 giọng nữ, 1 giọng nam), Nam (3 giọng nữ, 1 giọng nam)
Đáp ứng nhanh chóng
Sử dụng được cho số lượng lớn các máy chủ mạnh với công nghệ tính toán song song có thể cho phép đáp ứng nhanh chóng mọi loại yêu cầu của khách hàng, ngay cả trong trường hợp tải tăng đột biến
Ứng dụng thực tế của giọng đọc Viettel
Hệ thống thông báo, các IoT, Robotics
Hỗ trợ đọc lệnh các hệ thống thông báo, phát thanh, hướng dẫn ở tại sân bay, đài truyền hình, bệnh viện hoặc Smart Home…
Thuyết minh / Tổng đài tự động
Tiết kiệm được một khoản lớn về chi phí, thời gian, tăng năng suất và chất lượng cho tất cả các dịch vụ thuyết minh, bán hàng hoặc CSKH qua điện thoại
Sách / Báo nói
Cho phép tất cả các người dùng lắng nghe nội dung trực tiếp ở ngay trên các trang sách báo online khi đi đường, lái xe, khi đi tàu. Đặc biệt là có thể hỗ trợ người khiếm thị
Trải qua cả một quá trình nghiên cứu và phát triển sản phẩm, đến hôm nay dịch vụ tổng hợp tiếng nói (text to speech) của công ty Viettel AI đã đạt được những bước phát triển vượt bậc. Về phương diện công nghệ, các kỹ sư nhóm xử lý phần tiếng nói của Viettel AI đã sử dụng công nghệ hiện đại bậc nhất trong lĩnh vực trí tuệ nhân tạo như mạng nơron có học sâu để cho ra đời tiếng nói tiếng Việt với các loại ngữ điệu tự nhiên, đa dạng và dễ dàng tích hợp được ở trên các hệ thống.
Bằng việc sử dụng công nghệ đại học sâu (deep learning) hiện đại thay thế cho những bài toán về kỹ thuật lâu đời như HMM (Hidden Markov Model) hay kiểu ghép nối các từ… qua đó giúp giọng đọc nhân tạo của các Viettel AI được tự nhiên, liền mạch, ngắt nghỉ một cách hợp lý, kết hợp với biểu cảm chính xác dựa vào ngữ cảnh trong câu.
Tổng hợp tiếng nói (TTS: Text to Speech) này về bản chất là quá trình tạo ra các tín hiệu tiếng nói từ văn bản. Một hệ thống tổng hợp tiếng nói cũng có thể được ứng dụng trong rất nhiều bài toán rất khác nhau có thể lấy ví dụ như báo nói về Dân trí, một sản phẩm mà tôi đã tham gia phát triển, ngoài ra thì các ứng dụng của trí tuệ nhân tạo như trợ lý ảo, tổng đài tự động,… đều sẽ cần mô đun đầu ra là hệ thống tổng hợp tiếng nói.
Hiện nay cũng đang có rất nhiều sản phẩm thuộc các đơn vị chủng loại khác nhau được ứng dụng vào các loại mục đích rất khác nhau, nhưng lớn mạnh nhất thì sẽ phải kể đến các sản phẩm được phân phối trên Google Cloud, Amazon Web Services, về Microsoft Azure. Những cloud này cũng cho phép các bạn tích hợp hệ thống TTS của họ vào trong các sản phẩm cá nhân của mình. Ở Việt Nam và cũng là dành cho tiếng Việt cũng có các sản phẩm nổi bật ví dụ như sản phẩm của Viettel, FPT hay Vbee.
Lịch sử phát triển của giọng đọc Viettel
Tổng hợp tiếng nói Viettel về bản chất là quá trình tạo ra các tín hiệu tiếng nói từ văn bản. Trong thời gian nhiều năm trở lại đây, người ta vẫn đang cố gắng tạo ra một hệ thống tổng hợp sao cho nó có độ tự nhiên cao nhất (Naturaless) và cũng là đọc dễ hiểu nhất (Intelligibility).
Một trong số những nghiên cứu đầu tiên mà ta sẽ phải nói đến chính là mô hình mô phỏng hệ thống cấu âm phù hợp của con người do các nhà khoa học người đan mạch Christian Kratzentein đang phát triển, hệ thống đơn giản này có thể thực hiện phát ra được âm thanh của một số nguyên âm dài ví dụ như (/a/, /e/, /i/, /o/, và /u/), ngoài ra nhiều các phiên bản cải tiến cũng được phát triển trong thời gian sau đó. Tuy nhiên cần phải trải qua một quá trình dài phát triển, ngay cả cho tới tận thế kỷ 19 các nghiên cứu tổng hợp tiếng nói vẫn còn ở mức đơn giản.
Tới đầu thế kỷ 20, khi thời điểm mà có sự lớn mạnh của các hệ thống điện tử, thì các loại hệ thống tổng hợp có chất lượng mới được phát triển. Năm 1937, thì The Bell Telephone Laboratory đã giới thiệu máy VODER (Voice Operating Demonstator), đây cũng có thể nói là hệ thống điện tử đầu tiên của con người tạo ra có thể tổng hợp tiếng nói bằng cách phân tích ra các đặc trưng âm học.
Ngoài ra thì các hệ thống tổng hợp tiếng anh thì tới năm 1975 MUSA được giới thiệu với một khả năng tổng hợp tiếng ấn độ. Nhưng vẫn sẽ chưa có gì gọi là tổng hợp nhiều ngôn ngữ cả, phải cần tới khi Bell labs công bố nghiên cứu của họ về việc được tổng hợp đa ngôn ngữ dựa trên các hướng tiếp cận và “Xử lý ngôn ngữ tự nhiên” năm 1997 thì lĩnh vực này mới có thể bắt đầu được khai thác.
Nhìn chung, đến cho tới thời điểm này chất lượng của các hệ thống tổng hợp vẫn còn là rất tệ, phải đến đầu những năm 2000 chất lượng và cả độ tự nhiên mới có sự nhảy bậc khi được áp dụng tổng hợp thống kê dựa trên các mô hình Markov ẩn. Gần đây thì những nghiên cứu về mạng nơ ron học sâu được dẫn đầu bởi công ty Viettel đã cho thấy được những bước tiến nổi bật khi áp dụng vào tổng hợp tiếng nói, chất lượng cũng đã đạt đến độ rất cao và khó có thể đem đi phân biệt là người hay máy nói.
Các phương pháp tổng hợp giọng đọc Viettel
Mô phỏng Tổng hợp tiếng nói của Viettel AI
Giọng đọc tiếng Việt do Viettel AI mô phỏng tạo nên cũng rất đa dạng, có các ngữ điệu tự nhiên, đa dạng vùng miền, dễ dàng tích hợp được trên mọi hệ thống với cả chất giọng đọc báo lẫn để đọc truyện với cả 3 miền: 5 giọng miền Bắc (3 giọng nữ, 2 giọng nam), 4 giọng khu vực miền Nam (3 giọng nữ, 1 giọng nam), 2 giọng miền Trung (1 giọng nữ, 1 giọng nam) với các khả năng đáp ứng nhanh chóng một lúc được số lượng lớn các máy chủ mạnh với công nghệ để tính toán song song cho phép đáp ứng nhanh chóng cho tất cả mọi yêu cầu của khách hàng, ngay cả trong những trường hợp tải tăng đột biến.
Ứng dụng chuyển đổi hình thức văn bản thành giọng nói Tiếng Việt của Viettel AI có thể được dễ dàng ứng dụng trong nhiều các lĩnh vực khác nhau như áp dụng vào hệ thống để thông báo, IoT, Robotics. Hay hỗ trợ các hệ thống thông báo, giúp phát thanh, hướng dẫn tại sân bay, đài truyền hình, bệnh viện hoặc là cho Smart Home…
Hay đáp ứng các nhu cầu thuyết minh, trả lời khách hàng qua tổng đài tự động. Qua đó thì sẽ giúp tiết kiệm chi phí, thời gian, tăng thêm năng suất và chất lượng cho các dịch vụ cho thuyết minh, bán hàng hoặc CSKH qua điện thoại qua đó giúp các doanh nghiệp tự động hoá quá trình cung cấp một sản phẩm dịch vụ nâng cao hiệu quả của hoạt động sản xuất và kinh doanh. Bên cạnh đó, một ứng dụng cũng khá phổ biến của công nghệ này là khả năng đọc nội dung ở trong sách hay một tờ báo online với nhiều các giọng đọc khác nhau, tùy theo nhu cầu của người sử dụng.
Qua đó, cho phép nhiều người dùng lắng nghe nội dung trực tiếp ở trên các trang sách báo trên Internet hoặc khi đi đường, khi lái xe, đi tàu, hỗ trợ người khiếm thị và người lớn tuổi có thể cập nhập thông tin dễ dàng.
Tổng hợp mô phỏng toàn hệ thống phát âm
Tổng hợp mô phỏng toàn hệ thống phát âm là các kỹ tổng hợp giọng nói được dựa trên mô hình máy tính để mô phỏng các hệ thống để phát âm của con người và mô phỏng quá trình tạo ra tiếng nói dựa trên hệ thống đó. Tổng hợp dựa trên việc mô phỏng hệ thống phát âm hầu hết chỉ dành cho việc nghiên cứu.
Lý do là bởi vì mục tiêu của phương pháp này là mô phỏng quá trình tạo được tiếng nói sao cho càng giống cơ chế của con người càng thêm tốt, nên về lý thuyết có thể xem đây là phương pháp riêng cơ bản nhất, nhưng cũng vì vậy mà phương pháp như thế này khó thực hiện và chất lượng đầu ra thường không cao. Thời điểm như hiện nay phương pháp này khó có thể nào được ứng dụng tại Việt Nam.
Tổng hợp kiểu tần số Formant
Tổng hợp tần số Formant chính là tổng hợp không sử dụng mẫu giọng thật nào khi được chạy, thay vào đó tín hiệu được tạo ra bởi một mô hình kiểu tuyến âm. Mô hình này mô phỏng hiện tượng để cộng hưởng của các cơ quan phát âm bằng một tập hợp được các bộ lọc.
Các bộ lọc kiểu này được gọi là các bộ lọc cộng hưởng Formant, chúng sẽ có thể được kết hợp song song hoặc nối tiếp hoặc cả hai. Hình hai là hình biểu diễn mô hình tổng hợp Formant nối tiếp, trong đó thì đầu ra của bộ cộng hưởng này là đầu vào riêng của bộ cộng hưởng kia: Nhược điểm riêng của phương pháp này là tạo ra giọng nói không được tự nhiên, nghe rất “máy”. Ưu điểm chính là nhỏ gọn và chạy nhanh.
Tổng hợp ghép nối
Tổng hợp ghép nối chính là phương pháp dựa trên việc ghép nối lại các đoạn tín hiệu tiếng nói đã được ghi âm từ trước, xem việc mô tả cách hoạt động trên Hình 3. Đơn vị âm theo sự phổ biến là âm vị âm tiết, bán âm tiết, âm đôi, âm ba, từ kiểu cụm tư.
Do đặc tính riêng tự nhiên của tiếng nói được ghi âm và lưu trữ ở trong các đơn vị âm, nên tổng hợp ghép nối chính là phương pháp có khả năng tổng hợp tiếng nói với một mức độ dễ hiểu và tự nhiên cao. Tuy nhiên, do giọng nói riêng tự nhiên được ghi âm thay đổi từ lần phát âm kiểu này sang lần phát âm khác, và công nghệ kiểu tự động hóa việc ghép nối các đoạn của tín hiệu thỉnh thoảng sẽ tạo những tiếng cọ sát không tự nhiên ở đoạn ghép.
Có ba kiểu để tổng hợp ghép nối chính:
- Tổng hợp chọn đơn vị (Unit selection)
- Tổng hợp âm kép (Diphone)
- Tổng hợp chuyên biệt (Domain-specific)
Tổng hợp chọn đơn vị sẽ được dùng một cơ sở dữ liệu lớn các giọng nói ghi âm. Trong đó, mỗi câu sẽ được tách thành các đơn vị khác nhau ví dụ như: các tiếng đơn lẻ, âm tiết, từ, nhóm từ hoặc câu văn. Một kiểu bảng tra các đơn vị được lập ra dựa trên là các phần đã táchvà các thông số âm học như tần số kiểu cơ bản, thời lượng, vị trí của âm tiết và các tiếng gần nó.
Khi chạy ra các câu nói được tạo ra bằng cách xác định chuỗi đơn vị sao cho phù hợp nhất từ cơ sở dữ liệu. Quá trình này được gọi bằng chọn đơn vị và thường cần dùng đến cây quyết định sẽ được thực hiện. Thực tế, các hệ thống để chọn đơn vị có thể tạo ra được giọng nói rất giống với con người thật, tuy nhiên để đạt độ tự nhiên cao thường cần một phần cơ sở dữ liệu lớn chứa các đơn vị để lựa chọn.
Tổng hợp các âm kép là dùng một cơ sở dữ liệu chứa tất cả các âm kép ở ngay trong ngôn ngữ đang xét. Số lượng âm kép sẽ phụ thuộc vào đặc tính ghép âm học của ngôn ngữ.
Trong việc tổng hợp âm kép chỉ có một mẫu của âm kép đã được chứa trong cơ sở dữ liệu, khi chạy thì lời văn đã được chồng lên các đơn vị này bằng kỹ thuật xử lý tín hiệu số theo cách nhờ mã tuyên đoán tuyến tính hay PSOLA. Chất lượng của âm thanh tổng hợp theo cách này thường không phải quá cao bằng phương pháp chọn đơn vị nhưng tự nhiên hơn thì cộng hưởng tần số và ưu điểm của nó là có kích thước dữ liệu nhỏ.
Tổng hợp chuyên biệt (Domain-specific) sẽ chính là phương pháp ghép nối từ các loại đoạn văn bản đã được ghi âm để tạo ra lời nói. Phương pháp như thế này thường được dùng cho các kiểu ứng dụng có văn bản chuyên biệt, cho một chuyên nghành, sử dụng theo các từ vựng hạn chế như các thông báo cho các chuyến bay hay dự báo thời tiết.
Công nghệ như thế này rất đơn giản và đã được thương mại hóa đã từ lâu. Mức độ tự nhiên có của hệ thống này có thể rất cao bởi vì số lượng các câu nói không nhiều và khớp với các lời văn, âm điệu của giọng nói ghi âm. Tuy nhiên hệ thống kiểu như thế này bị hạn chế bởi cơ sở dữ liệu chuyên biệt không áp dụng ngay được cho miền dữ liệu mở.
Tổng hợp dùng tham số thống kê
Hình này mô tả toàn bộ kiến trúc phổ thông của một hệ thống tổng hợp tham số theo thống kê. Trong đó văn bản đầu vào sẽ nhanh chóng được trích chọn thành các đặc trưng ngôn ngữ học bởi các bộ Trích chọn đặc trưng ngôn ngữ (Linguistic Features Extraction). Sau đó thì các đặc trưng ngôn ngữ như thế này đi qua bộ Parameter Generation và bộ này cũng sẽ ước lượng được đặc trưng âm học ở đầu ra.
Cuối cùng Vocoder sẽ tổng hợp tín hiệu tiếng nói từ những đặc trưng kiểu âm học này. Ngoài việc sử dụng riêng rẽ các loại phương pháp tổng hợp, thì trên thế giới hiện cũng có những nghiên cứu về tổng hợp lai ghép ví dụ như lai ghép lại giữa tổng hợp thống kê và tổng hợp ghép nối để có thể tận dụng những hưu điểm của hai phương pháp này.
Tổng hợp End to End
Tổng hợp End to end chính là phương pháp mới được phát triển trong thời điểm những năm gần đây. Mục tiêu của phương pháp như này là tạo ra hệ thống tổng hợp có chất lượng cao cấp nhất mà không cần dùng đến các kiến thức chuyên gia theo kiểu dựa trên các mạng nơ ron học sâu. Một kiến trúc rất nổi bật của phương pháp này có thể kể đến Tacotron2 của ứng dụng Google hay FastSpeech của Microsoft.
Kiến trúc chung hay thường được sử dụng của một hệ thống End to End gồm có cả hai phần chính là: Phần tạo Mel spectrogram từ các chuỗi ký tự đầu vào và phần chuyển hóa Mel spectrogram trở thành tín hiệu tiếng nói.
Cách chuyển dạng văn bản thành giọng nói bằng Viettel AI
- Bước 1: Bạn thực hiện truy cập vào đúng trang web của Viettel AI tại đây.
- Bước 2: Bạn sẽ nhập nội dung văn bản cần chuyển đổi thành giọng nói vào mục Nhập nội dung.
- Bước 3: Bạn lựa chọn một Giọng đọc phù hợp với nhu cầu của bạn, sẽ có các phân loại theo giới tính và vùng miền. Sau đó, bạn sẽ tiếp tục chọn Tốc độ giọng đọc.
- Bước 4: Bạn nên nghe thử qua đoạn âm thanh chuyển đổi xong từ văn bản mà bạn đã nhập bằng cách nhấn vào nơi biểu tượng Phát (nút Play). Sau khi đã ưng ý xong rồi thì bạn chỉ cần nhấn vào Tải xuống để lưu đoạn âm thanh về trên máy.
Trên đây là chính là tất cả những thông tin quan trọng về giọng đọc Viettel gửi đến bạn đọc để giúp cập nhật những xu hướng công nghệ mới nhất của thời đại. Chúc các bạn thực hiện chuyển giọng nói AI thành công.