Công Nghệ Nhận Dạng Và Giả Lập Giọng Nói
NỘI DUNG BÀI VIẾT
AI còn gọi là trí tuệ nhân tạo, viết tắt của cụm từ Artificial Intelligence. Đó có thể là một chương trình máy tính cực lớn với hàng trăm vi xử lý, cũng có thể là một ứng dụng trong điện thoại.
Ứng dụng AI phố biến hiện nay đó là nhận dạng giọng nói. Công nghệ nhận dạng giọng nói không còn mới mẻ, tất cả những ông lớn ngành công nghệ đều lấn sân vào cuộc chơi này. Đó là trợ lý ảo Siri của Apple, Cortana của Microsoft, Alexa của Amazon, đến cả Samsung cũng chập chững cho thai nghen trợ lý Bixby của riêng mình. Và đặc biệt, không thể không kể đến Google Assistant của Google, cô trợ lý ảo của Google có thể hiện diện ngay trên chiếc điện thoại của bạn.
Công nghệ nhận dạng giọng nói
Nhận diện giọng nói đã được biết đến hàng thập kỷ, tại sao chỉ đến bây giờ, công nghệ mới thực sự bùng nổ? Theo wikipedia, khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Sự ra đời của Deep Learning đã giúp nhận diện giọng nói chính xác, thậm chí ở ngoài môi trường phòng lab.
Ví dụ đối với Google Assistant bạn có thể dễ dàng tìm kiếm chỉ với giọng nói câu lệnh từ bạn. Nó là một phần của việc chuyển đổi giọng nói thành văn bản, ở một mức độ cao hơn, Google Assistant có thể hiểu được câu nói của bạn và phản hồi lại với một kết quả có thể nói là gần như hoàn hảo. Để có thể có được một mức độ thông minh như vậy thì AI cần nguồn dữ liệu lớn để học hỏi, quá trình này do người dùng cung cấp cũng như do chính bạn tương tác thường xuyên với Google Assistant.
Để AI thông minh thì cần phải có dữ liệu để huấn luyện cho nó, cả về nhận diện hình ảnh, văn bản, giọng nói. Google có hàng tỷ người dùng với công cụ tìm kiếm, nó có thể biết được trong khoảng thời gian nào, trong từng thời điểm người dùng quan tâm từ khóa nào, lĩnh vực nào. Đó là một cách người dùng tự tạo dữ liệu cho AI. Cũng còn một cách là người dùng trực tiếp cung cấp dữ liệu cho AI.
Có thể thị trường Việt Nam là một thị trường phát triển, nên nhiều sản phẩm của Google đều hỗ trợ cho thị trường Viêt Nam, và Google Assistant cũng không ngoại lệ. So với các trợ lý ảo khác, Google Assistant hỗ trợ tốt cho Tiếng Việt, Google Assistant có khả năng nhận dạng rõ giọng nói Tiếng Việt một cách chuẩn xác và phản hồi người dùng với giọng nói thật hơn.
Nếu chỉ với chiếc điện thoại Android, với hệ điều hành từ Android 6.0 trở lên, bạn có thể tương tác bằng giọng nói với cô trợ lý vui tính này rồi. Bạn có thể bắt đầu làm quen với việc chuyện trò với cô ấy, hỏi cô ấy bất cứ điều gì bạn muốn biết, hoặc là vay tiền cô ấy, dĩ nhiên là bằng Tiếng Việt.

Với hệ thống A.I của Google và dữ liệu từ Google search có thể nói Google Assistant giúp bạn giải đáp bất cứ thắc mắc nào. Ngoài ra, Google Assistant còn có thể kiểm tra email, đặt lịch hẹn, và cả gửi tin nhắn, gọi điện thậm chí là hát cho bạn nghe.
Giả lập giọng nói và dấu bỏ ngỏ…
Rõ ràng, công nghệ nhận dạng giọng nói đem lại nhiều lợi ích, thuận tiện cho người dùng. Và công nghệ phát triển luôn luôn có hai mặt.
Liệu có hay không một công nghệ giả dạng giọng nói của bạn để có thể ra lệnh thay bạn giao tiếp vói Google Assistant hay với người khác? Đối với ngôn ngữ tiếng Anh, theo mình được biết dư án Lyrebird, một start-up về công nghệ giọng nói, có khả năng giả lập giọng nói của bạn. Lyrebird có khả năng tái tạo, giả lập giọng nói của bạn, với độ giống nhau mà tai người khó có thể nhận ra được. Trang tin Bloomberg từng có bài giới thiệu về Lyrebird:
Trong video, biên tập viên Ashlee Vance chỉ với vài click chuột và upload và mẩu giọng nói của mình, Lyrebird có thể tổng hợp thành giọng nói của anh ấy. Anh ấy còn thử trò chuyện với mẹ qua điện thoại với vài đoạn câu nói. Và dĩ nhiên mẹ anh ấy không thể nhận ra được giọng nói thật của con trai hay giọng nói được giả lập bằng AI trên máy tính.
Liệu rằng, công nghệ nhận dạng giọng nói có thể phân biệt được đâu là giọng nói từ con người đâu là giọng nói từ máy tính? Mục đích của việc giả lập giọng nói là gì? Nếu giọng nói của bạn bị giả lập, bạn sẽ không thể kiểm soát được những gì sẽ xảy ra. Những rủi ro có thể gây xáo trộn cuộc sống của bạn hoặc nghiêm trọng hơn là có người sử dụng giọng nói của bạn nhằm mục đích lừa đảo trong thời buổi mà thông tin cá nhân và các mối quan hệ xã hội của mỗi cá nhân đều không còn được bảo mật nữa. Đến cả CEO cũng bị lừa trong bài báo đã được đăng tải như sau:

Tạm kết
Công nghệ nhận dạng giọng nói là một ví dụ sống động về AI mà bạn đang trực tiếp trải nghiệm. Đi kèm với nó là những rủi ro có thể nhìn thấy được. Một câu châm ngôn trong Định lý của Tesler nói rằng “AI là bất cứ điều gì chưa được thực hiện”. Hi vọng trong tương lai, những người làm về khoa học máy tính sẽ nghiên cứu và phát triển những công nghệ phục vụ cho sự phát triển nhân loại.
Nguồn:codelearn.io
Leave a Reply