Theo trang Oddity Central (Anh), chúng ta có thể biết rất nhiều điều về một người từ giọng nói của họ. Chẳng hạn, người đó là nam hay nữ, già hay trẻ, nhưng thuật toán trí tuệ nhân tạo (AI) mới mang tên Speech2Face còn có khả năng cao hơn thế. Speech2Face là mạng nơ-ron được đào tạo để nhận dạng một số đặc điểm trên gương mặt, từ đó phục dựng lại khuôn mặt của con người chỉ bằng cách lắng nghe giọng nói của họ.
Cụ thể, mạng nơ-ron này sẽ sử dụng hàng triệu video của người dùng trên YouTube hoặc Internet để thu thập các dữ liệu nhận dạng của con người dựa trên độ tuổi, giới tính và dân tộc. Từ đó, AI sẽ có nhiệm vụ tìm ra mối tương quan giữa các đặc điểm giọng nói và đặc điểm khuôn mặt.
“Mô hình của chúng tôi được thiết kế để tạo ra các mối tương quan giữa các đặc điểm trên khuôn mặt và giọng nói theo một dữ liệu”, các nhà sáng tạo Speech2Face cho biết.
Nó có thể xác định khá chính xác hình dạng của mũi, xương gò má hoặc hàm của một người chỉ từ giọng nói của họ. Các nhà khoa học giải thích thuật toán AI có thể dựng lại những đặc điểm này vì cấu tạo của mũi và các xương trên khuôn mặt của con người quyết định cách phát âm của chúng ta.
Con người sẽ không trực tiếp tham gia vào quá trình này, vì các nhà nghiên cứu không cần phân loại thủ công bất kỳ dữ liệu nào. Sau khi được đào tạo, AI có thể tạo ra các bức ảnh chân dung giống người thật khi chỉ dựa trên bản ghi âm giọng nói. Thuật toán này hoạt động tốt hơn với các đoạn ghi âm dài hơn.
Ngoài ra, Speech2Face cũng có thể xác định chính xác sắc tộc của một người khi nghe giọng nói của họ chỉ trong vài mili giây, do những người cùng sắc tộc có xu hướng sở hữu các đặc tính giống nhau.
Với thuật toán đầy hứa hẹn này, cơ quan thực thi pháp luật có thể sử dụng nó để tạo ra chân dung của kẻ tình nghi từ bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, kẻ xấu cũng có thể sử dụng công nghệ tương tự cho các mục đích bất chính.
Trong một số trường hợp, thuật toán AI này vẫn gặp khó khăn trong việc xác định chân dung của người nói. Các yếu tố như trọng âm, ngôn ngữ nói và cao độ giọng nói khiến việc phục dựng chân dung trở nên khó khăn hơn. Do đó, việc dự đoán giới tính, tuổi tác hoặc dân tộc hoàn toàn không chính xác. Ví dụ, nam giới có giọng nói cao bị xác định nhầm là nữ, trong khi nữ có giọng trầm được xác định là nam.
Ngoài ra, trước những tranh cãi liên quan đến vấn đề bảo mật, các nhà nghiên cứu cho biết họ đã có những cân nhắc về quyền riêng tư và đạo đức xung quanh dự án này. Tất cả các kế hoạch sử dụng thực tế (nếu có) cần phải được kiểm tra cẩn thận.
Tuy nhiên, bất chấp những hạn chế này, Speech2Face hứa hẹn sẽ mang đến một cái nhìn đầy ấn tượng về tương lai của công nghệ trí tuệ nhân tạo.