Công nghệ AI giúp giải mã những ngôn ngữ chết

Các nhà khoa học thuộc Viện Công nghệ Massachusetts MIT của nước Mỹ vừa công bố đã chế tạo thành công hệ thống sử dụng học máy – machine learning; để có thể giải mã các ngôn ngữ đã chết. Phần lớn những nghiên cứu cho thấy, các ngôn ngữ đang tồn tại trên thế giới không được sử dụng. Và có đến hàng chục ngôn ngữ chết không thể nhận diện được. Không những vậy mà các nhà ngôn ngữ học cũng không thể hiểu đầy đủ về từ vựng, ngữ pháp hoặc cú pháp của những ngôn ngữ này.

Ngôn ngữ chết là gì?

Đầu tiên, chúng ta cần phải biết một chút về định nghĩa “ngôn ngữ chết”. Ngôn ngữ chết, như tên của nó, là những ngôn ngữ không còn phù hợp để giao tiếp trực tiếp. Hầu hết các ngôn ngữ chết vẫn ở dạng đông lạnh của ngôn ngữ văn học. Các dân tộc nói những ngôn ngữ này hoặc biến mất hoặc bị chinh phục bởi các bộ lạc hoặc quốc gia khác. Ví dụ về ngôn ngữ chết có thể là tiếng Latin, tiếng Hy Lạp cổ đại, ngôn ngữ Ấn Độ.

Ngôn ngữ Latin đã trở thành tổ tiên của một số ngôn ngữ châu Âu - tiếng Ý, tiếng Tây Ban Nha,...
Ngôn ngữ Latin đã trở thành tổ tiên của một số ngôn ngữ châu Âu – tiếng Ý, tiếng Tây Ban Nha,…

Chúng ta không được quên rằng đó là ngôn ngữ chết thường là tiền thân của hiện đại. Ngôn ngữ Latin đã trở thành tổ tiên của một số ngôn ngữ châu Âu – tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Anh. Ngôn ngữ Latin đã ảnh hưởng đến sự phát triển của hầu hết các ngôn ngữ châu Âu. Ngày nay có một số lượng lớn các khoản vay từ tiếng Latin. Hy Lạp cổ đại là quá khứ của Hy Lạp hiện đại, và tiếng Nga cổ đã tạo ra sự phát triển của các ngôn ngữ Đông Âu.

Phát triển hệ thống mới giải mã ngôn ngữ bị lãng quên

Việc nghiên cứu các ngôn ngữ bị lãng quên là rất khó. Bởi phần lớn các ngôn ngữ ấy không thể so sánh được với ngôn ngữ tương tự khác. Một số ngôn ngữ còn thiếu cả quy tắc ngữ pháp hay dấu câu.

Phòng thí nghiệm Tin học và Trí tuệ nhân tạo thuộc Viện Công nghệ Massachusetts MIT (Mỹ) đã thực hiện bước đột phá trong giải mã các ngôn ngữ bị lãng quên. Các nhà khoa học đã phát triển hệ thống mới. Có khả năng tự động giải mã ngôn ngữ bị lãng quên. Mà không cần có kiến thức về sự liên quan với các ngôn ngữ khác. Hệ thống có thể xác định mối liên quan giữa các ngôn ngữ.

“Hệ thống hoạt động dựa trên 7 nguyên tắc liên quan đến hiểu biết về lịch sử ngôn ngữ. Theo những nguyên tắc này, ngôn ngữ nói chung chỉ phát triển theo cách có thể dự đoán trước” – bà Regina Barzilay, Giám đốc dự án phát triển hệ thống giải mã ngôn ngữ chết của MIT, cho biết như vậy.

Các nhà khoa học đã phát triển hệ thống mới, có khả năng tự động giải mã ngôn ngữ bị lãng quên, mà không cần có kiến thức về sự liên quan với các ngôn ngữ khác
Các nhà khoa học đã phát triển hệ thống mới, có khả năng tự động giải mã ngôn ngữ bị lãng quên, mà không cần có kiến thức về sự liên quan với các ngôn ngữ khác

Phát triển thuật toán đối phó với phép biến đổi ngôn ngữ

Trong lịch sử tiến hóa ngôn ngữ. Rất hiếm khi xảy ra trường hợp thêm vào hoặc loại bỏ toàn bộ âm thanh. Mà thường xảy ra các trường hợp thay thế âm thanh. Chẳng hạn như một từ với chữ cái “p” trong ngôn ngữ mẹ (ngôn ngữ gốc). Có thể được thay thế bằng chữ cái “b” trong ngôn ngữ con. Tuy nhiên không có khả năng chuyển thành “k”.

Tận dụng những giới hạn về ngôn ngữ này. Các nhà khoa học của MIT đã phát triển một thuật toán giải mã. Có khả năng đối phó với không gian khổng lồ của các phép biến đổi ngôn ngữ.

Thuật toán này học cách nhúng các âm thanh ngôn ngữ vào một không gian đa chiều. Nơi sự khác biệt trong cách phát âm được phản ánh thông qua các từ, cụm từ được vector hóa tương ứng. Hệ thống có mục đích phân đoạn các từ trong một ngôn ngữ cổ và ánh xạ chúng thành các từ tương đương trong ngôn ngữ liên quan.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

WC Captcha 13 + = 21