"Các mô hình AI đào tạo ra từ bộ dữ liệu này tương đương một bạn mới tốt nghiệp đại học, để từ đó huấn luyện thêm và có thể làm nhiều công việc khác nhau", ông Trần Việt Hùng, đại diện dự án ViGen, thông báo tiến độ việc xây dựng bộ dữ liệu, ngày 5/8 tại Hà Nội.

Ông Trần Việt Hùng, đại diện dự án ViGen, chia sẻ về dự án. Ảnh: Lưu Quý
ViGen là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở do Trung tâm Đổi mới sáng tạo quốc gia NIC kết hợp phát triển cùng nhiều tổ chức, trong đó có AI for Vietnam, Meta.
Theo bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, ý tưởng ra đời cuối năm ngoái, khi nhà khoa học trưởng về AI của Meta là Yann LeCun tới Việt Nam và gặp Bộ trưởng Khoa học và Công nghệ Nguyễn Mạnh Hùng. Bộ trưởng khi đó đề nghị Meta hỗ trợ Việt Nam xây dựng bộ cơ sở dữ liệu tiếng Việt "tốt nhất có thể". Đến tháng 3, dự án ViGen được công bố.
Sau gần 5 tháng triển khai, đại diện dự án cho biết theo lộ trình dự kiến, đến tháng 10, ViGen sẽ ra mắt bản thử nghiệm đầu tiên với Bộ dữ liệu tiền huấn luyện (Pretraining Dataset) nói trên.
"Khi ra bản đầu tiên, ViGen sẽ là bộ dữ liệu tiếng Việt quy mô nhất, chứa kiến thức từ mẫu giáo đến đại học, cho phép xây dựng các mô hình AI với trình độ tương đương sinh viên tốt nghiệp", ông Trần Việt Hùng nói, đánh giá đây là "mục tiêu tham vọng", khi Việt Nam đã có một số bộ dữ liệu tiếng Việt, nhưng chưa đủ bao quát kiến thức các cấp học. Để đạt được mục tiêu đó, ông cho biết cần có sự hỗ trợ của các đơn vị cung cấp dữ liệu tại Việt Nam.
Để thúc đẩy, dự án dự kiến ra mắt Cổng dữ liệu mở - nơi cung cấp quyền truy cập miễn phí đến các bộ dữ liệu tiếng Việt, đồng thời để cộng đồng có thể liên tục đóng góp dữ liệu ở nhiều thể loại cho dự án. Để đánh giá chất lượng, ViGen đặt mục tiêu ra bản thử nghiệm của benchmark - bộ đề kiểm tra do con người thiết kế với chuẩn mực cao nhằm đánh giá chất lượng của mô hình. Phiên bản đầu tiên sẽ bao gồm 5 benchmark đánh giá khả năng của các mô hình AI về Ngôn ngữ, Văn hóa, Kiến thức phổ thông, Suy luận, Lập trình.
Theo các chuyên gia, tiếng Việt thuộc nhóm "low-resource language", tức ngôn ngữ ít dữ liệu số hóa trên Internet. Nhiều chatbot AI có hỗ trợ tiếng Việt như Meta AI, ChatGPT, Gemini, nhưng trong các mô hình ngôn ngữ lớn phía sau, tài nguyên ngôn ngữ tiếng Việt chỉ chiếm dưới 1%.
Theo ông Trần Việt Hùng, việc thiếu bộ dữ liệu tiếng Việt chất lượng cao để đào tạo AI dẫn tới khả năng xử lý tiếng Việt chưa tự nhiên, khiến người Việt chưa thể tận dụng thế mạnh của AI.
"Trong khi thế giới đã ứng dụng AI mạnh mẽ ba năm nay, người Việt phần lớn vẫn coi công cụ chatbot để 'chat chit' cho vui", ông nói, cho rằng đây là một trong các hệ quả của việc thiếu bộ dữ liệu tiếng Việt, khiến các cá nhân, doanh nghiệp và tổ chức Việt Nam chưa thể ứng dụng AI mạnh mẽ.
Chuyên gia từ Thung lũng Silicon cũng đánh giá các bộ dữ liệu hiện tại thường rời rạc, thiếu tính đại diện, gây ra rủi ro trong những lĩnh vực then chốt như giáo dục hay y tế. "Khi tạo ra mô hình AI hỗ trợ tiếng Việt từ trong lõi một cách tự nhiên, chúng sẽ mở đường cho các ứng dụng AI tiếng Việt đi vào mọi ngõ ngách cuộc sống, giúp năng suất lao động tăng gấp 5-10 lần", ông nói.
Tại buổi tham vấn, một số đơn vị về phát thanh, truyền hình cho biết sẽ đóng góp dữ liệu về âm thanh, đặc biệt từ các đài phát thanh địa phương để tăng tính đa dạng cho bộ dữ liệu. Ngoài ra, một trong những nguồn đào tạo dữ liệu lớn là mạng xã hội, nhưng bài toán đặt ra là sàng lọc dữ liệu để tránh nội dung độc hại. Bên cạnh đó, các chuyên gia cũng chỉ ra một số vấn đề cần quan tâm như vấn đề bản quyền của dữ liệu, khả năng ứng dụng của dữ liệu này trong các lĩnh vực đặc thù, chẳng hạn trong các ứng dụng ở khu vực công.

Giám đốc NIC Vũ Quốc Huy chia sẻ tại cuộc họp. Ảnh: Lưu Quý
Giám đốc NIC Vũ Quốc Huy nhận định về lâu dài, việc phát triển bộ dữ liệu cần có sự tham gia mạnh mẽ hơn của các đơn vị khác trong việc đóng góp nguồn lực hạ tầng, dữ liệu. "Mong các đơn vị cùng đóng góp thêm, để làm phong phú bộ dữ liệu, qua đó nâng cao chất lượng, hiệu quả của AI tại Việt Nam", ông nói, khẳng định sẽ huy động các nguồn lực từ nhà nước để xây dựng bộ dữ liệu tiếng Việt.
Theo lộ trình dự kiến, đến năm 2026, bộ dữ liệu ViGen sẽ tiếp tục được tinh chỉnh, đồng thời nâng cấp số benchmark lên 10, cung cấp công cụ cho các nhà phát triển ứng dụng AI.
Lưu Quý