Tại hội thảo trong khuôn khổ Ngày hội Đổi mới sáng tạo Quốc gia 2025, hôm 2/10 ở Hòa Lạc (Hà Nội), đại diện dự án ViGen cho biết đã tạo Vi-Primer 1.0 - bộ dữ liệu mở tiền huấn luyện (pre-training) và là bộ dữ liệu tiếng Việt lớn nhất tính đến nay.

Ông Vũ Xuân Sơn, Giám đốc công nghệ dự án, cho biết họ đã thu thập từ kho dữ liệu thô 150 tỷ token, đồng thời tổng hợp từ nguồn mở hoặc sẵn có trên mạng. Thông qua quy trình xử lý, phân loại và tinh lọc, nhóm tạo ra một bộ dữ liệu chất lượng cao chứa 50 tỷ token, sẵn sàng cho việc huấn luyện mô hình AI.

"Bộ dữ liệu được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, với điều kiện có ghi nhận nguồn", ông Sơn nói.

vigen-8561-1759453302-17594672-5634-7943-1759467741.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=fSK2TMfO2kM5oddfaIRIkw

TS Vũ Xuân Sơn, đại diện ViGen, chia sẻ về dự án, tháng 10/2025. Ảnh: Lưu Quý

ViGen là dự án xây dựng bộ dữ liệu tiếng Việt mã nguồn mở do Trung tâm Đổi mới sáng tạo quốc gia (NIC) kết hợp phát triển cùng nhiều tổ chức, trong đó có AI for Vietnam, Meta, lần đầu công bố vào tháng 3. Bộ dữ liệu nhằm khắc phục nhược điểm của các mô hình ngôn ngữ lớn quốc tế, vốn chứa phần lớn là tiếng Anh, trong khi tiếng Việt chưa đến 1%. Từ đó, các nhà phát triển có thể sử dụng để đào tạo và phát triển các ứng dụng AI.

Việc có một bộ dữ liệu tiếng Việt tốt cộng với tính "mở" giúp các dự án xây dựng công cụ AI tiếng Việt chính xác, hoạt động tốt dành riêng cho người Việt. Ông Sơn lấy ví dụ với công cụ AI nước ngoài như ChatGPT, khi hỏi Việt Nam có bao nhiêu tỉnh thành, chúng sẽ trả lời theo thông tin cũ, thay vì dữ liệu cập nhật sau sáp nhập.

Tại hội thảo, ViGen cũng giới thiệu 5 khung đánh giá, nhằm đo lường năng lực của các mô hình AI tiếng Việt. Các khung được xây dựng trên 4.020 mẫu đánh giá, kiểm tra AI trên nhiều phương diện như kiến thức chuyên sâu, khả năng lập trình, tư duy logic, sự an toàn, mức độ am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt.

Ngoài ra, họ cũng dự kiến ra phiên bản ViGen thử nghiệm cho người dùng, tổ chức có thể trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI.

"Nền tảng tích hợp cơ chế thi đua khen thưởng để theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt cho người Việt một cách trực quan, ý nghĩa và hứng khởi", đại diện dự án cho biết.

LQ-01686-1759453140-1832-1759453302.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=xNxEratFpNUoYnOGg8qVQg

Phó giám đốc NIC Võ Xuân Hoài chia sẻ về yêu cầu với bộ dữ liệu tiếng Việt phục vụ phát triển AI, tháng 10/2025. Ảnh: Lưu Quý

"Thông qua việc mở rộng khả năng tiếp cận bộ dữ liệu tiếng Việt chất lượng cao cho toàn cộng đồng, dự án đang giải quyết thực trạng tiếng Việt lâu nay ít hiện diện trong các hệ thống AI", ông Trần Việt Hùng, nhà sáng lập AI for Vietnam, nói. "Nền tảng sẽ tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và đơn vị đổi mới sáng tạo trên khắp Việt Nam hợp tác, đóng góp, xây dựng giải pháp AI 'Made in Vietnam' nhưng có khả năng phục vụ thị trường toàn cầu".

Theo Phó giám đốc NIC Võ Xuân Hoài, AI được xác định là một trong những lĩnh vực trọng tâm mà Việt Nam đang đẩy mạnh, không chỉ phát triển mà còn thúc đẩy ứng dụng trong mọi lĩnh vực. Trong quá trình này, dữ liệu là một trong những trụ cột quan trọng, cùng với hạ tầng, chính sách và con người.

"Việt Nam cần một bộ dữ liệu tiếng Việt tiêu chuẩn và nguồn mở. Dữ liệu cần mở để tất cả, từ doanh nghiệp, startup đến tổ chức, cá nhân trong và ngoài nước đều có thể sử dụng", ông Hoài nói. "Đây chính là cơ sở để hình thành một môi trường mà AI không bị độc quyền".

Tại sự kiện, ông Philip Chua, Giám đốc Chính sách công và sản phẩm, Khu vực châu Á - Thái Bình Dương của Meta, đánh giá việc ra mắt phiên bản thử nghiệm của nền tảng ViGen là cột mốc quan trọng của dự án. "AI mã nguồn mở có thể mở rộng khả năng tiếp cận công nghệ tiên tiến, giúp nhà phát triển, nhà nghiên cứu và doanh nghiệp Việt Nam xây dựng giải pháp AI thực sự am hiểu bối cảnh địa phương và phục vụ cộng đồng", ông Chua cho biết.

Lưu Quý

Nguoi-noi-tieng.com (r) © 2008 - 2022