Sinh viên Việt phát triển giải pháp phát hiện prompt độc hại

Trong thông báo sáng 30/10, NAB Innovation Centre Vietnam, đại diện đơn vị tổ chức cuộc thi hackathon, cho biết đội 4Knights với bốn sinh viên năm thứ hai ngành an ninh mạng, đã giành giải nhất.

Cuộc thi có chủ đề Ứng dụng Generative AI để phát hiện, ngăn chặn, thử nghiệm các mối đe dọa an ninh mạng trong môi trường giả lập thực tế, quy tụ hơn 160 đội từ 30 trường đại học tại Hà Nội, TP HCM và Melbourne (Australia). Các đội thi theo hình thức hybrid, với thử thách thực hành trên nền tảng Kaggle leaderboard và RMIT Race Cloud - mô phỏng môi trường tấn công - phòng thủ AI thật.

Nhóm 4Knights chọn đề tài phát hiện "malicious prompt" - thuật ngữ chỉ những câu lệnh (prompt) bị cố tình viết nhằm bẻ khóa hoặc lừa hệ thống AI đưa ra những câu trả lời sai lệch.

569371184-1605257167549228-155-4193-3478-1761815753.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=hunbCKDgqJ-5dlx5kADYew

Các thành viên đội 4Knights tại cuộc thi. Ảnh: NVCC

Quốc Khánh, đội trưởng 4Knights, cho biết các thành viên đều theo học ngành an ninh mạng tại RMIT Hà Nội. "Đây là lần đầu chúng tôi áp dụng những kiến thức lý thuyết vào giải quyết bài toán thực tế, trau dồi kỹ năng về AI và an ninh mạng", Khánh nói.

Để thực hiện các thử thách, nhóm xây dựng một chuỗi quy trình từ tiền xử lý dữ liệu, huấn luyện và đánh giá mô hình đến demo chạy thực tế. Sau đó, nhóm tinh chỉnh (fine-tune) mô hình DeBERTa-large, một loại ngôn ngữ mạnh giúp công cụ có thể "học" cách phân biệt giữa prompt bình thường với prompt bẻ khóa.

Ngoài ra, nhóm cũng dùng phương pháp tấn công vét cạn (brute force) để thử nhiều biến thể, rút ra quy luật và tinh chỉnh mô hình nhằm tăng khả năng phát hiện và ngăn chặn kỹ thuật bẻ khóa phức tạp, từ đó tạo ra một lớp bảo vệ tự động giúp hệ thống AI phản hồi an toàn và đúng mục đích hơn.

Theo Khánh, điểm khác biệt của giải pháp là kết hợp mô hình ngôn ngữ lớn với các biện pháp an toàn hệ thống để hiểu ý đồ thực sự của prompt, từ đó nhận diện cả câu lệnh nguy hiểm được viết tinh vi.

Đây cũng là một hướng nghiên cứu mới trong lĩnh vực bảo mật, đặc biệt khi các ứng dụng AI tạo sinh phát triển mạnh mẽ. Prompt bẻ khóa có thể phá vỡ các giới hạn và biện pháp bảo vệ tích hợp trong một mô hình ngôn ngữ lớn, khiến chúng tạo ra nội dung ngoài mục đích ban đầu của nó. Kỹ thuật này thường được sử dụng để ép buộc AI đưa ra các câu trả lời bị cấm, tạo nội dung độc hại hoặc tiết lộ thông tin nhạy cảm.

"Chiến thắng là nguồn động lực lớn để chúng tôi tiếp tục học hỏi và khám phá sâu hơn lĩnh vực này", Khánh chia sẻ thêm.

Cuộc thi là một phần trong chương trình "Future-Ready Talent" của Ngân hàng quốc gia Australia (NAB) và là lần thứ hai phối hợp cùng trường đại học RMIT tổ chức cuộc thi hackathon quốc tế. Phó giáo sư Fengling Han, ban Công nghệ thông tin của RMIT, đánh giá cao tiềm năng của thế hệ trẻ, đặc biệt trong lĩnh vực công nghệ. "Khi Generative AI tái định hình tương lai an ninh mạng, cuộc thi hackathon mang đến một sân chơi quốc tế đáng học hỏi cho sinh viên Việt Nam và Australia".

Đội đạt giải nhì cuộc thi là Team HeinoTee, với các thành viên từ trường đại học FPT và Đại học Giao thông vận tải TP HCM, với đề tài kỹ thuật "AI red-teaming". "Đây là cuộc hackathon thứ 10 chúng tôi thi trong năm nay. Những cuộc thi này cho phép sinh viên không chỉ tìm ra giải pháp, mà còn vận hành như một đội IT thực thụ", đội trưởng của HeinoTee - trường đại học FPT, chia sẻ.

Lưu Quý

quốc khánh

ĐÓNG MENU

Sinh viên Việt phát triển giải pháp phát hiện prompt độc hại

Tin mới

Tin 24H

NGƯỜI NỔI TIẾNG

Tin mới 247

Người nổi tiếng

Giới trẻ