Claude Mythos - 'siêu hacker' khiến Anthropic chưa dám thương mại hóa

Một buổi tối cuối tháng 2 tại Bali (Indonesia), nhà nghiên cứu AI Nicholas Carlini rời một đám cưới, trở về nhà, mở laptop và bắt đầu khám phá. Phòng thí nghiệm Anthropic PBC của Anthropic vừa gửi cho ông bản demo nội bộ về mô hình AI mới có tên Claude Mythos.

Anthropic trả tiền cho những người như Carlini với mục đích kiểm tra độ an toàn của Mythos, xem liệu tin tặc có thể lợi dụng chúng cho mục đích gián điệp, trộm cắp hoặc phá hoại hay không. Và chỉ trong vài giờ, ông đã đi từ bất ngờ này đến bất ngờ khác. Nhà nghiên cứu kỳ cựu phát hiện Mythos có khả năng tự động tạo ra các công cụ đột nhập mạnh mẽ, gồm cả Linux - mã nguồn mở nền tảng của hầu hết hệ thống máy tính hiện đại. Mythos thậm chí dàn dựng một vụ cướp ngân hàng kỹ thuật số: vượt qua các giao thức bảo mật và xâm nhập vào mạng lưới, đột nhập và tiếp cận các kho tiền trực tuyến.

"AI từng bẻ khóa hệ thống thành công, nhưng giờ nó còn có thể thực hiện cả một vụ cướp", Carlini nói với Bloomberg. Mỗi ngày, ông và đồng nghiệp tiếp tục nhận phản hồi từ Mythos về những lỗi nghiêm trọng và nguy hiểm, gồm loại lỗi thường chỉ được phát hiện bởi những hacker giỏi nhất thế giới.

N0ENUd29UdNJCFcl7GnmZHdk2fA2-1-3416-5878-1776962741.png?w=680&h=0&q=100&dpr=1&fit=crop&s=bqLDypQwzbdG7sCYIcuBUw

Minh họa về "hacker Mythos". Ảnh: HackerNoon

Song song với các thử nghiệm của Carlini, đội ngũ "Tiên phong đỏ" (Frontier Red Team - chuyên đánh giá các mô hình của Anthropic, đảm bảo chúng không gây hại cho nhân loại) cũng kiểm tra mô phỏng sau khi nhận Mythos từ phòng thí nghiệm.

"Chỉ sau vài giờ, chúng tôi đã biết nó khác biệt", Logan Graham, người điều hành nhóm Frontier Red Team của Anthropic, cho biết. "Nó có thể tự tìm và khai thác lỗ hổng".

Graham lập tức cảnh báo cho đội ngũ lãnh đạo Anthropic, rằng AI mới có thể gây rủi ro an ninh quốc gia. Ông cũng nhấn mạnh sản phẩm quá nguy hiểm để đưa ra thị trường.

Đầu tháng 3, Jared Kaplan, nhà đồng sáng lập kiêm Giám đốc khoa học Anthropic, cùng với một nhà đồng sáng lập khác là Sam McCandlish trình bày về Mythos với ban giám đốc. Cả hai cho biết AI này quá rủi ro nếu phát hành rộng rãi, nhưng có thể cho phép các công ty khác, thậm chí đối thủ cạnh tranh, dùng thử.

Đến 7/4, sau nhiều lần cân nhắc, Anthropic công bố AI mới với tên gọi "Mythos Preview". Thay vì thương mại hóa, công ty chỉ cấp quyền truy cập cho 12 công ty công nghệ thông qua Project Glasswing - sáng kiến được mô tả là "nỗ lực nhằm bảo vệ những phần mềm quan trọng nhất thế giới". Nhóm đối tác gồm Amazon Web Services, Apple, Microsoft, Google, Nvidia, Broadcom, CrowdStrike, Mozilla.

12 công ty nằm trong nhóm hơn 40 tổ chức chịu trách nhiệm về những phần mềm trọng yếu với phần còn lại được giấu tên. Trong video công bố khi ra mắt Project Glasswing, CEO Anthropic Dario Amodei cho biết công ty đã đề nghị hợp tác với các quan chức chính phủ Mỹ nhằm "giúp phòng vệ trước rủi ro từ những mô hình này". Còn theo Axios, Cơ quan An ninh Quốc gia Mỹ (NSA) cùng một số bộ phận thuộc chính phủ Mỹ cũng bắt đầu sử dụng Mythos Preview.

Tại sự kiện ra mắt, Anthropic cho biết trong các thử nghiệm, Mythos có kỹ năng rất cao trong tác vụ an ninh mạng và hack, thậm chí vượt con người. Trong phép đo CyberGym - bài kiểm tra khả năng tìm lỗ hổng bảo mật của tác nhân AI trong các dự án phần mềm mã nguồn mở thực tế, Mythos đạt điểm cao kỷ lục 83,1%. Để so sánh, công cụ GLM 5.1 của Zhipu AI đạt 68,7%, còn Moonshot AI đạt 41,3%.

"Mythos Preview đã phát hiện hàng nghìn lỗ hổng nghiêm trọng, gồm cả trong các hệ điều hành lớn và trình duyệt web", Amodei tuyên bố. "Với tốc độ phát triển của AI, sẽ không mất nhiều thời gian trước khi những năng lực như vậy lan rộng, có thể vượt tầm kiểm soát của những người cam kết sử dụng chúng một cách an toàn."

Cũng theo CEO này, Mythos đã phát hiện các lỗ hổng nghiêm trọng trong hệ thống cũ, gồm một lỗ hổng tồn tại suốt 27 năm và đề xuất cách khai thác chúng. Công ty do đó chọn phát hành hạn chế, bởi nếu triển khai rộng rãi, AI này "có thể làm thay đổi cán cân quyền lực giữa các bên trong không gian mạng". Có nghĩa, các tổ chức phòng thủ sẽ phải đối mặt với những cuộc tấn công nhanh hơn, chính xác hơn và khó dự đoán hơn.

Khả năng của Mythos cũng đã được chứng minh thực tế. Tuần này, Mozilla, nhà phát triển đứng sau Firefox, cho biết bản phát hành trình duyệt Firefox 150 đã phải vá tới 271 lỗ hổng, tất cả được xác định bằng cách sử dụng quyền truy cập sớm vào Mythos Preview của Anthropic.

Khả năng này khiến giới an ninh mạng lo ngại. "Tôi đã nói chuyện với lãnh đạo kỹ thuật tại một số công ty quy mô rất lớn, họ cho biết sẽ phải điều động hàng nghìn kỹ sư từ mọi bộ phận để ngăn chặn AI khai thác lỗ hổng trong 6 tháng tới", Bobby Holley, Giám đốc công nghệ của Firefox, nói với Wired sau khi công bố vá lỗ hổng cho Firefox ngày 20/4. "Vì vậy, đây sẽ là một thách thức lớn đối với ngành công nghiệp, nhất là dự án nhỏ và mã nguồn mở".

Ciaran Martin, cựu lãnh đạo Trung tâm An ninh mạng quốc gia Anh, đánh giá việc Mythos có thể phát hiện lỗ hổng nghiêm trọng nhanh hơn nhiều so với những mô hình AI khác là "thực sự gây chấn động".

"Ngay cả những thứ chúng ta biết tồn tại hay chưa tồn tại, Mythos vẫn phát hiện ra. Nó đơn giản là một siêu hacker", Martin nói với BBC.

Trong khi đó, theo New York Times, các quan chức chính phủ cũng bày tỏ nỗi lo sau khi Mythos xuất hiện. Thống đốc Ngân hàng Anh đã công khai cảnh báo rằng Anthropic có thể đã tìm ra cách "phá vỡ toàn bộ thế giới rủi ro mạng". Ngân hàng Trung ương châu Âu bắt đầu âm thầm đặt câu hỏi cho các ngân hàng về khả năng phòng thủ của họ. Bộ trưởng Tài chính Canada François-Philippe Champagne thậm chí so sánh mối đe dọa này với việc đóng cửa eo biển Hormuz.

Anh là quốc gia duy nhất ngoài Mỹ có đại diện tiếp cận Mythos. Claudia Plattner, Chủ tịch cơ quan an ninh mạng của Đức, cho biết đã gặp gỡ các nhân viên của Anthropic tại San Francisco để có được "cái nhìn sâu sắc" về cách thức hoạt động của AI này. Bà đánh giá công cụ mới "cho thấy sự thay đổi mang tính đột phá trong bản chất của các mối đe dọa mạng".

Dù vậy, một số chuyên gia cho rằng có thể Mythos đang bị thổi phồng. "Chúng tôi chưa thể chắc chắn liệu Mythos Preview có thể tấn công các hệ thống được bảo vệ tốt hay không", một nhà nghiên cứu nói với BBC. "Do đó, ở những nơi có an ninh mạng tốt, về lý thuyết, mô hình này có thể sẽ bị ngăn chặn".

CEO Nvidia Jensen Huang không đề cập trực tiếp đến Mythos, nhưng tại một sự kiện tuần trước, ông cho rằng "việc nhấn mạnh quá mức các rủi ro của AI có thể là cách để một số công ty định vị mình là bên duy nhất đủ khả năng phát triển trí tuệ nhân tạo một cách an toàn".

Một số chuyên gia khác đánh giá các mô hình AI hiện tại, gồm cả Mythos, chưa phải là hệ thống có ý thức hay khả năng tự hành động như một hacker thực thụ. Nói cách khác, chúng chỉ là công cụ xử lý dữ liệu, hỗ trợ phát hiện lỗi, chưa thể tự gây ra những cuộc tấn công phức tạp trong môi trường thực tế.

Theo ông Martin, điều quan trọng là các tổ chức nên tập trung vào đảm bảo các nền tảng an ninh mạng cơ bản để tránh việc AI tấn công. "Với một số người, đây là một sự kiện mang tính tận thế. Nhưng với những người khác, nó chỉ là sự cường điệu", ông nói thêm. "Trong trung hạn, các công cụ này còn có thể được sử dụng để khắc phục nhiều lỗ hổng nền tảng của Internet".

Bảo Lâm tổng hợp