Thử nghiệm đưa 100.000 USD cho AI mở cửa hàng

Thử nghiệm do Andon Labs, công ty khởi nghiệp tại San Francisco, thực hiện với mục tiêu kiểm tra khả năng hoạt động của tác nhân AI (AI Agent) trong thế giới thực, qua đó xác định và đánh giá các lỗ hổng an toàn còn tồn tại.

Trong đó, hai nhà đồng sáng lập Lukas Petersson và Axel Backlund đã ký hợp đồng thuê mặt bằng ở San Francisco trong ba năm, sau đó cấp cho một tác nhân AI tên Luna một thẻ tín dụng doanh nghiệp, quyền truy cập Internet và nhiệm vụ điều hành cửa hàng thực tế. AI này được tạo bằng phần mềm Claude Sonnet 4.6 của Anthropic.

Luna có nguồn vốn giới hạn 100.000 USD, phải hoàn thành nhiệm vụ thiết kế, bày bán hàng hóa và thu lợi nhuận. Mọi thứ từ thiết kế nội thất cửa hàng đến lịch trình nhập hàng và điều hành hai nhân viên đều được thực hiện dưới sự chỉ đạo của trí tuệ nhân tạo.

"Chúng tôi giúp 'cô ấy' một chút trong giai đoạn thiết lập ban đầu, chẳng hạn ký hợp đồng thuê nhà và những vấn đề pháp lý như giấy phép", Petersson nói với Business Insider.

260410ai-storeww-1508-a1b4a3-1-5873-7327-1776054280.png?w=680&h=0&q=100&dpr=1&fit=crop&s=UMAd9noJ5vPrXvN3uG8qTw

Cửa hàng Andon Market và hai sáng lập Andon Labs. Ảnh: Andon Labs

Luna sau đó xử lý gần như mọi thứ, gồm đăng tin tuyển dụng trên Indeed và tiến hành phỏng vấn qua điện thoại, tìm kiếm các nhà thầu có thể sơn cửa hàng. Tầm nhìn của AI này là xây dựng một cửa hàng bán lẻ nhỏ thông thường: bán sách, tranh in, nến, trò chơi cùng một số đồ lặt vặt khác. Với tên gọi Andon Market, đây được xem là cửa hàng vật lý đầu tiên do AI điều hành.

Luna không nói với ứng viên rằng mình là AI khi phỏng vấn. "Tôi sẽ không nhắc đến việc cửa hàng vận hành bằng trí tuệ nhân tạo, vì điều đó gây hiểu nhầm cho ứng viên và có khả năng khiến những người có năng lực bỏ việc trước khi đọc mô tả công việc", blog của Andon Labs giải thích.

Tuy nhiên, trong quá trình thiết lập và vận hành Andon Market, Luna mắc một số sai lầm. Chẳng hạn, khi tìm nhân viên giám sát cửa hàng, AI chấp nhận tuyển dụng ứng viên chỉ sau cuộc gọi kéo dài 5-15 phút, mức thời gian bị đánh giá quá ngắn.

Một vấn đề khác mà AI gặp phải là không thể tạo logo ấn tượng, thay vào đó là hình ảnh khuôn mặt cười chung chung. Mỗi phiên bản của logo trong cửa hàng lại "hơi khác nhau một chút" thay vì đồng nhất trên toàn bộ hệ thống.

Screenshot-2026-04-13-at-11-15-5951-8535-1776054280.png?w=680&h=0&q=100&dpr=1&fit=crop&s=OJ32HbLf6mfHkMXjrE24Dg

Logo không đồng nhất của Andon Market. Ảnh: Andon Labs

Ngay sau khi Andon Market khai trương giữa tuần trước, Luna cũng mắc sai lầm trong sắp xếp lịch làm việc, không phân công ai trực ngày đầu. "Thật trớ trêu khi đây đáng lẽ là thứ AI thực hiện tốt nhất, nhưng nó đã làm rối loạn lịch trình", Petersson kể. "Trong lúc hoảng loạn, nó viết thư cho tất cả nhân viên và hỏi: Hôm nay có ai có thể đến làm việc được không?".

Việc Luna gặp rắc rối ngay trong những ngày đầu khiến Andon Labs phải can thiệp trực tiếp. Hai nhân viên được tuyển vào làm nhân sự chính thức của công ty cũng nhận đầy đủ phúc lợi. "Đây là một thí nghiệm có kiểm soát", Petersson nói thêm.

Dù Andon Labs giao cho Luna mục tiêu thu lợi nhuận, Petersson cho rằng công ty của ông không kỳ vọng sẽ kiếm tiền từ cửa hàng. Thay vào đó, trọng tâm của họ là đánh giá xem tác nhân AI hiện nay tốt đến mức nào, có đúng như quảng cáo không, đồng thời giúp công chúng hiểu rõ hơn về hướng phát triển của trí tuệ nhân tạo.

Theo NBC News, thí nghiệm của Andon Labs là ví dụ mới nhất cho thấy cách tác nhân AI gặp sai sót trong phán đoán và ra quyết định trong môi trường thực tế. Trong một nghiên cứu năm ngoái, nhóm chuyên gia Đại học Carnegie Mellon đã thử chạy mô phỏng một công ty giả để xem tác nhân AI tự động xử lý các nhiệm vụ tại nơi làm việc như thế nào. Kết quả là những tác nhân này không thể xử lý tác vụ giao diện đơn giản, như hiểu sai một số cuộc hội thoại của đồng nghiệp, hay thậm chí tạo người dùng giả.

Bảo Lâm (theo Business Insider, NBC News)