Mỗi sáng, Jacobus Louw, 27 tuổi, vẫn có thói quen đi bộ quanh khu phố ở Cape Town (Nam Phi). Nhưng từ năm ngoái, anh bắt đầu quay video bước chân và khung cảnh. Video mang về cho anh 14 USD, đủ mua thực phẩm cho nửa tuần.

Các video Louw bán là một phần trong chương trình Urban Navigation mà anh tìm thấy trên Kled AI - ứng dụng trả tiền cho người đóng góp dữ liệu như video và ảnh, chủ yếu để huấn luyện mô hình AI. Chỉ trong vài tuần, Louw đã kiếm 50 USD nhờ các hình ảnh về cuộc sống thường ngày của mình.

Cách đó vài nghìn km ở Ranchi (Ấn Độ), Sahil Tigga, sinh viên 22 tuổi, cũng kiếm tiền bằng cách cho phép Silencio - nền tảng thu thập dữ liệu âm thanh từ cộng đồng để huấn luyện AI - truy cập micro điện thoại với mục đích ghi lại tiếng ồn xung quanh thành phố, như trong nhà hàng hoặc tiếng giao thông tại ngã tư đông đúc. Anh cũng thường ghi âm giọng nói, hoặc "săn" các khung cảnh độc đáo, ít xuất hiện trên Internet để bán lấy tiền. Mỗi tháng, Tigga nhận được 100 USD, đủ để trang trải các khoản ăn uống.

Tại Chicago (Mỹ), Ramelio Hill, thợ học việc 18 tuổi, kiếm vài trăm USD mỗi tháng bằng cách bán cuộc trò chuyện điện thoại của mình với gia đình và bạn bè cho nền tảng đào tạo AI đàm thoại Neon Mobile với giá 0,5 USD mỗi phút. Hill nghĩ đơn giản: các công ty công nghệ vốn đã thu thập quá nhiều dữ liệu cá nhân của anh rồi, "nếu bán thêm để có tiền cũng không sao".

Những người như Louw, Hill hay Tigga được gọi là "huấn luyện viên AI tự do", sẵn sàng tải lên mọi thứ về chính mình. Họ đang ở tuyến đầu của cuộc chạy đua tạo dữ liệu mới. Trước nhu cầu về dữ liệu chất lượng cao, đạt "chuẩn con người" và vượt xa những gì có thể thu thập được từ Internet, thị trường dữ liệu ra đời. Từ Cape Town đến Chicago, hàng nghìn người đang chủ động bán dữ liệu sinh trắc học, dữ liệu cá nhân để đối tác của các công ty như OpenAI, Meta, Google... huấn luyện mô hình ngôn ngữ lớn (LLM).

phone-1774410138-7842-1774410200.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=vfgnmgwXVeB5GDH22ijuYQ

Nhiều người quay chụp cuộc sống cá nhân và bán cho công ty AI. Ảnh minh họa: Reuters

Thị trường màu mỡ

ChatGPT, Grok, Gemini... đòi hỏi lượng tài liệu khổng lồ để cải thiện tính năng, nhưng đang đối mặt với tình trạng khan hiếm. Các nguồn như C4, RefinedWeb và Dolma, hiện chiếm 1/4 tập dữ liệu chất lượng cao trên web, đang hạn chế các công ty AI tiếp cận để huấn luyện AI.

Năm ngoái, nghiên cứu của Đại học Aberdeen tại Scotland chỉ ra các công ty AI sẽ cạn kiệt văn bản chất lượng cao cho AI trong năm nay. Một số bên đã chuyển sang sử dụng dữ liệu do chính AI tổng hợp, nhưng quy trình đệ quy này có thể khiến AI tạo ra sản phẩm lỗi.

Đây là lúc những ứng dụng như Kled AI hay Silencio phát huy tác dụng. Thực tế, hàng triệu người đang kiếm tiền từ dữ liệu cá nhân thông qua các ứng dụng này và một số tên tuổi quen thuộc khác như Neon Mobile, Luel AI (mua cuộc hội thoại đa ngôn ngữ với giá 0,15 USD một phút) hay ElevenLabs (cho người dùng đăng giọng nói, bất kỳ ai sử dụng phải trả từ 0,02 USD/phút).

"Đào tạo AI theo hình thức chia sẻ dữ liệu cá nhân là loại hình việc làm mới nổi và sẽ phát triển mạnh mẽ", Bouke Klein Teeselink, giáo sư kinh tế tại Đại học King's College London, viết trên blog.

Theo nhà nghiên cứu Veniamin Veselovsky, các công ty AI nhận ra việc trả tiền cho người dùng vừa tránh được rủi ro tranh chấp bản quyền, vừa có dữ liệu thực tế và chất lượng cao để cải tiến hệ thống.

"Dữ liệu từ con người vẫn là tiêu chuẩn vàng để lấy mẫu cho bất cứ một mô hình AI nào", Veselovsky nói với Guardian.

Rủi ro không lường trước

Theo Business Insider, những người đang bán dữ liệu cá nhân của mình chủ yếu đến từ các nước đang phát triển, hoặc cần tiền và có ít lựa chọn kiếm sống khác.

Louw nói anh nhận thức rất rõ những đánh đổi về quyền riêng tư. Dù nguồn thu không ổn định và chưa đủ để trang trải toàn bộ chi phí hàng tháng, anh vẫn chấp nhận để có tiền. Anh đã thất nghiệp trong nhiều năm, nên số tiền kiếm được trên các nền tảng AI giúp anh tiết kiệm được hơn 500 USD để học một khóa kỹ thuật viên massage. "Là người Nam Phi, việc được trả lương bằng USD có giá trị hơn nhiều người nghĩ", Louw chia sẻ.

Giáo sư Mark Graham của Đại học Oxford, tác giả cuốn Feeding the Machine (Nuôi dưỡng cỗ máy) giải thích, với một số người ở nước đang phát triển, số tiền đó mang lại giá trị trong ngắn hạn, nhưng "công việc này không ổn định, không tiến bộ và thực chất là ngõ cụt".

Theo ông, thị trường AI dựa trên "cuộc đua xuống đáy về tiền lương" và "nhu cầu tạm thời về dữ liệu con người". Khi nhu cầu này thay đổi, người lao động sẽ không còn được bảo vệ, không có kỹ năng chuyển đổi và cũng không có mạng lưới an sinh xã hội hỗ trợ. "Bên chiến thắng là các nền tảng cung cấp dịch vụ", ông nói.

Còn tại các quốc gia giàu có hơn, chi phí sinh hoạt tăng đã biến việc bán dữ liệu cá nhân trở thành lựa chọn tài chính "hợp lý". Với trường hợp của Hill, do sống ở Chicago, anh được trả nhiều tiền hơn, với 200 USD cho đoạn ghi âm 11 tiếng. Tuy vậy, những kênh mua dữ liệu thường bất ổn và không thanh toán đúng hẹn. Ví dụ, Neon Mobile đã ngừng hoạt động sau khi TechCrunch phát hiện có lỗ hổng bảo mật khiến toàn bộ thông tin khách hàng bị tung lên mạng.

Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Trí tuệ nhân tạo hướng đến con người của Đại học Stanford, lo ngại các nền tảng dùng thông tin cá nhân trái phép. "Nếu không biết rõ quyền của mình, người dùng có nguy cơ bị 'xoay vòng' dữ liệu theo cách mà họ không hiểu hoặc không lường trước được", bà nói. "Họ cũng khó phản kháng nếu sự cố xảy ra".

Giáo sư Enrico Bonadio của Đại học City St George's (Anh) cho biết bên mua thường có các điều khoản cho phép họ làm bất cứ điều gì với thông tin cá nhân của người dùng "mãi mãi, không cần trả thêm". Nghĩa là, khi người dùng không muốn bán nữa, họ không còn cách nào để rút lại những thứ đã bán. Bên cạnh đó, dữ liệu cũng có thể bị sử dụng cho deepfake, mạo danh trái phép nhưng không thể ngăn chặn.

Trường hợp của Adam Coy, một diễn viên đến từ New York, là ví dụ. Người này đã bán hình ảnh của mình vào năm 2024 với giá 1.000 USD cho trình chỉnh sửa video sử dụng AI Captions, hiện có tên Mirage. Theo thỏa thuận, hình ảnh không được sử dụng cho mục đích chính trị, quảng cáo rượu, thuốc lá, nội dung khiêu dâm, hạn dùng một năm. Tuy vậy, chỉ thời gian ngắn sau, bạn bè của anh bắt đầu gửi cho anh những video "nhạy cảm" trên mạng.

"Tôi cảm thấy ngại khi phải giải thích cho hết người này đến người khác", Coy viết trên X đầu năm nay.

Bán thông tin cá nhân đang được xem như một phần của nền kinh tế việc làm tự do kiểu mới, nhưng cũng phải đánh đổi. "Đổi lại vài USD, nhiều người đang tiếp tay cho một ngành công nghiệp gây nhiều hệ lụy: kỹ năng lỗi thời theo thời gian, dễ bị tổn thương trước tương lai giả mạo, deepfake, đánh cắp danh tính và bóc lột kỹ thuật số. Những thứ họ chỉ mới bắt đầu hiểu", trang Guardian bình luận.

Bảo Lâm tổng hợp

  • Cơn sốt AI kéo Gen Z vào nghề thợ điện
  • Google bác tin dùng dữ liệu Gmail để huấn luyện AI
  • 30 tỷ hình ảnh thu thập từ Pokémon Go được dùng để huấn luyện robot
  • Con người có thể cần huấn luyện để phân biệt khuôn mặt AI tạo
  • 'Đội quân' huấn luyện robot AI hành động như người

Nguoi-noi-tieng.com (r) © 2008 - 2022