VNE-AI-1743909892-4179-1743909998.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=ASg0KFGFmUJfhm_aMuSzmQ

Phần mềm khai thác dữ liệu tự động đang tạo ra gánh nặng chi phí cho Wikipedia. Ảnh: Digital Information World

Wikipedia, một trong những nguồn tri thức đồ sộ nhất từng được xây dựng, chứa đóng góp từ hàng triệu người trên khắp thế giới, đang đối mặt với mối đe dọa ngày càng tăng từ các nhà phát triển trí tuệ nhân tạo, theo New Scientist.

Tổ chức phi lợi nhuận Quỹ Wikimedia vận hành Wikipedia cho biết từ tháng 1/2024 lượng truy cập mạng nhằm tải hình ảnh và video từ danh mục của trang tăng 50%. Sự tăng vọt đó chủ yếu đến từ chương trình khai thác dữ liệu tự động mà những nhà phát triển sử dụng để thu thập dữ liệu huấn luyện cho mô hình AI của họ. Lượng truy cập tăng chưa từng thấy có nghĩa Quỹ Wikimedia phải chi nhiều tiền hơn để phục vụ các trang của bách khoa toàn thư và nội dung khác từ trung tâm dữ liệu cho thuê của họ.

"Có nhiều báo cáo khác về các trang nội dung đang bị ảnh hưởng tương tự, nhưng khi một trang cực kỳ quan trọng như Wikimedia công khai vấn đề, mọi người sẽ chú ý", nhà nghiên cứu AI Elena Simperl ở Đại học King, London, cho biết. "Vấn đề họ đang thảo luận rất đáng lo ngại".

Theo Quỹ Wikimedia, 65% lượng truy cập Internet tốn kém nhất của họ đến từ phần mềm tự động khai thác dữ liệu. Chúng thường yêu cầu bài báo ít phổ biến và những truy vấn này phải chuyển tới trung tâm dữ liệu trung tâm thay vì sử dụng bộ nhớ đệm của bài báo phổ biến lưu trữ ở trung tâm dữ liệu địa phương. "Lượng sử dụng cao cũng gây rắc rối thường xuyên cho đội kỹ sư quản lý độ tin cậy trang web của chúng tôi. Họ buộc phải chặn lượng truy cập áp đảo từ các phần mềm đó trước khi nó tạo ra vấn đề cho người đọc", Quỹ Wikimedia chia sẻ.

Birgit Müller, giám đốc sản xuất ở Quỹ Wikimedia, cho biết tổ chức này đang tìm cách quản lý lượng truy cập từ phần mềm tự động và sẽ yêu cầu người dùng thương mại như nhà phát triển AI "trực tiếp hỗ trợ tính bền vững cho các dự án Wikimedia. "Một vấn đề thường bị xem nhẹ đối với nội dung công khai là nội dung cho phép truy cập miễn phí nhưng cơ sở hạ tầng để vận hành lại mất phí", Simperl nhấn mạnh.

Quỹ Wikimedia đã công bố kế hoạch dự thảo nhằm xác định nhà phát triển phía sau phần mềm khai thác dữ liệu với mục tiêu giảm 30% lượng truy cập tự động từ đó về mặt băng tần. Wikimedia cũng đối mặt với cạnh tranh trực tiếp từ chatbot AI có thể giải đáp câu hỏi về nhiều chủ đề khác nhau, ngay cả khi phản hồi AI không phải luôn đúng sự thực. Dù các trang Wikimedia chưa ghi nhận lượng truy cập trực tiếp sụt giảm do sự phát triển gần đây của AI, Müller bày tỏ lo ngại dịch vụ AI sử dụng nội dung của Wikimedia để cung cấp tóm tắt và giải đáp nhanh tự động thường không cung cấp đầy đủ trích dẫn và ngăn cản mọi người tiếp cận nguồn thông tin gốc.

Tuy nhiên, Quỹ Wikimedia không phản đối sử dụng công nghệ AI. Họ đã khai thác công cụ AI để giúp biên tập viên phát hiện hành vi phá hoại ở các trang Wikipedia, dự đoán chất lượng bài báo, đo độ tin cậy và gợi ý chỉnh sửa.

An Khang (Theo New Scientist)

Nguoi-noi-tieng.com (r) © 2008 - 2022