Xu hướng 'cắt tỉa' các mô hình ngôn ngữ lớn

SLM-1745381338-9387-1745381611.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=PsfyXp6TReGjQbogyqkt6A

Logo OpenAI và một số sản phẩm của công ty hiển thị trên một smartphone. Ảnh: Reuters

Mô hình ngôn ngữ lớn (LLM) mới nhất từ OpenAI, Meta và DeepSeek sử dụng hàng trăm tỷ tham số - yếu tố giúp xác định sự liên kết giữa các dữ liệu và được điều chỉnh trong quá trình đào tạo. Với nhiều tham số hơn, mô hình có thể xác định dạng mẫu và liên kết tốt hơn, nhờ đó trở nên mạnh mẽ và chính xác hơn.

Nhưng sức mạnh này cũng có nhược điểm. Việc đào tạo một mô hình với hàng trăm tỷ tham số đòi hỏi rất nhiều tài nguyên tính toán. Theo Wired, để đào tạo mô hình Gemini 1.0 Ultra, Google đã chi 191 triệu USD. LLM cũng đòi hỏi sức mạnh tính toán khổng lồ mỗi khi trả lời một yêu cầu, khiến chúng trở thành những "kẻ ngốn năng lượng" khét tiếng. Viện nghiên cứu điện lực (EPRI) cho biết, chỉ một yêu cầu đặt ra cho ChatGPT cũng tiêu thụ năng lượng gấp khoảng 10 lần so với một tìm kiếm trên Google.

Để giải quyết vấn đề này, một số nhà nghiên cứu đang hướng đến quy mô khiêm tốn hơn. IBM, Google, Microsoft và OpenAI gần đây đều đã phát hành các mô hình ngôn ngữ nhỏ (SLM) sử dụng vài tỷ tham số, rất ít so với LLM.

SLM không được sử dụng làm công cụ đa năng giống LLM. Thay vào đó, chúng hiệu quả trong một số nhiệm vụ nhất định với phạm vi hẹp hơn như tóm tắt cuộc trò chuyện, trả lời câu hỏi của bệnh nhân như một chatbot chăm sóc sức khỏe, thu thập dữ liệu trong những thiết bị thông minh.

"Với nhiều nhiệm vụ, một mô hình 8 tỷ tham số thực sự khá tốt", Zico Kolter, nhà khoa học máy tính tại Đại học Carnegie Mellon, cho biết. Chúng cũng có thể chạy trên laptop hoặc smartphone, thay vì một trung tâm dữ liệu khổng lồ. Dù giới chuyên gia chưa thống nhất về định nghĩa chính xác của SLM, nhưng mọi mô hình mới đều chỉ có tối đa khoảng 10 tỷ tham số.

Nhằm tối ưu hóa quá trình đào tạo cho SLM, các nhà nghiên cứu sử dụng một số thủ thuật. LLM thường thu thập dữ liệu đào tạo thô từ Internet, nhiều khi lộn xộn và khó xử lý. Nhưng sau đó, LLM có thể tạo ra một bộ dữ liệu chất lượng cao phù hợp để đào tạo mô hình nhỏ.

Phương pháp này gọi là "chưng cất kiến thức", trong đó mô hình lớn hơn truyền đạt lại quá trình đào tạo của mình một cách hiệu quả, giống như giáo viên giảng bài cho học sinh. "Lý do SLM trở nên tốt như vậy với quy mô nhỏ và dữ liệu ít là chúng sử dụng dữ liệu chất lượng cao thay vì những thứ lộn xộn", Kolter giải thích.

cat-tia-set-1745381238-8211-1745381612.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=usKPOew3YiGMzqONkcSMeQ

Các nhà nghiên cứu có thể "cắt tỉa" để tối ưu hóa mô hình ngôn ngữ cho một nhiệm vụ nhất định. Ảnh: Celsius Pictor/Quanta Magazine

Các nhà nghiên cứu cũng xây dựng SLM bằng cách bắt đầu với mô hình lớn rồi rút gọn lại. Ví dụ, phương pháp "cắt tỉa" sẽ loại bỏ những phần không cần thiết hoặc không hiệu quả của mạng thần kinh nhân tạo - mạng lưới gồm nhiều điểm dữ liệu liên kết với nhau làm cơ sở cho một mô hình lớn.

Phương pháp cắt tỉa lấy cảm hứng từ một mạng lưới thần kinh thực - não người - đạt được hiệu quả bằng cách cắt kết nối giữa những khớp thần kinh khi một người già đi. Các phương pháp cắt tỉa ngày nay bắt nguồn từ một nghiên cứu năm 1989, trong đó nhà khoa học máy tính Yann LeCun, hiện làm việc tại Meta, lập luận rằng có thể loại bỏ tới 90% tham số trong một mạng thần kinh đã qua đào tạo mà không làm giảm hiệu quả. Ông gọi phương pháp này là "tổn thương não tối ưu". Việc cắt tỉa có thể giúp các nhà nghiên cứu tinh chỉnh mô hình ngôn ngữ nhỏ cho một nhiệm vụ hoặc môi trường cụ thể.

Mô hình nhỏ cũng sẽ cung cấp một phương pháp chi phí thấp giúp các nhà khoa học thử nghiệm ý tưởng mới. Vì có ít tham số hơn mô hình lớn, lý luận của chúng có thể minh bạch, rõ ràng hơn. "Nếu muốn tạo ra một mô hình mới, bạn cần thử nghiệm. Mô hình nhỏ cho phép các nhà nghiên cứu thử nghiệm với mức cược thấp hơn", Leshem Choshen, nhà khoa học tại Phòng thí nghiệm AI Watson MIT-IBM, cho biết.

Mô hình lớn, đắt tiền, với tham số ngày càng nhiều vẫn hữu ích cho những ứng dụng như chatbot tổng quát, trình tạo hình ảnh và phát hiện thuốc mới. Nhưng với nhiều người dùng, một mô hình nhỏ và tập trung cũng sẽ hoạt động tốt, đồng thời các nhà nghiên cứu cũng dễ đào tạo và xây dựng hơn. "Những mô hình hiệu quả này có thể tiết kiệm tiền, thời gian và hoạt động tính toán", Choshen nhận định.

Thu Thảo (Theo Wired)

ĐÓNG MENU

Xu hướng 'cắt tỉa' các mô hình ngôn ngữ lớn

Tin mới

Tin 24H

NGƯỜI NỔI TIẾNG

Tin mới 247

Người nổi tiếng

Giới trẻ