Cơn sốt AI đưa Nvidia từ nhà sản xuất bộ xử lý đồ họa (GPU) cho máy tính trở thành tên tuổi hàng đầu trong lĩnh vực trí tuệ nhân tạo. Theo Business Insider, GPU của Nvidia thậm chí được đánh giá là "động lực của AI" những năm qua khi thúc đẩy sự bùng nổ đào tạo, biến mô hình ngôn ngữ lớn (LLM) từ nghiên cứu học thuật đơn thuần thành tham vọng trị giá hàng nghìn tỷ USD.
Tuy nhiên, thương vụ 20 tỷ USD giữa Nvidia và Groq đang được xem là sự thừa nhận giai đoạn tiếp theo của AI không chỉ do GPU quyết định. Công ty của Jensen Huang vẫn ở đỉnh cao thế giới về phần cứng AI, nhưng động thái mới cho thấy xu hướng dịch chuyển đang gần hơn bao giờ hết. Trong đó, ngành công nghiệp AI được đánh giá đang chuyển từ việc huấn luyện (training) mô hình sang tương tác trực tiếp trong thế giới thực. Sự chuyển đổi này có tên gọi là suy luận (inference) - quá trình diễn ra khi mô hình được huấn luyện sẽ trả lời câu hỏi, tạo hình ảnh hoặc tham gia vào cuộc hội thoại với người dùng. Theo RBC Capital, khả năng suy luận đang trở thành nhiệm vụ chủ đạo trong điện toán AI, có thể làm lu mờ thị trường huấn luyện trí tuệ nhân tạo đơn thuần.

Logo Nvidia trên màn hình smartphone. Ảnh: Reuters
Suy luận rất khác với huấn luyện. Huấn luyện giống như xây một "bộ não AI" vốn đòi hỏi lượng lớn sức mạnh tính toán thô và tính linh hoạt. Trong khi đó, suy luận giống với sử dụng bộ não đó trong thời gian thực. Tốc độ, tính nhất quán, hiệu quả năng lượng và chi phí cho mỗi câu trả lời trở nên quan trọng hơn nhiều so với phương pháp vét cạn (brute force) vốn chỉ giải quyết vấn đề bằng cách duyệt qua toàn bộ khả năng hoặc trường hợp có thể xảy ra để tìm ra lời giải chính xác.
Groq đang sản xuất một loại chip AI rất khác biệt gọi là bộ xử lý ngôn ngữ (LPU) vốn có khả năng suy luận tối ưu hơn so với GPU. Theo TechRadar, LPU được thiết kế giống với một dây chuyền lắp ráp chính xác hơn là nhà máy đa năng. Mỗi thao tác đều được lên kế hoạch trước, thực hiện theo trình tự cố định và lặp lại hoàn hảo mỗi lần. Sự cứng nhắc này vốn là điểm yếu với huấn luyện, nhưng lại là thế mạnh đối với suy luận, nơi tính dự đoán có độ trễ thấp hơn và ít lãng phí năng lượng hơn.
Ngược lại, GPU của Nvidia được thiết kế cho các tác vụ linh hoạt. Chúng dựa vào bộ lập lịch và các vùng nhớ ngoài lớn để xử lý nhiều loại khối lượng công việc khác nhau, nhưng tạo "gánh nặng" làm chậm quá trình suy luận. Khi các mô hình AI trưởng thành và ổn định hơn, sự đánh đổi ngày càng được cân nhắc.
"Ngành công nghiệp đang trên đà trải qua sự thay đổi mang tính bước ngoặt", Tony Fadell, từng là phó chủ tịch cấp cao bộ phận iPod của Apple và là nhà đầu tư vào Groq, viết trên LinkedIn cuối tháng trước. "GPU giành chiến thắng trong làn sóng đầu tiên khi làm nhiệm vụ huấn luyện. Nhưng suy luận luôn là lĩnh vực đòi hỏi khối lượng xử lý lớn, và GPU về bản chất không được tối ưu hóa cho việc này".
Thời gian qua, lĩnh vực trí tuệ nhân tạo luôn có một câu nói truyền miệng: "GPU hôm nay, AI của ngày mai". Tuy nhiên, theo Fadell, điều này đang dần không còn chính xác khi sẽ có sự bùng nổ của các loại chip khác thời gian tới. Ông gọi loại chip này là bộ xử lý suy luận (IPU).
Chris Lattner, kỹ sư tham gia phát triển bộ xử lý Tensor (TPU) của Google, cho rằng xu hướng "vượt khỏi sự kiểm soát của GPU" đang được củng cố bởi chính thương vụ mua lại Groq của Nvidia. "AI không chỉ xử lý khối lượng công việc duy nhất, bởi có rất nhiều thứ cần làm cho cả quá trình suy luận và huấn luyện," ông viết trên blog. "Chuyên môn hóa phần cứng sẽ mang đến lợi ích to lớn và lâu dài về mức độ hiệu quả".
Thực tế, nhiều công ty đang tìm giải pháp hạn chế sự phụ thuộc GPU. Năm 2024, Cerebras chế tạo thành công chip AI tối ưu hóa tốc độ, tuyên bố băng thông bộ nhớ cao hơn "hàng nghìn lần" so với GPU Nvidia. TPU của Google hiện vận hành hiệu quả AI tùy chỉnh với tốc độ cực nhanh. Amazon gần đây cũng ra Inferentia chuyên cho mục đích suy luận. Các công ty khởi nghiệp như Positron AI đặt tham vọng tạo chip AI mạnh hơn về suy luận với chi phí thấp hơn.
"Vì thế, thỏa thuận của Nvidia với Groq có thể xem là động thái phủ đầu", Fadell nhận xét. "Ông Huang đã nhìn thấy mối đe dọa và biến nó thành lợi thế của mình".
Theo Bloomberg, các mô hình AI suy luận mang lại lợi ích kinh tế hơn hẳn, nhất là khi trong năm 2026, trí tuệ nhân tạo sẽ len lỏi vào mọi lĩnh vực. "Đây là giai đoạn chứng minh liệu hàng trăm tỷ USD đầu tư vào trung tâm dữ liệu có mang lại hiệu quả hay không", Matt Garman, CEO Amazon Web Service, nói. "Nếu suy luận không chiếm ưu thế, tất cả khoản đầu tư vào AI không thực sự đem lại lợi nhuận".
Tuy nhiên, GPU sẽ không giảm vị thế. Với Nvidia, GPU vẫn đảm nhiệm việc huấn luyện và tác vụ linh hoạt, trong khi chip chuyên dụng như Groq sẽ xử lý suy luận nhanh và theo thời gian thực. Lợi thế của Nvidia nằm ở việc sở hữu "mối liên kết" gồm phần mềm, mạng lưới và hệ sinh thái nhà phát triển, cho phép các thành phần này hoạt động cùng nhau.
"Các trung tâm dữ liệu AI đang trở thành môi trường lai, nơi GPU và chip chuyên dụng tùy chỉnh hoạt động song song, mỗi loại được tối ưu hóa cho loại khối lượng công việc khác nhau", các nhà phân tích của RBC viết trên blog tuần này.
Bảo Lâm tổng hợp
- Groq - công ty chip AI được Nvidia mua lại với giá 20 tỷ USD
- CEO Nvidia: 'Thật điên rồ khi hạn chế dùng AI'
- Nvidia tuyên bố 'đi trước một thế hệ' trong ngành chip


































