Loạt cải tiến lớn về AI tại Google I/O 2025

I/O 2025, sự kiện lớn nhất trong năm của Google, diễn ra ngày 20-21/5 tại trụ sở ở Mountain View, California (Mỹ).

Nâng cấp Gemini

Phiên bản Gemini 2.5, từng được giới thiệu là "mô hình AI thông minh nhất", với biến thể Gemini 2.5 Pro và 2.5 Flash tiếp tục nâng cấp về chức năng, tăng tính bảo mật, minh bạch cùng chi phí rẻ hơn. Trong số này, Gemini 2.5 Pro có bản cập nhật lớn nhất với tính năng Deep Think.

a1-1743313959-6040-1743314194-7920-9523-1747808037.png?w=680&h=0&q=100&dpr=1&fit=crop&s=nBBSA7bYtrMiiDEOMSY7LQ

Minh họa về Gemini 2.5 Pro. Ảnh: Chrome Unboxed

Theo Demis Hassabis, Giám đốc Google DeepMind, Deep Think sử dụng "hàng loạt nghiên cứu tiên tiến nhất", giúp mô hình "có khả năng xem xét nhiều giả thuyết trước khi trả lời truy vấn". Ưu điểm của nó là xử lý truy vấn phức tạp liên quan đến toán học và mã hóa. Đại diện Google cho biết mô hình đạt số điểm "ấn tượng" trong bài thi Olympic Toán học Mỹ 2025. Dù vậy, Google muốn thêm thời gian đánh giá an toàn và nhận ý kiến đóng góp từ giới chuyên gia trước khi phát hành rộng rãi.

Gemini 2.5 Flash được tối ưu hóa về tốc độ và hiệu quả. Mô hình sử dụng ít token (đơn vị dữ liệu nhỏ nhất mà mô hình AI xử lý) hơn, đạt điểm cao hơn trong tiêu chuẩn về lý luận, đa phương thức, mã hóa và xử lý ngữ cảnh dài. Mô hình dự kiến có mặt cho người dùng vào tháng 6.

Bên cạnh đó, Google đưa Project Mariner vào Gemini API và Vertex AI. Project Mariner là Tác nhân AI tận dụng sức mạnh của Gemini, có thể điều hướng website và hoàn thành nhiệm vụ thay người dùng. Bản thử nghiệm tính năng chuyển văn bản thành giọng nói trên Gemini 2.5 Pro và Gemini 2.5 Flash hiện có sẵn qua Gemini API, hỗ trợ hai giọng nói cùng 24 ngôn ngữ.

AI Mode trong tìm kiếm

Chế độ AI, hay AI Mode, sẽ được Google triển khai cho người dùng Mỹ tuần này và các khu vực khác "vài tháng tới". Tính năng mới cho phép tìm kiếm trên web bằng chatbot dùng mô hình Gemini 2.5, với trải nghiệm "không bao giờ tìm thấy trên một công cụ tìm kiếm thông thường". Chẳng hạn, người dùng tìm kiếm một vấn đề dưới dạng đoạn chat thông qua câu hỏi nhanh, AI sau đó tổng hợp lại thành bài viết thống nhất.

Bên cạnh đó, AI Mode cũng tạo biểu đồ cho các truy vấn như tài chính và thể thao, hay yêu cầu mô hình AI của Google tổng hợp chuyên sâu một vấn đề nào đó. Tính năng Search Live thông qua Project Astra cho phép người dùng tương tác với công cụ tìm kiếm bằng cách trò chuyện với nó, hoặc hướng máy ảnh vào bất cứ thứ gì muốn tìm kiếm.

AI Mode cũng bổ sung khả năng mua sắm nhanh. Người dùng chỉ cần tải lên hình ảnh của bản thân, sau đó "ướm thử" áo quần hoặc món đồ thời trang cần mua. Nếu chưa quyết định mua lúc đó, Google cung cấp tùy chọn thông báo khi nào chúng giảm giá, thậm chí tự quyết định mua nếu được trao quyền.

google-ai-mode-1747800855-1747-6086-1550-1747808037.png?w=680&h=0&q=100&dpr=1&fit=crop&s=VF7A1n6SDKiX6myquLUy3A

Chế độ AI hiển thị dưới dạng tab trên Google Search. Ảnh: Google

"Trước đây, tìm kiếm giới hạn ở việc 'nếu có thông tin nào đó ngoài kia, tôi sẽ lấy cho bạn'. Nhưng giờ đây, với khả năng lý luận của Gemini, kết quả sẽ được phân tích, chuyển đổi, kết nối các điểm thông tin, tổng hợp. Mọi thứ vượt ngoài khả năng truy xuất kết quả tìm kiếm thông thường", Nick Fox, người điều hành nhóm sản phẩm liên quan đến tìm kiếm và thông tin của Google, cho biết.

Trình tạo ảnh và video có nâng cấp lớn

Mô hình tạo ảnh từ văn bản mới nhất Imagen 4 được nâng cấp với chất lượng hơn hẳn thế hệ thứ ba. "Imagen 4 kết hợp tốc độ với độ chính xác để tạo ra những hình ảnh tuyệt đẹp", Eli Collins, Phó chủ tịch sản phẩm của Google Deepmind, viết trên blog. "Mô hình có thể tạo ảnh với độ rõ nét đáng kinh ngạc ở các chi tiết nhỏ như sợi, giọt nước và lông động vật, cũng như nổi trội ở cả phong cách siêu thực lẫn trừu tượng".

Screenshot-2025-05-21-at-12-36-3430-5846-1747808037.png?w=680&h=0&q=100&dpr=1&fit=crop&s=KAbeaBqIhELBTV4Ja8F8eg

Ảnh một con tắc kè được tạo từ Imagen 4. Ảnh: Google

Dựa trên một số hình ảnh mẫu tạo từ Imagen 4, TechRadar đánh giá các chi tiết ấn tượng, chân thực. Chẳng hạn, ảnh con cá voi nhảy ra khỏi mặt nước, ảnh về tắc kè hoa "tạo cảm giác như ảnh chụp".

Mô hình mới cũng xử lý chính tả về kiểu chữ tốt hơn. Collins cho biết, tính năng mới giúp người dùng tạo thiệp chúc mừng, áp phích, truyện tranh dễ dàng. Trước đó, ChatGPT cũng có chức năng tương tự, nhưng bị nhận xét dễ bị lỗi chính tả hoặc khó đọc. Người dùng có thể truy cập công cụ này thông qua Gemini, Whisk, Vertex AI và Workspace.

Trong khi đó, mô hình tạo video từ ảnh Veo 3 cũng cập nhật khả năng kết hợp âm thanh vào đoạn phim, gồm cả lời thoại giữa các nhân vật hay âm thanh động vật. Theo CNBC, đây là điểm khác biệt quan trọng so với đối thủ, khi hầu hết mô hình hiện nay chỉ tạo video không có âm thanh, hoặc video trên nền nhạc.

Google cũng ra mắt ứng dụng làm phim AI Flow. Công cụ sử dụng Veo, Imagen và Gemini để tạo clip dài 8 giây với đầu vào từ lời nhắc, ảnh hoặc video. Flow cũng đi kèm với bộ công cụ xây dựng cảnh, cho phép người dùng ghép các đoạn phim lại với nhau, tinh chỉnh và tạo video AI dài và liền mạch.

Android XR và kính thông minh Project Aura

Project Aura được xem là câu trả lời từ Google đối với Meta Rayban. Nguyên mẫu sản phẩm do Xreal chế tạo, trang bị camera, micro và loa, hỗ trợ dịch trực tiếp, chỉ đường và truy vấn qua Gemini AI, đồng thời bổ sung màn hình tùy chọn để xem thông báo gắn vào tròng kính.

53510-6b5d3abfa78f8a5c08cef34a-7216-3865-1747808037.png?w=680&h=0&q=100&dpr=1&fit=crop&s=Wnbt9G7HZo1tDIbPbciTcA

Kính Project Aura chạy Android XR. Ảnh: Google

Google trình diễn một số trường hợp sử dụng Project Aura trong thế giới thực, như nhắn tin, điều hướng từng chặng đường, lên lịch hẹn, dịch ngôn ngữ trực tiếp và chụp ảnh. Công ty cho biết đang gửi sản phẩm đến đối tác trải nghiệm và đợi phản hồi.

Project Aura chạy hệ điều hành Android XR - tham vọng của Google ở mảng kính thông minh. Nền tảng ra mắt năm ngoái cùng Qualcomm và Samsung, hiện nâng cấp mạnh về AI và AR, giúp kính thông minh hữu dụng hơn trong đời thực. Ngoài hai công ty này, hãng tìm kiếm Mỹ bắt tay với nhiều đối tác khác để phát triển kính thông minh, như Gentle Monster, Warby Parker, Xreal.

Sản phẩm khác

"Trợ lý AI" với sức mạnh của mô hình Gemini mới nhất hiện có mặt trên Chrome, với người đăng ký gói Google AI Pro và Ultra từ ngày 21/5, chưa có trên bản miễn phí. Trên trình duyệt, Google đưa vào nút Gemini chuyên dụng, giúp người dùng tóm tắt thông tin website bất kỳ hoặc thậm chí điều hướng, mua sắm nếu được cho phép.

sundar-google-io-1747807729-5316-1747808037.png?w=680&h=0&q=100&dpr=1&fit=crop&s=Kxf-VluoVvcoX0NBd0fk0w

CEO Google Sundar Pichai tại sự kiện Google I/O 2025. Ảnh: The Verge

Cũng trên Chrome, Google sử dụng AI để phát hiện mật khẩu bị xâm phạm. Khi nhận thấy mối nguy tấn công, AI có thể tự động "tạo mật khẩu thay thế mạnh" và tự cập nhật mật khẩu đó trên các trang web được hỗ trợ thông qua Trình quản lý mật khẩu. Một thông báo sẽ gửi đến email cho người dùng đổi mật khẩu sau khi đã ngăn chặn được mối đe dọa.

Trên Gmail, Google cũng bổ sung tính năng "viết thư hộ". Nếu như AI cũ thường chỉ dừng lại ở gợi ý nội dung, chức năng mới sẽ lấy thông tin từ lịch sử hộp thư, kết hợp Google Drive để tạo phản hồi "giống với văn phong người dùng nhất".

Google Meet cũng bổ sung khả năng dịch giọng nói trực tiếp trong cuộc gọi bằng AI. Tính năng này được đánh giá hữu ích trong nhiều tình huống, như gia đình sinh sống ở nhiều quốc gia khác nhau với những ngôn ngữ khác nhau, hoặc sử dụng bởi các công ty đa quốc gia, cho phép đồng nghiệp toàn cầu kết nối và trò chuyện thời gian thực. Theo Google, độ trễ khi dịch rất thấp, điều mà các giải pháp khác chưa thể làm được hiện nay.

Bảo Lâm tổng hợp

Đồng sáng lập Google: 'Tôi mắc nhiều sai lầm với Google Glass'
Google cho dịch giọng nói trực tiếp trong cuộc gọi
Điện thoại Android thêm cách chống cuộc gọi lừa đảo
Google đưa chatbot Gemini lên ôtô, TV, đồng hồ
Chuyên gia Google: Nghề lập trình không mất đi, nhưng cần đổi cách học

ĐÓNG MENU

Loạt cải tiến lớn về AI tại Google I/O 2025

Tin mới

Tin 24H

NGƯỜI NỔI TIẾNG

Tin mới 247

Người nổi tiếng

Giới trẻ