"Tại Airbnb, khoa học dữ liệu tồn tại trong mọi ngóc ngách, mọi lĩnh vực của công ty", bà Hạnh Phạm mở đầu bài chia sẻ tại tọa đàm Xử lý và phân tích dữ liệu - Động lực cho chuyển đổi số quốc gia, do Hiệp hội Dữ liệu quốc gia tổ chức sáng 28/5.

Airbnb là nền tảng công nghệ kết nối chủ nhà có phòng trống với khách du lịch cần chỗ lưu trú trên toàn thế giới, nơi bà Hạnh từng làm lãnh đạo khoa học dữ liệu mảng tăng trưởng, bán hàng. Theo thống kê, nền tảng này tạo ra hơn một tỷ sự kiện dữ liệu mỗi ngày, thực hiện hơn 2.000 thử nghiệm mỗi năm với nhân sự nhà khoa học và kỹ sư dữ liệu hơn 200 người.

LQ-06745-8651-1748419633.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=YzpUfavykOff4l89EuU0Rw

Bà Hạnh Phạm, Giám đốc dữ liệu tại Pinterest, cựu lãnh đạo nhóm khoa học dữ liệu tại Airbnb, chia sẻ tại tọa đàm của Hiệp hội Dữ liệu quốc gia, ngày 28/5. Ảnh: Lưu Quý

Theo bà, dữ liệu "là tài nguyên lớn, quý hơn khoáng sản" và việc khai thác từng giúp nền tảng tăng 4% tỷ lệ đặt phòng thành công. Dữ liệu tại Airbnb vốn được thực hiện theo "vòng quay", gồm Khai thác dữ liệu, Xây dựng models và Chia sẻ kết quả, sau đó tiếp tục Khai thác dữ liệu.

Ở bước đầu, nhóm sử dụng công cụ như Airpal và Superset để phân tích lịch đặt phòng. Từ hàng triệu bản ghi đặt chỗ, họ nhận thấy các chủ nhà có xu hướng ưu tiên những yêu cầu đặt phòng giúp "lấp đầy" lịch trống, tức đặt sát vào những booking có từ trước. Ngược lại, nếu một yêu cầu tạo nhiều ngày trống giữa các lượt khách, chủ nhà có xu hướng từ chối. Biểu đồ cho thấy tỷ lệ chấp nhận yêu cầu đặt phòng giảm rõ rệt khi số ngày trống tăng lên. "Ở vị trí nền tảng kết nối, sẽ rất tiếc khi khách hàng đã ưng căn hộ và muốn đặt nhưng chủ nhà lại từ chối", bà kể.

Để biến dữ liệu này thành hành động, bước thứ hai là đưa vào mô hình xếp hạng tìm kiếm của hệ thống gợi ý kết quả trên Airbnb và Google. Nhóm sử dụng công cụ Airflow để xây dựng đường ống đưa dữ liệu đã xử lý từ bước một vào. Tại đây, thuật toán xếp hạng sẽ được điều chỉnh để ưu tiên hiển thị các căn hộ có lịch đặt phòng phù hợp hơn với nhu cầu của cả khách và chủ.

Ví dụ, khi một người dùng tìm kiếm chỗ nghỉ, hệ thống không chỉ xét đến vị trí, giá cả hay đánh giá, mà còn cân nhắc yêu cầu có phù hợp với lịch trống của chủ nhà không. Nếu đáp ứng, khả năng được chấp nhận sẽ cao hơn và trải nghiệm người dùng sẽ tốt hơn.

Theo bà Hạnh, kết quả đo lường sau triển khai cho thấy tỷ lệ yêu cầu đặt phòng được chủ nhà chấp nhận tăng 4%. "Đây là con số lớn với một nền tảng có doanh thu hàng tỷ USD", bà nói.

Dù vậy, quá trình không dừng lại ở triển khai kỹ thuật. Kết quả của thử nghiệm được lưu trữ và chia sẻ qua hệ thống nội bộ, sử dụng Knowledge Repo - kho tri thức mở giúp các nhóm khác trong công ty học hỏi, đánh giá hiệu quả và tái sử dụng mô hình trong ngữ cảnh riêng của họ. Bà nhấn mạnh việc chia sẻ đặc biệt quan trọng để đảm bảo tính liên tục khi nhân sự thay đổi hoặc khi hệ thống công nghệ tái cấu trúc.

Hiện bà Hạnh giữ vị trí Giám đốc dữ liệu người dùng tại Pinterest, mạng xã hội về hình ảnh hàng đầu thế giới, đồng thời đồng sáng lập Skin AI - startup ứng dụng trí tuệ nhân tạo trong cá nhân hóa chăm sóc da dựa trên khoa học dữ liệu.

Theo chuyên gia này, công ty ở mọi lĩnh vực và ở quy mô nào cũng có thể ứng dụng dữ liệu để gia tăng hiệu quả. Lấy ví dụ từ ngành bán lẻ, bà cho biết dữ liệu giúp cải thiện phát triển sản phẩm nhờ phản hồi trực tuyến, thực hiện A/B testing (kiểm thử A/B), cá nhân hóa trải nghiệm và rút ngắn thời gian đưa sản phẩm mới ra thị trường.

Với kinh nghiệm tại các tập đoàn lớn, bà Hạnh nêu ba nguyên tắc cốt lõi khi làm việc với dữ liệu. Thứ nhất, một nhà khoa học dữ liệu giỏi không chỉ làm theo yêu cầu mà cần trở thành đối tác tư duy, chủ động hiểu và giải quyết bài toán thực sự của doanh nghiệp. Thứ hai, chất lượng dữ liệu là yếu tố then chốt bởi nếu đầu vào không đáng tin cậy, kết quả phân tích dù tinh vi đến đâu cũng vô nghĩa, thậm chí gây hại. Thứ ba, bà nhấn mạnh kỹ sư dữ liệu và hệ thống đường ống dữ liệu là những "người hùng thầm lặng" đảm bảo dữ liệu lưu chuyển đúng cách, theo dõi và kiểm soát quyền truy cập chặt chẽ, từ đó giúp tổ chức sử dụng an toàn và hiệu quả.

hiep-hoi-du-lieu-quoc-gia15-17-4825-7598-1748419634.jpg?w=680&h=0&q=100&dpr=1&fit=crop&s=hK_PL6tRpSd3c8hx1KOHqw

Thiếu tá Đào Đức Triệu, Tổng thư ký Hiệp hội Dữ liệu quốc gia phát biểu tại tọa đàm. Ảnh: Minh Sơn

Tại hội thảo, Thiếu tá Đào Đức Triệu, Tổng thư ký Hiệp hội Dữ liệu quốc gia, đánh giá Việt Nam đứng trước cơ hội lịch sử khi bước vào kỷ nguyên chuyển đổi số với tiềm năng từ dữ liệu, có thể tạo thế hệ các công ty lớn. Ông nhấn mạnh dữ liệu là tài nguyên có giá trị lớn và không chỉ khai thác một lần, có thể tạo những giá trị mới khi được kết nối và khai thác tốt, đồng thời lưu ý các doanh nghiệp cần đảm bảo dữ liệu không bị lạm dụng trong quá trình khai thác.

Đại diện Hiệp hội cho biết sẽ tiếp tục thực hiện hoạt động nâng cao nhận thức và trang bị kiến thức chuyên sâu về phân tích, xử lý dữ liệu, từ đó thúc đẩy việc ứng dụng các công nghệ dữ liệu hiện đại vào tiến trình phát triển kinh tế số và chuyển đổi số quốc gia.

Lưu Quý

Nguoi-noi-tieng.com (r) © 2008 - 2022