Trên quy mô lớn, cuộc đua về AI là cuộc đua về dữ liệu. Từ nhận diện gương mặt cho đến xe tự lái hoặc các máy dịch, hầu hết các ứng dụng AI chỉ có thể triển khai được sau khi các cỗ máy tiếp nhận một lượng dữ liệu khổng lồ để từ đó có thể tìm ra mối liên hệ giữa các mô hình dữ liệu đầu vào và kết quả đầu ra. Chỉ khi đó một cỗ máy mới có thể học cách thực hiện được các kỹ năng của con người.
Vì vậy, dữ liệu được nhiều nhà nghiên cứu công nghệ xem như một yếu tố quan trọng, nếu không muốn nói là nguồn lực chiến lược cho nền kinh tế AI.
Nhưng trong tài liệu của MarcoPolo, Sheehan đã tách dữ liệu ra thành 5 khía cạnh khác nhau: số lượng, chiều sâu, chất lượng, mức độ đa dạng và khả năng truy cập. Bằng cách phân tích mô hình khía cạnh này, thay vì chỉ dựa vào các nghiên cứu định lượng chung, báo cáo chỉ ra những ưu thế giữa Mỹ và Trung Quốc trong chất lượng dữ liệu của họ. Trung Quốc có các lợi thế về chiều sâu và khả năng tiếp cận vào dữ liệu, ngược lại, Mỹ lại có ưu thế vượt trội về chất lượng và sự đa dạng dữ liệu.
Hơn 800 triệu người dùng internet tại Trung Quốc đang tạo ra một lượng dữ liệu thừa thãi về các loạt hoạt động trực tuyến khác nhau, từ mua sắm hàng tạp hóa cho đến các sản phẩm có giá trị cao cũng như cả việc đặt bàn tại nhà hàng.
Nhưng hầu hết các nhà cung cấp dịch vụ internet tại Trung Quốc vẫn tập trung phần lớn vào thị trường trong nước của mình trong khi các công ty tại Thung lũng Silicon chủ yếu vươn mình ra toàn cầu. Người dùng của Google và Facebook đại diện cho những tập người dùng đa dạng về ngôn ngữ, cá tính dân tộc, văn hóa và quốc tịch hơn nhiều so với WeChat, ứng dụng nhắn tin hàng đầu Trung Quốc hiện nay.
Điều này sẽ tạo nên các khác biệt quan trọng về chất lượng ứng dụng AI. Ví dụ, chương trình nhận diện gương mặt có thể sẽ gặp khó khăn khi xác định những người không phải Trung Quốc – nếu tất cả dữ liệu họ dùng để nghiên cứu chỉ dành riêng cho các gương mặt của Trung Quốc.
MarcoPolo không phải là tổ chức duy nhất đánh giá lại về cái gọi là ưu thế dữ liệu của Trung Quốc. Samm Sacks, nhà nghiên cứu chính sách an ninh mạng và kinh tế số của Trung Quốc tại tổ chức New American, cho biết: "Tiếp cận được nhiều dữ liệu nhất và bản thân nó không phải là yếu tố quan trọng nhất của việc phát triển AI."
"Điều hoang đường này đang tiếp sức cho việc hiểu nhầm về cái gọi là ưu thế dữ liệu của Trung Quốc, trong khi lại củng cố các lập luận chống lại quy định về tính riêng tư của Mỹ. Các chuyên gia công nghệ đang xem xét đến ảnh hưởng của những yếu tố khác như, sức mạnh điện toán, tài năng, các phép toán liên quan và loại dữ liệu có thể có giá trị."
Tham khảo SCMP