Nút thắt tỷ đô của AI: Dữ liệu chất lượng, không phải là mô hình | Quan điểm

cryptonews.net 06/09/2025 - 22:02 PM

Tiết Lộ

Các quan điểm và ý kiến được nêu tại đây thuộc về tác giả và không đại diện cho quan điểm và ý kiến của biên tập viên của crypto.news.

Khủng Hoảng Dữ Liệu Sắp Đến Của AI

AI có thể sớm trở thành một ngành công nghiệp trị giá hàng nghìn tỷ đô la, nhưng nó đang phải đối mặt với một nút thắt quan trọng khi dữ liệu huấn luyện sẵn có sắp cạn kiệt. Trong khi có một cuộc đua để tạo ra các mô hình lớn hơn, một vấn đề quan trọng vẫn chưa được giải quyết: khả năng cạn kiệt dữ liệu huấn luyện có thể sử dụng trong vài năm tới.

Những Thông Tin Chính

  • Sự Khan Hiếm Dữ Liệu: Các tập dữ liệu huấn luyện đã tăng trưởng với tốc độ hàng năm 3,7 lần, với các dự đoán cho thấy nguồn dữ liệu công khai chất lượng có thể cạn kiệt trong khoảng thời gian từ 2026 đến 2032.
  • Tăng Trưởng Thị Trường Ghi Nhãn: Thị trường ghi nhãn dữ liệu dự kiến sẽ mở rộng từ 3,7 tỷ đô la vào năm 2024 đến 17,1 tỷ đô la vào năm 2030, trong bối cảnh việc tiếp cận dữ liệu của con người thực trở nên khó khăn hơn.
  • Hạn Chế Của Dữ Liệu Tổng Hợp: Dữ liệu tổng hợp không thể thay thế đúng cách dữ liệu con người xác thực do các vòng phản hồi và thiếu sót về sắc thái của thế giới thực, gây ra rủi ro.
    đến hiệu suất của mô hình AI.
  • Sự thay đổi quyền lực: Khi các mô hình trở nên phổ biến, quyền sở hữu và kiểm soát các tập dữ liệu độc đáo, chất lượng cao sẽ phân biệt các công ty AI trong bối cảnh cạnh tranh.

Thắt chặt dữ liệu đào tạo

Kể từ năm 2010, các tập dữ liệu đào tạo cho các mô hình ngôn ngữ lớn đã mở rộng khoảng 3,7 lần hàng năm. Với việc dự kiến sự cạn kiệt các dữ liệu đào tạo công khai chất lượng cao trong thập kỷ tới, sự cần thiết cho các tập dữ liệu mới, đa dạng và không thiên lệch là rất quan trọng.

Khi các công ty thắt chặt quyền truy cập dữ liệu và chính phủ áp đặt quy định về việc thu thập dữ liệu, bối cảnh phát triển AI đang thay đổi. Cảm xúc công chúng đang chuyển sang chống lại việc sử dụng nội dung do người dùng tạo ra mà không có sự bồi thường, khiến việc suy nghĩ lại về các chiến lược nguồn dữ liệu trở nên cần thiết.

Trong khi dữ liệu tổng hợp là một giải pháp thay thế được đề xuất, nó có những rủi ro liên quan, bao gồm giảm tính ổn định hiệu suất. Do đó, dữ liệu thực do con người tạo ra trở nên ngày càng giá trị, tuy nhiên việc truy cập lại bị hạn chế rất nhiều.
mong các nền tảng lớn như Meta và Google.

Tại Sao Điều Này Quan Trọng Đối Với Phát Triển AI

Chuỗi giá trị AI bao gồm cả việc tạo ra mô hình và thu thập dữ liệu. Gần đây, sự tập trung chủ yếu đã vào việc phát triển mô hình. Tuy nhiên, khi kích thước mô hình tiến gần đến giới hạn của chúng và các lựa chọn thay thế trở nên khả thi, các yếu tố phân biệt nằm ở những tập dữ liệu độc đáo. Những chủ sở hữu của các tập dữ liệu chất lượng cao có thể tạo ra giá trị đổi mới và thúc đẩy việc huấn luyện mô hình hiệu quả hơn phù hợp với nhu cầu của khán giả.

Quyền Kiểm Soát Sẽ Quyết Định Sự Tiến Bộ Của AI

Chúng ta đang bước vào một giai đoạn mà quyền kiểm soát dữ liệu sẽ xác định sức mạnh trong lĩnh vực AI. Khi cuộc tìm kiếm để cải thiện các mô hình AI trở nên quyết liệt hơn, thách thức quan trọng không phải là sức mạnh tính toán mà là việc tìm nguồn dữ liệu chân thực, hữu ích và hợp pháp.

Do đó, hướng tới tương lai, điều quan trọng là chuyển sự chú ý từ ai xây dựng các mô hình sang ai cung cấp dữ liệu, vì tương lai của AI sẽ phụ thuộc vào đầu vào của nó.

Về Tác Giả

Max Li là người sáng lập và Giám đốc điều hành tại OORT, một nền tảng phân quyền.
lụy thuyết AI dữ liệu đám mây. Li có chuyên môn sâu rộng trong lĩnh vực kỹ thuật và đổi mới, với hơn 200 bằng sáng chế và một quá trình làm việc bao gồm các hệ thống 4G LTE và 5G với Qualcomm Research. Ông cũng là một giáo sư và tác giả của “Học Tăng Cường cho Các Hệ Thống Cyber-physical.”




Bình luận (0)

    Chỉ số tham lam và sợ hãi

    Lưu ý: Dữ liệu chỉ mang tính tham khảo.

    hình minh họa chỉ số

    Tham lam

    63