
Elon Musk đồng tình với các chuyên gia trí tuệ nhân tạo khác rằng không còn nhiều dữ liệu thực tế còn lại để huấn luyện mô hình trí tuệ nhân tạo.
“Chúng ta đã cạn kiệt hầu hết tổng cộng kiến thức nhân loại …. trong việc huấn luyện trí tuệ nhân tạo,” Musk nói trong cuộc trò chuyện trực tiếp với Chủ tịch Stagwell Mark Penn phát trực tiếp trên X vào cuối thứ Tư. “Điều đó xảy ra vào năm ngoái.”
Musk, người sở hữu công ty trí tuệ nhân tạo xAI, nhấn mạnh các chủ đề mà cựu người đứng đầu khoa học của OpenAI Ilya Sutskever đã đề cập tại NeurIPS, hội nghị học sâu máy tính, trong bài phát biểu vào tháng 12. Sutskever, người nói rằng ngành công nghiệp trí tuệ nhân tạo đã đạt đến điểm mức gọi là “đỉnh dữ liệu,” dự đoán rằng sự thiếu dữ liệu huấn luyện sẽ buộc phải chuyển từ cách mô hình được phát triển hiện nay.
Thực sự, Musk đã gợi ý rằng dữ liệu tổng hợp - dữ liệu được tạo ra bởi chính mô hình trí tuệ nhân tạo - chính là hướng đi tiếp theo. “Cách duy nhất để bổ sung [dữ liệu thực tế] là với dữ liệu tổng hợp, nơi mà trí tuệ nhân tạo tạo ra [dữ liệu huấn luyện],” ông nói. “Với dữ liệu tổng hợp ... [trí tuệ nhân tạo] sẽ tự đánh giá và đi qua quá trình tự học.”
Các công ty khác, bao gồm các ông lớn công nghệ như Microsoft, Meta, OpenAI và Anthropic, đã sử dụng dữ liệu tổng hợp để huấn luyện các mô hình trí tuệ nhân tạo đầu bảng. Gartner ước lượng rằng 60% dữ liệu được sử dụng cho các dự án trí tuệ nhân tạo và phân tích vào năm 2024 là được tạo tổng hợp.
Phi-4 của Microsoft, được công bố mã nguồn mở vào sớm thứ Tư, đã được huấn luyện trên dữ liệu tổng hợp cùng với dữ liệu thế giới thực. Mô hình Gemma của Google cũng đã được huấn luyện trên dữ liệu tổng hợp. Anthropic đã sử dụng một số dữ liệu tổng hợp để phát triển một trong những hệ thống hiệu suất của mình, Claude 3.5 Sonnet. Và Meta đã điều chỉnh mô hình series Llama mới nhất của mình bằng dữ liệu được tạo tổng hợp bởi trí tuệ nhân tạo.
Việc huấn luyện trên dữ liệu tổng hợp cũng có những lợi ích khác, như tiết kiệm chi phí. Công ty khởi nghiệp trí tuệ nhân tạo Writer cho biết mô hình Palmyra X 004 của họ, được phát triển chủ yếu từ các nguồn dữ liệu tổng hợp, chỉ tốn khoảng 700.000 đô la để phát triển - so với ước lượng 4,6 triệu đô la cho một mô hình OpenAI cùng kích thước.
Nhưng cũng có nhược điểm. Một số nghiên cứu cho thấy dữ liệu tổng hợp có thể dẫn đến sụp đổ của mô hình, nơi mà mô hình trở nên ít “sáng tạo” hơn - và chứa nhiều định kiến hơn - trong đầu ra của mình, cuối cùng làm thiệt hại nghiêm trọng đến chức năng của nó. Vì mô hình tạo ra dữ liệu tổng hợp, nếu dữ liệu được sử dụng để huấn luyện các mô hình này có định kiến và hạn chế, đầu ra của chúng sẽ bị ảnh hưởng tương tự.