OpenAI dùng sách O'reilly trái phép để huấn luyện AI?

OpenAI, công ty phát triển các mô hình AI tiên tiến, đang đối mặt với cáo buộc sử dụng trái phép sách O'Reilly có trả phí để huấn luyện các mô hình AI của mình.

Theo Techcrunch, các mô hình AI hoạt động như những công cụ dự đoán, học hỏi từ lượng lớn dữ liệu như sách, phim, và chương trình truyền hình. Khi tạo ra nội dung, chúng chỉ tái tạo kiến thức đã học, không sáng tạo ra điều gì mới.

Tim O’Reilly là người sáng lập, giám đốc điều hành và chủ tịch của O’Reilly Media

Tim O’Reilly là người sáng lập, giám đốc điều hành và chủ tịch của O’Reilly Media

Trong bối cảnh nguồn dữ liệu gốc cạn kiệt, bài báo từ Dự án Tiết lộ AI, một tổ chức phi lợi nhuận do ông trùm truyền thông Tim O'Reilly và nhà kinh tế học Ilan Strauss đồng sáng lập, đưa ra cáo buộc rằng OpenAI có khả năng sử dụng các cuốn sách trả phí từ O'Reilly Media để "huấn luyện" mô hình GPT-4o của mình.

O'Reilly Media khẳng định họ không hề có thỏa thuận cấp phép nào với OpenAI. Điều này làm dấy lên nghi vấn về việc sử dụng trái phép tài liệu có bản quyền.

GPT-4o, mô hình mới và mạnh mẽ hơn của OpenAI thể hiện khả năng nhận diện rõ rệt các nội dung sách có bản quyền của O'Reilly. Điều này thể hiện GPT-4o được đào tạo trên dữ liệu từ các cuốn sách này. Ngược lại, mô hình GPT-3.5 Turbo cũ hơn lại cho thấy khả năng nhận diện cao hơn đối với các mẫu sách O'Reilly có thể truy cập công khai, tức là những cuốn sách không yêu cầu trả phí để đọc”, các đồng tác giả của bài báo viết.

Để làm rõ nghi vấn OpenAI dùng trái phép tài liệu bản quyền, các nhà nghiên cứu dùng phương pháp DE-COP, kiểm tra khả năng AI phân biệt văn bản gốc và văn bản AI tạo ra. Nếu AI nhận ra, nghĩa là nó đã "học" văn bản gốc. Kiểm tra GPT-4o và GPT-3.5 Turbo với gần 14.000 đoạn trích từ sách O'Reilly, các nhà nghiên cứu thấy GPT-4o nhận diện sách O'Reilly trả phí tốt hơn hẳn GPT-3.5 Turbo, dù đã loại trừ các yếu tố nhiễu.

Nói cách khác, GPT-4o dường như được "học" từ các cuốn sách có bản quyền này, làm dấy lên nghi ngờ về việc OpenAI có thể sử dụng trái phép tài liệu để huấn luyện mô hình của mình.

 

Mô hình GPT-4o mới nhất của OpenAI có khả năng nhận diện và dường như được "học" từ nhiều cuốn sách O'Reilly có bản quyền, những cuốn sách mà không được công khai rộng rãi và được xuất bản trước thời điểm dữ liệu huấn luyện của mô hình này được khóa lại. Vì vậy GPT-4o có thể đã được đào tạo trên những tài liệu mà OpenAI không có quyền sử dụng”, các đồng tác giả đã viết.

Những cuốn sách miễn phí hay nhất từ ​​O'Reilly Press (Ảnh: zapier.com)

Những cuốn sách miễn phí hay nhất từ ​​O'Reilly Press (Ảnh: zapier.com)

Tuy nhiên các tác giả cũng thừa nhận kết luận của họ chưa phải là bằng chứng chắc chắn. Họ cho rằng phương pháp kiểm tra của họ vẫn còn hạn chế và OpenAI có thể đã thu thập các đoạn trích từ sách trả phí thông qua việc người dùng sao chép và dán chúng vào ChatGPT.

Thêm vào đó, bài báo không đánh giá các mô hình AI mới nhất của OpenAI như GPT-4.5, o3-mini và o1. Khả năng những mô hình này không được huấn luyện trên dữ liệu sách O'Reilly trả phí, hoặc được huấn luyện với lượng dữ liệu ít hơn so với GPT-4o.

Theo Techcrunch, OpenAI luôn muốn các quy định về sử dụng dữ liệu bản quyền để phát triển AI được nới lỏng, đang tích cực tìm kiếm dữ liệu huấn luyện chất lượng cao. Họ thậm chí còn thuê cả các nhà báo để cải thiện khả năng tạo ra văn bản của các mô hình AI. Đây là xu hướng chung của ngành công nghiệp AI, khi các công ty tìm kiếm chuyên gia từ nhiều lĩnh vực để nâng cao chất lượng hệ thống AI của mình.

Cần lưu ý rằng OpenAI cũng chi trả cho một số dữ liệu huấn luyện. Họ đạt được thỏa thuận cấp phép với các nhà xuất bản tin tức, mạng xã hội, thư viện ảnh và nhiều tổ chức khác. OpenAI cũng cung cấp tùy chọn cho phép chủ sở hữu bản quyền chặn việc sử dụng nội dung của họ, mặc dù hệ thống này chưa hoàn hảo.

Tuy nhiên, trong bối cảnh OpenAI đang phải đối mặt với nhiều vụ kiện liên quan đến việc sử dụng dữ liệu huấn luyện và vấn đề bản quyền tại tòa án Mỹ, thì bài báo của O'Reilly rõ ràng là một đòn giáng mạnh thêm.

OpenAI hiện vẫn chưa đưa ra bất kỳ phản hồi nào về vấn đề này.

https://vtcnews.vn/openai-dung-sach-o-reilly-trai-phep-de-huan-luyen-ai-ar935236.html

Hiền Phan / VTC News