Đóng

Internet Archive và kỳ tích bảo tồn trang web thứ 1.000 tỷ

(VTC News) -

Thư viện kỹ thuật số này lưu trữ lượng dữ liệu tương đương khoảng 50.000 chiếc iPhone.

Internet Archive - một trong những dự án thư viện quan trọng nhất trên không gian mạng - vừa xác lập một kỳ tích lịch sử. Sau gần 30 năm hoạt động miệt mài, tổ chức phi lợi nhuận này đã bảo tồn thành công trang web thứ 1.000 tỷ. Sự kiện này đánh dấu bước ngoặt lớn trong nỗ lực lưu trữ kỹ thuật số, đặc biệt là trong bối cảnh Internet đang trở thành một phần không thể thiếu nhưng cũng ngày càng trở nên khó kiểm soát và kém ổn định.

Ảnh minh họa cho thư viện số Internet Archive - nơi lưu giữ hàng nghìn tỷ trang web kể từ năm 1996. (Nguồn: Sinem Görücü)

Mặc dù Internet mang lại vô vàn tiện ích, nhưng sự bền vững chưa bao giờ là đặc tính của nó. Nội dung số vốn dĩ rất "phù du", thường chỉ tồn tại chừng nào chủ sở hữu còn đủ nguồn lực và ý chí để duy trì.

Một ví dụ điển hình là thảm họa dữ liệu của MySpace vào năm 2019. Do một lỗi kỹ thuật trong quá trình chuyển đổi máy chủ, mạng xã hội này vô tình xóa sạch toàn bộ nội dung âm nhạc và dữ liệu người dùng tải lên từ năm 2003 đến 2015. Chỉ trong một đêm, khoảng 50 triệu bài hát của 14 triệu nghệ sĩ đã vĩnh viễn biến mất khỏi không gian mạng.

Đó chính là những kịch bản mà Internet Archive nỗ lực ngăn chặn. Kể từ năm 1996, tổ chức này đặt mục tiêu tạo ra một "bản ghi vĩnh viễn về sự tiến hóa của Internet". Họ sử dụng các trình thu thập dữ liệu tự động để sao lưu các trang web công khai, đồng thời tiếp nhận nội dung đóng góp từ tình nguyện viên như các ấn bản in, bản ghi âm và nhiều định dạng phương tiện quý hiếm khác.

Sau gần ba thập kỷ, kho tàng này đã tích lũy được hơn 866 tỷ trang web cùng 41 triệu văn bản số hóa. Với tốc độ thêm mới khoảng 500 triệu trang mỗi ngày, tổng dung lượng dữ liệu hiện tại ước tính đạt khoảng 100.000 terabyte - tương đương với bộ nhớ của 50.000 chiếc iPhone phiên bản cao cấp nhất hiện nay.

Tuy nhiên, "thư viện của nhân loại" đang đối mặt với những thách thức mới từ sự bùng nổ của trí tuệ nhân tạo (AI). Các công ty công nghệ hiện đang ráo riết khai thác dữ liệu trực tuyến để huấn luyện các mô hình ngôn ngữ lớn, thường là trong điều kiện pháp lý chưa rõ ràng. Để tự vệ, nhiều tập đoàn truyền thông lớn như The New York Times hay The Guardian đã bắt đầu chặn quyền truy cập của các công cụ lưu trữ nhằm bảo vệ bản quyền nội dung trước AI tạo sinh.

Phản ứng này hoàn toàn dễ hiểu khi chưa có một khung pháp lý cụ thể để bồi thường thỏa đáng cho các đơn vị sáng tạo. Thế nhưng, điều này cũng vô tình khiến việc bảo tồn hệ sinh thái thông tin của nhân loại trở nên khó khăn hơn bao giờ hết. Trong tương lai, việc đạt được sự đồng thuận giữa các bên về quyền lợi và trách nhiệm sẽ là chìa khóa để Internet Archive có thể tiếp tục tồn tại và hướng tới cột mốc bảo tồn 2.000 tỷ trang web.

Minh Hoàn

Tin mới