Dữ liệu mở trong lĩnh vực tài nguyên môi trường giúp cộng đồng, doanh nghiệp, nhà nghiên cứu và cơ quan quản lý tiếp cận thông tin minh bạch hơn. Tuy nhiên, mở dữ liệu không đơn giản là đăng file lên website.
Dữ liệu mở cần có metadata
Metadata mô tả nguồn dữ liệu, thời gian cập nhật, đơn vị đo, phạm vi không gian, định dạng file và điều kiện sử dụng. Nếu thiếu metadata, người dùng khó đánh giá dữ liệu có phù hợp với mục đích của họ hay không.
Với dữ liệu môi trường, metadata còn giúp tránh hiểu sai số liệu. Ví dụ, cùng một thông số nhưng phương pháp đo, thời điểm đo và vị trí đo khác nhau có thể dẫn đến cách diễn giải khác nhau.
Cách công bố dữ liệu dễ khai thác
Dữ liệu nên được cung cấp ở định dạng máy đọc được như CSV, JSON, GeoJSON hoặc API, đồng thời vẫn có giao diện tra cứu cho người dùng phổ thông. Không nên chỉ công bố file PDF nếu mục tiêu là tái sử dụng dữ liệu.
Cần có phiên bản dữ liệu hoặc lịch sử cập nhật để người dùng biết số liệu đã thay đổi khi nào. Điều này rất quan trọng với báo cáo nghiên cứu và các dashboard dùng lại dữ liệu.
- Cung cấp mô tả bộ dữ liệu và ngày cập nhật.
- Cho phép tải dữ liệu theo phạm vi thời gian hoặc địa bàn.
- Có API cho hệ thống khác tích hợp nếu dữ liệu được dùng thường xuyên.
Cân bằng giữa minh bạch và bảo mật
Không phải mọi dữ liệu đều nên mở. Thông tin cá nhân, dữ liệu nhạy cảm, tọa độ cần bảo vệ hoặc tài liệu có ràng buộc pháp lý phải được phân loại trước khi công bố.
Một chính sách dữ liệu mở tốt cần xác định nhóm dữ liệu công khai, dữ liệu cần đăng nhập và dữ liệu chỉ dùng nội bộ.
Tóm tắt ý chính
- Dữ liệu mở phải có metadata rõ ràng.
- Định dạng máy đọc được giúp dữ liệu dễ tái sử dụng.
- Cần phân loại dữ liệu trước khi công bố.