Meta data (Siêu dữ liệu) là gì? Khái niệm, định nghĩa

02/May/2021 Lượt xem: 100

Meta data là những thông tin mô tả về cấu trúc của data.

Siêu dữ liệu (metadata) là dạng dữ liệu miêu tả về dữ liệu. Trong cơ sở dữ liệu, metadata là các sửa đổi dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu. Trong cơ sở dữ liệu quan hệ thì metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view và nhiều đối tượng khác. Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo cáo, các luật doanh nghiệp hay những quy tắc biến đổi. Metadata bao quát tất cả các phương diện của kho dữ liệu.

Siêu dữ liệu (metadata) dùng để mô tả tài nguyên thông tin. Thuật ngữ “meta” xuất xứ là một từ Hy Lạp đùng để chỉ một cái gì đó có bản chất cơ bản hơn hoặc cao hơn.

Vì vậy, có thể hiểu metadata là dữ liệu về dữ liệu hoặc thông tin về thông tin. Cụ thể trong tài liệu thì siêu dữ liệu được xác định là “dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức. Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về dữ liệu”.

Metadata phải chứa những thông tin:

  • Cấu trúc của dữ liệu
  • Thuật toán sử dụng để tổng hợp dữ liệu
  • Ánh xạ xác định sự tương ứng dữ liệu từ môi trường tác nghiệp sang kho dữ liệu

Metadata là dữ liệu để mô tả dữ liệu. Khi dữ liệu được cung cấp cho người dùng cuối, thông tin metadata sẽ cung cấp những thông tin cho phép họ hiểu rõ hơn bản chất về dữ liệu mà họ đang có. Những thông tin này sẽ giúp cho người dùng có được những quyết định sử dụng đúng đắn và phù hợp về dữ liệu mà họ có.

Tuỳ thuộc vào từng mục đích sử dụng khác nhau, từng loại dữ liệu khác nhau mà cấu trúc và nội dung dữ liệu metadata có thể có những sự khác biệt. Song, nhìn chung sẽ bao gồm một số loại thông tin cơ bản sau:

  • Thông tin mô tả về bản thân dữ liệu metadata
  • Thông tin về dữ liệu mà metadata mô tả
  • Thông tin về cá nhân, tổ chức liên quan đến dữ liệu metadata và dữ liệu

Cách sử dụng siêu dữ liệu

Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể được thể hiện ở một trong hai cách sau:
– Các phần tử metadata được chứa trong một biểu ghi tách biệt bên ngoài đối tượng mô tả;
– Các phần tử metadata có thể được nhúng (gắn) vào bên trong tài nguyên mà nó mô tả.

Trước đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tượng mô tả (được đưa vào các bộ thẻ hoặc biểu ghi CSDL), như vậy siêu dữ liệu được lưu trữ một cách tách biệt bên ngoài đối tương mô tả.

Với tài liệu điện tử, siêu dữ liệu của chúng được nhúng trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả như trong trường hợp các thẻ meta của tài liệu HTML trong tài liệu điện tử.

Trong thực tế có nhiều chuẩn mô tả biên mục mang tính chất metadata khá thông dụng đang được áp dụng như: MARC21/UNIMARC, ISO-2709, Dublin Core Metadata… các dữ liệu metadata này thường được gắn  vào phần đầu cho mỗi tài liệu điện tử được đưa vào máy chủ hoặc trên mạng internet nhằm hỗ trợ các công cụ tìm kiếm lọc ra các thông tin metadata để tổ chức thành các kho dữ liệu mà không cần dùng đến hệ quản trị cơ sở dữ liệu truyền thống. Thực tế thì ngay bản thân ngôn ngữ XML tự nó đã hỗ trợ việc hình thành một cơ sở dữ liệu toàn văn, phi cấu trúc và rất thuận lợi cho việc tìm kiếm, trao đổi và lưu trữ thông tin.

Mô tả dữ liệu

Để thống nhất phương thức mô tả tài liệu theo một khuôn mẫu thống nhất, người ta đưa ra những sơ đồ siêu dữ liệu. Vì thế hiện nay đã xuất hiện nhiều sơ đồ siêu dữ liệu khác nhau với quy định ngữ nghĩa riêng.

– Sơ đồ dữ liệu (Metadata scheme): Là tập hợp những yếu tố siêu dữ liệu được thiết kế cho mô tả một dạng tài nguyên thông tin cụ thể. Như vậy siêu dữ liệu là sơ đồ hình thức được xác định để mô tả tài nguyên thông tin cho đối tượng số hoặc không số. Thí dụ tập hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố để mô tả tài nguyên thông tin. Các nhà khoa học nhân văn đã xây dựng sơ đồ TEI (Text Encoding Initiative) để thống nhất tập hợp các yếu tố để mô tả tài liệu số đưa lên mạng hoặc đưa vào CSDL số. Các nhà lưu trữ tài liệu điện tử thì khuyến nghị sử dụng sơ đồ EAD (Encoded Archival Description: tham khảo: http://www.loc.gov/ead/) do họ đề xuất để thống nhất khổ mẫu cho lưu trữ tài liệu điện tử. EAD là một chuẩn được sử dụng để mã hóa thông tin trong các hệ thống tìm tin lưu trữ. EAD được duy trì và phát triển bởi Văn phòng tiêu chuẩn MARC và phát triển mạng – Thư viện Quốc hội Hoa Kỳ và Hội các nhà lưu trữ Hoa Kỳ. EAD được sử dụng để định nghĩa các thành phần quan trọng dùng để mô tả các tài liệu lưu trữ và tạo lập các công cụ tìm kiếm trong lưu trữ. EAD có thể được áp dụng để chuyển đổi từ các công cụ tìm kiếm lưu trữ truyền thống (trên giấy) sang các công cụ tìm kiếm điện tử (trên máy tính). Bộ thẻ EAD đầy đủ gồm có 146 thẻ được sử dụng để mã hóa các thông tin về đối tượng số cần lưu trữ trong hệ thống.

– Ngữ nghĩa (Semantics): định nghĩa các yếu tố hoặc ý nghĩa được gán cho các yếu tố siêu dữ liệu thì được gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp được quy định riêng. Ví dụ bộ yếu tố siêu dữ liệu Dublin Core chỉ có 15 yếu tố, trong đó yếu tố “Creator” – dùng để xác định là tác giả của tài liệu, hoặc yếu tố “Title” – được hiểu là nhan đề của tài liệu.

– Nội dung (Content): giá trị (dữ liệu) của từng yếu tố được gọi là nội dung. Đó chính là giá trị của mỗi yếu tố siêu dữ liệu. Nhờ các sơ đồ dữ liệu, các chương trình xử lý tự động sẽ nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào, chẳng hạn đoạn dữ liệu này được nhận biết là nhan đề, đoạn dữ liệu kia được nhận biết là tác giả của tài liệu…

Việc tạo siêu dữ liệu thường là công việc thủ công, những công cụ tự động thường có khả năng hạn chế và thiếu các tính năng quan trọng như kiểm tra tính hợp lệ. Việc bảo trì siêu dữ liệu cũng không phải là chuyện dễ dàng. Những thay đổi trong hệ thống nghiệp vụ như thu thập, sao lưu trong quá trình bảo quản, phục vụ khai thác sử dụng,…gây nên thay đổi trong dữ liệu mà chúng tạo ra, nghĩa là siêu dữ liệu cũng phải được thay đổi tương ứng nếu không có sự tương ứng đó sau này sẽ không thể đọc được dữ liệu mà ta đã lưu trữ hoặc tính xác thực không còn được bảo đảm.

Một vấn đề khác là thiếu các tiêu chuẩn để trao đổi siêu dữ liệu giữa những hệ thống khác nhau. Hiện có hai nhóm lớn đang tiến hành những đề xuất về chuẩn cho siêu dữ liệu. Một xuất phát từ Microsoft và được sự hậu thuẫn của Liên Minh Meta Data Coalition, một nhóm lớn gồm 50 nhà sản xuất và người dùng. Cả hai đề xuất này đều dựa trên công nghệ ngôn ngữ đánh dấu mở rộng XML (Extensible Markup Language) để trao đổi dữ liệu. Các nhà sản xuất phần mềm độc lập cũng đang thực hiện những mở rộng siêu dữ liệu cho XML. Một số nhà sản xuất hỗ trợ cho cả đề xuất của Meta Data Coalition và IBM/Oracle.

Tuy nhiên, giới phân tích cho biết hiện thời toàn bộ quá trình chuẩn hoá siêu dữ liệu vẫn đang trong quá trình thực hiện.

Đối với ngành Lưu trữ, việc nghiên cứu các vấn đề như: sự hình thành tài liệu điện tử hay còn gọi là vòng đời của tài liệu điện tử từ khi hình thành đến khi được bảo quản trong các kho lưu trữ; quá trình sao lưu định kỳ, bảo quản an toàn để bảo đảm rằng tài liệu lưu trữ điện tử có thể đọc được trên các thiết bị phần cứng, cũng như phần mềm sau này; quá trình phục vụ khai thác sử dụng bảo đảm tính xác thực, tính pháp lý của tài liệu điện tử,… cần phải được đầu tư hơn nữa, đặc biệt là quá trình tham gia của cơ quan quản lý nhà nước về văn thư, lưu trữ vào việc xây dựng và ban hành các tiêu chuẩn dữ liệu nói chung và tiêu chuẩn về đặc tả dữ liệu, siêu dữ liệu trong quá trình hình thành và quản lý tài liệu điện tử.