Metadatos en la Web semántica: lenguajes de marcado para la organización de sistemas de información

Posted on Actualizado enn

Cuando hablamos de metadatos hacemos referencia a un amplio conjunto de lenguajes, casi todos ellos elaborados con el metalenguaje XML, con gran capacidad para “estructurar” y “describir” recursos [1]. Este post se centra en el estado de la Web Semántica y en una breve descripción de aquellos lenguajes elaborados con el fin de facilitar metadatos que permitan la “descripción” de recursos facilitando así su identificación, uso, gestión, evaluación, recuperación y búsqueda.

 ¿Qué entendemos por recurso? El World Wide Web Consortium (W3C) y “The Internet Engineering Task Force” (IETF), lo definen como: “… cualquier cosa que tiene identidad. Por ejemplo un documento electrónico, una imagen, un servicio, y una colección de otros recursos. No todos los recursos tienen que ser recuperables a través de la red; por ejemplo, personas, corporaciones, y libros de una biblioteca son también considerados recursos.”[1]

En diciembre de 2007 la revista Scientific American publicó el artículo “The Semantic Web in Action” (Lee Feigenbaum et al., 2007) donde se presentaban diversos estudios de caso y el grado de avance y potencial de las tecnologías de la Web semántica hasta la fecha.

No obstante, es importante señalar que la existencia de esta tecnología no supone la existencia de la Web semántica [1]. Aun hay pocas implementaciones reales que soporten las tecnologías de la Web semántica, especialmente si se requiere la capacidad de una máquina para tomar una decisión o adaptarse a un contexto. Además, cuando estas tecnologías han sido desarrolladas por instituciones y por lo tanto para fines específicos no resuelve problemas “universales” con respecto a acceder, procesar y compartir la información.

Pero existen iniciativas que muestran un acercamiento a la web semántica como es el caso de FOAF (Friend Of A Friend) que permiten la descripción e identificación mediante RDF de sus usuarios; la aparición de las folksonomías, donde los usuarios participan en las tareas de descripción y etiquetado; o la creación y uso de canales de contenido sindicado con RSS o Atom (tecnologías también RDF), entre otras.

Conceptos relacionados

XML (eXtensible Markup Language) que en español es Lenguaje de Marcado eXtensible, permite “estructurar” y “describir” un documento mediante el uso de etiquetas. Por otro lado, denominamos lenguaje extensible, o metalenguaje, a aquel que nos permite crear nuestros propios lenguajes de marcado, especificando la sintaxis y los requisitos que deben cumplir los lenguajes creados con él, y que permitirán organizar el contenido de nuestros documentos.

RDF (Resource Description Framework) tiene por objetivo expresar el significado de las estructuras descritas en XML, y facilitar así la interoperabilidad entre diferentes modelos de metadatos.

OWL (Web Ontology Language) es el lenguaje de marcado recomendado por el W3C para la definición de ontologías. Se construye sobre RDF, y dispone de un vocabulario y una sintaxis más potente que la de éste.

SKOS (Simple Knowledge Organisation System) es un lenguaje formal, sencillo y extensible para la creación de esquemas de conceptos como tesauros, clasificaciones, listas de encabezamiento de materias, taxonomías, listas de términos, glosarios, o cualquier otro tipo de vocabulario controlado.

Este lenguaje es más secillo que OWL, aunque con una capacidad semántica más limitada, y surge como una iniciativa del W3C ante la constatación de la importancia y ventaja que supondría la conversión de los tesauros y otros esquemas de organización del conocimiento a lenguajes formales propios de la Web semántica [1].

RSS y Atom son dos especificaciones para la descripción de contenidos sindicados. La sindicación de contenidos permite la notificación o envío de información recientemente publicada en una web a aquellos usuarios suscritos a un canal de este tipo de contenidos (se les conoce como canales de contenido sindicado o canales RSS).

Dublin Core es una norma internacional que establece un conjunto de metadatos para la descripción de recursos, y cuya principal característica es su sencillez.

Actualmente Dublin Core (DC) establece dos posibles usos de sus elementos, posibilitando descripciones tanto mediante el “Simple Dublin Core” como del “Qualified Dublin Core”. El primero sólo se utiliza en descripciones sencillas, y hace uso de los 15 principales elementos de Dublin Core (Dublin Core Metadata Element Set, 2008). El segundo, “Qualified Dublin Core” (DCMI Terms, 2008), permite la utilización de más de 50 propiedades o elementos, que además pueden ser ampliadas (extendidas) por el usuario.

La tendencia actual de Dublin Core es motivar a todos sus usuarios para que hagan uso del “Simple Dublin Core” frente al “Qualified Dublin Core”. Este proceso se conoce como Dumbing-down, y su objetivo es reducir la complejidad de Dublin Core y potenciar su uso, sobre todo en el nuevo escenario que es la Web semántica.

DigiDocMetaEdit: una herramienta online para la generación de metadatos

DigiDocMetaEdit es un extractor de metadatos elaborado por el Laboratorio DigiDoc. Se ha desarrollado como una aplicación libre conforme a la licencia GPL. Consta de dos módulos principales:

  • Módulo de extracción: El objetivo de este módulo es la extracción de los contenidos de las etiquetas de la página a editar. Este módulo cuenta con un listado de metaetiquetas a extraer, metaetiquetas que son fácilmente ampliables cambiando el código fuente. Es decir, DigiDocMetaEdit busca las etiquetas de los documentos html, y utiliza su contenido para generar metadatos en diferentes formatos. Este módulo está programado en Perl.
  • Módulo de presentación y edición: el objetivo de este módulo es presentar las metaetiquetas extraídas en formularios con el objeto de permitir su edición y generar los fragmentos normalizados conforme a diversos estándares. En su primera versión el código se normaliza en función de los estándares XHTML 2.0, RDF 1.0, Dublín Core, y Microformatos Dublín Core. Este módulo se ha programado utilizando Javascript y HTML, y es consultable en castellano, catalán e inglés.

Estudio caso

Semantic Web Case Studies and Use Cases
Este sitio web reúne estudios de casos e incluye la descripción de los sistemas que han sido desarrollados dentro de una organización y que ahora son usados ya en un ambiente de producción. También se puede encontrar ejemplos de organizaciones que desarrollan prototipos pero que aun no están en funcionamiento.

Documentos consultados

  1. Rafael Pedraza. Artículo 3.7. Metadatos en la Web semántica: lenguajes de marcado para la organización de sistemas de información [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Documentación Digital. Barcelona: Área de Ciencias de la Documentación. Departamento de Comunicación Audiovisual. Universidad Pompeu Fabra, 2009. http://www.documentaciondigital.org

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s