Aunmas_ciencia_015
3 Junio 2002
Revisado y actualizado a Abril 2008
Juan Chamero, Editor Jefe de aunmas.com
Fuente 1: Scientific American
Fuente 2: W3C Consortium
Fuente 3: The Semantic Web, Scientific American, Mayo 2001
Fuente 4: Darwin Ontology
La Semántica de la Web
El Proyecto W3C en cuanto a materialización de la WS, Web Semántica
En la figura se muestra una serie de “caminos o cadenas semánticos” de un Mapa del Arte en el Mundo extraído por agentes de la Web “tal_como_es”, dentro de la Ontología Darwin. El mapa tiene 13 niveles semánticos desde su raís "arte" a los "nodos" y "hojas". Rigoletto como “nombre” de una Ópera es una cadena semántica de 11 niveles a partir de la “raíz”. Los ejemplos corresponden a un prototipo real obtenido en Agosto del año pasado, una muestra del cual puede bajarse de Intag.org. Una vez “mapeada” la Web todos los documentos de arte podrían ser catalogados en base a esta estructura semántica.
¡A Dios lo que es de Dios y al César lo que es del César!
Ya aparecen los primeros síntomas de agotamiento en el ambicioso proyecto de la WS, Web Semántica tal como la imaginaba su creador TBL, Tim Berners Lee. El ser humano y en particular su mente es demasiado compleja para ser empaquetada en algoritmos y mucho menos en algoritmos “duros”. En Internet, modelo de lo que puede hacer la tecnología y en cierto modo modelo de sociedad, se han dado casos de éxito en proyectos de muy alta complejidad cuales fueron por ejemplo el Protocolo TCP/IP y la estandarización de las comunicaciones.
Para ello se elaboró el clásico Modelo OSI de siete capas o “layers” (ver más abajo) que median entre el “hombre” y la “máquina”. Hoy es ya una realidad y los usuarios pueden realizar las más complejas aplicaciones informáticas sin necesidad de conocer ni la fisiología del modelo ni sus capas. Ahora bien, si lo que ahora se quiere en la WS es algo equivalente entre el “hombre” y “La Web”, la cosa es ya muchísimo más compleja, posiblemente en varios órdenes de magnitud. En términos de la Teoría de la Complejidad diríamos que el modelo OSI era de nivel 10 “elevado a la” 15 mientras que éste último sería de nivel 10 “elevado a la” 19 y estos números no son arbitrarios.
La razón fundamental es que el software es en general mucho más complejo que el hardware. De los siete niveles del OSI cuatro y “medio” pueden ser asimilados a hardware mientras que en el caso de la WS, ya sea en el modelo original de TBL o en más recientes modelos, estaríamos hablando de al menos 8 niveles o capas de las cuales prácticamente todas son de software. Además en el modelo OSI no se hacen suposiciones sobre significados ni sobre validez, confianza o validación de la información mientras que en el modelo de la WS eso es fundamental con el agravante que el ser humano, en su gran mayoría, excepto una muy reducida clase de “autoridades”, usa una lógica extremadamente ambigua y aún poco conocida.
Mi humilde impresión al respecto de este acuciante tema es que el proyecto W3C está encaminado hacia el estancamiento en cuanto a resultados concretos tal como lo imaginó TBL. Lo veo como reeditando las complejidades excesivas a que se vio obligado el Modelo Tolomeico de los epiciclos para poder explicar los desplazamientos de los cuerpos celestes en el cielo.
Con esto no quiero significar que el esfuerzo del Consorcio W3C ha sido en vano, todo lo contrario. Ha servido para fortalecer enormemente el puente entre lo difuso y lo exacto, entre el hombre y la maquina en sus formas más sofisticadas: "hombres en red" versus "maquinas en red". Se han creado técnicas valiosísimas que van a encontrar aplicación, todas ellas, como ha ocurrido en el pasado con casi todas las técnicas lógico matemáticas creadas para explicar, con o sin éxito, lo inexplicable o incierto. Otras limitaciones vendrán: a) por el propio colapso que está actualmente experimentando la Web, que se está “colmatando” con información “basura”; b) por la burocracia informativa mínima necesaria para acceder a los niveles superiores -digamos de la red de maquinas hacia la red de personas-; c) por los “agujeros” de vulnerabilidad que naturalmente acarrean la masa y complejidad de los sistemas.
La estrategia ideal quizás sea la creación y consenso de una ontología del conocimiento "tal_como_se_muestra" en la Web y a partir de ella ir a lo sumo dos niveles hacia arriba, hacia las personas, y dos niveles hacia abajo, hacia la maquinas, y en lo posible mediante agentes.
La WS, Web Semántica
La primera mención al concepto Web Semantic, por Semántica de la Web es del creador de la Web, TBL, Tim Berners Lee, en el artículo “The Semantic Web” publicado el el Scientific American. Debemos primero preguntarnos qué es “semántica”. Una acepción es el estudio del “significado” de las comunicaciones y otro el estudio de la interpretación de los signos dentro de determinadas circunstancias y dentro de un contexto dado. Ambas definiciones nos conciernen para a su vez interpretar nosotros el significado de Semántica de la Web, donde hoy interactúan entre 800 a 1000 millones de personas en un espacio donde se alojan entre 10.000 a 15.000 millones de documentos activos. Véase Darwin Ontology, la Ontología Darwin.
La entidad que centraliza las más destacadas realizaciones en WS es W3C, The World Wide Web Consortium, o Consorcio 3W en español. Debe interpretarse a la Web Semántica como una extensión de la Web destinada a satisfacer al máximo las necesidades cognitivas de la gente –y de las “máquinas” y “agentes” a su servicio-.
El porqué de una WS
Ya en la Ontología Darwin arriba mencionada se plantea la necesidad de ir más allá de lo descubierto por Claude Elwood Shannon, en su Teoría de la Información, tratando de dar cabida a las diferencias sutiles existentes –o que se intuyen- entre dato, información y conocimiento. Todo el mundo aprende a usar y a diferenciar estos conceptos pero hasta ahora nadie ha presentado una teoría coherente que las diferencie y relacione: dato es la materia prima con la que trabaja la Teoría de la Información, Información es lo que reduce nuestra incertidumbre de acuerdo a Shannon y conocimiento es, por ahora, “algo más”.
Entremos ahora en los nuevos conceptos y herramientas elaboradas por W3C y sus Grupos de Trabajo:
XML, Extensive Markup Language, es un modelo de sintaxis para definir la estructura del contenido de “documentos” sin preocuparse del significado del mismo. A partir de esta sintaxis pueden crearse lenguajes de aplicación, tales como: XHTML, MathML y MusicML que serían como en el caso del HTML, editores-facilitadores, de matemáticas y de música respectivamente. A su vez, el propio XML, más general y abstracto, puede ser usado para definir a esos lenguajes derivados;
XML Schema, es un lenguaje que provee y restringe la estructura y el contenido de elementos contenidos dentro de documentos XML;
RDF, Resource Description Framework, que podría traducirse al español como Plataforma de Descripción de Recursos, es un lenguaje para modelar datos como red de objetos interrelacionados y a su vez expresado en sintaxis XML;
RDF Schema, es un vocabulario para describir las propiedades y clases de recursos RDF con una semántica particular para las jerarquías generalizadas de tales propiedades y clases.
OWL, Ontology Web Language, que podría ser la raíz del árbol lógico de la Web Semántica. OWL, Ontology Web Languages, es una familia de lenguajes de representación del conocimiento. Al hablar de ontología nos estamos refiriendo a ontologías de ciencias de la computación y de las comunicaciones. Téngase en cuenta que estamos hablando solo de lenguajes, es decir, falta definir o crear la o las ontologías adecuadas. OWL está íntimamente relacionado con la Lógica Descriptiva por DL, Descriptive Logic en inglés. Una ontología Web se define por un conjunto de Axiomas –o Conjeturas- que se cumplen para un conjunto de individuos, denominados “clases”, determinando a su vez el conjunto de relaciones permitidas.
Las más recientes especulaciones hablan de la trilogía suficiente OWL, RDF, XML, para definir la Web Semántica y en esa línea se estaría trabajando para poder concretar al menos la Sistematización de la Publicación Científica.
Complementariamente podríamos necesitar:
SPARQL, lenguaje de consulta y a la vez protocolo aplicables a los recursos Web de la Web Semántica y que incluye: RIF, Rule Interchange Format, la capa de Reglas de la Web Semántica; Servidores especialmente adaptados a RDF y a SPARQL; Documentos con hipervínculos y “meta tags” que permitan la generación automática de hipervínculos semánticos;
Common metadata (Meta Datos Comunes): Vocabularios y mapas (basados en particulares ontologías) que permitan a los creadores de documentos saber como “marcar” en forma óptima sus documentos;
Agentes que realicen las tareas;
Servicios Web, fundamentalmente operados mediante agentes, que suministren información especial a los propios agentes, por ejemplo “pointers” a bases de datos y a interfases del tipo API.
Proyectos que se están llevando a cabo
Neurocommons, una base RDF abierta desarrollada por “Science Commons”, extraída de las mayores base de datos de Ciencia de la Vida, enfocada a Neurociencia. Se puede acceder a ella mediante SPARQL;
FOFA, Friend of Friend, Amigo del Amigo, que describe relaciones de amistad entre la gente y agentes, expresado en RDF;
SIOC, Semantically-Interlinked Online Communities, provee un vocabulario de términos y relaciones que modela datos dentro del espacio Web. A saber: foros de discusión, weblogs, suscripciones blogroll/feed, listas de email, bookmarks compartidos, galería de imágenes,..
SMILE, Semantic Interoperability of Metadata and Information in unLike Environments Massachusetts Institute of Technology, proyecto conjunto conducido por las Bibliotecas del MIT y MIT CSAIL que busca optimizar la interoperabilidad entre recursos digitales, esquemas/vocabularios/ontologías, meta datos, y servicios.
Linking Open Data, es un esfuerzo comunitario para crear Datos RDF abiertos e interconectados en la Web. Este proyecto es auspiciado por SWEO, Semantic Web Education & Outreach Interest Group, grupos externos interesados en la educación sobre la Web Semántica.
Referencias:
Congreso sobre WS 2008;
Sitio del Congreso sobre WS 2008;
El Modelo OSI de siete capas
7. A nivel “humano” estaría la séptima y última etapa de una comunicación hombre máquina denominada “Capa de Aplicación”, por ejemplo un proceso FTP para bajar o subir un archivo o un proceso de email empleando por ejemplo POP3 para recibir correo, o simplemente se pide una página Web mediante HTTP;
6. Le seguiría la “Capa de Presentación” en la cual se realizarían las conversiones de código pertinentes, por ejemplo de EBCDIC a ASCII o se serializan objetos, preparando los datos y encapsulándolos para ser enviados luego en paquetes de sesión;
5. La “Capa de Sesión” establece la conexión y el diálogo entre computadoras y se adapta al sistema de transmisión: operación full-duplex o half-duplex o simples quedando bajo su control las negociaciones necesarias para actualizar, terminar, pedir repeticiones, permisos, etc;
4. La “Capa de Transporte” suministra las transferencia transparente de los datos, controlando la segmentación y de-segmentación de mensajes y el control de errores, así como de responsabilizarse de la retransmisión de lo que falla. Los protocolos usados en esta capa son el TCP, Transfer Control Protocol y el UDP, User Datagram Protocol;
3. La “Capa de la Red”, es responsable de transferir secuencias de datos de longitud variable a sus destinos via una o más redes, a la vez que mantener la calidad del servicio. Proporciona funciones de “ruteo”, fragmentación y rearmado reportando errores. La mejor representación de esta capa es el Protocolo IP, Internet Protocol siendo responsable de la fragmentación de los datos en paquetes lo suficientemente pequeños que el sistema pueda aceptar.
2. La “Capa de Ligazón de Datos”, suministra los medios para transferir datos entre redes y detectar y posiblemente corregir errores que puedan haberse generado en la capa física inferior. Debe tenerse en cuenta que puede tratarse de una conexión de “punto a punto” o de punto a red o entre redes LAN o WAN.
1. La “Capa física”, define todas las especificaciones físicas y eléctricas de todos los dispositivos: los pins, voltajes, especificaciones de cables y cableado, hubs, repetidores, adaptadores de red, adaptadores de buses, etc. Sus funciones son de conectividad, de modulación y de transformaciones entre analógico y digital en ambos sentidos, representaciones digitales, etc.
Modelos de WS de siete y de 9 capas
I- Modelo de siete capas original de TBL, año 2001
II- Un Modelo de nueve capas recientemente sugerido
El primero es el clásico modelo de siete capas sugerido por TBL mientras que el segundo es uno presentado en el sitio de blogs dedicado a la Web Semántica SemanticFocus,com.
Notas aclaratorias y reflexiones
URI, Uniform Resource Identifier, una generalización del conocido URL;
Unicode, Universal Standard Coding System, sistema universal de codificación con capacidad para manejar hasta un millón de caracteres diferentes.
Los demás términos ya los hemos tratado en este artículo. Las capas más polémicas y en las cuales poco se ha hecho hasta ahora son las dos superiores, las más cercanas al hombre. En mi humilde opinión a la Web hay que aceptarla "TAL_COMO_ES", un modelo de democracia cuasi anárquico - ¡gracias a Dios! para los creyentes y ¡gracias al sentido común! para creyentes y no creyentes. Como tal combina en armoniosas dosis ambiguedad y precisión, genialidad e idiotez, honestidad y perversidad. En su seno hay "autoridades" muy importantes que van conformando evolutivamente el conocimiento establecido que bulle en trillones de interacciones de la gente, todas respetables, todas aportando infinitésimos de conocimiento y verdad.
Por "trust" y "proof" entedemos un modelo orientado a aceptar lo "confiable" y en lo posible a "validarlo", algo deseable en sistemas relativamente cerrados y autónomos, como por ejemplo las corporaciones, pero no para ese gigantesco foro y laboratorio humano en que hoy se ha transformado la Web. La Web necesita de una ontología que tenga en cuenta esta realidad. Todos, absolutamente todos los documentos Web deben ser considerados, estén bien o pésimamente escritos y digan lo que digan.
Ontologías que prioriten demasiado al orden establecido podrían resultar inadecuadas y ajenas a la realidad de la Web. Un ejemplo: Bajo la Ontología Darwin se realizó un prototipo para extraer de la Web el arte TAL_COMO_SE_MUESTRA actualmente. Para gran sorpresa lo que se encontró difería bastante de lo que ciertas "autoridades" opinaban, que desconocían por ejemplo las "artes callejeras" tales como el "street dance" y el "graffiti" e ignoraban la "moda", el "arte matemático" y el "arte culinario".
El proyecto W3C puede llegar a se exitoso dentro de lo que podríamos llamar "La Web de la Creencia" o "Web of Believe", con documentos e interacciones susceptibles de ser manejadas por agentes y que puedan navegar fluidamente a través de las capas.
Semántica de la Web
artículo original de Junio 2002
El poder semántico de la Web será una realidad cuando la gente cree programas agentes que coleccionen contenido de diversas fuentes, lo procesen e intercambien resultados con otros programas. La efectividad de estos agentes inteligentes crece exponencialmente a medida que crece el contenido posible de ser leído por máquinas.
|
Fuente: Scientific American
|
Una importante característica del funcionamiento autónomo entre agentes es el intercambio de pruebas escritas en un lenguaje unificado. Como el usado en las ontologías computacionales. Supongamos que la información de contacto de la señora Patricia ha sido ubicada en un servicio online ubicado en Madrid. Naturalmente Usted deseará confirmar esa información y su computadora requerirá una prueba, pregunta que sería traducida en el lenguaje unificado.
Otra característica crucial serán las firmas digitales las cuales serán bloques encriptados que los computadores y sus agentes pueden usar para verificar si una determinada fuente es o no confiable. Todo esto debe hacerse sin pretender cambiar la apertura y liberalidad de la Web, es decir, ¡con la Web tal como es!.
Esto nos conduce a lo que se conoce como "Oferta de Servicios Web" estándar que solo sería viable con un lenguaje semántico universal mediante el cual describir los más diversos servicios.
Esto, que a primera vista puede parecer inflexibilidad es todo lo contrario. Agentes de productores y consumidores podrán alcanzar un alto nivel de comunicación intercambiando "ontologías", las cuales suministran el lenguaje apropiado para la discusión.
Un proceso creativo típico podría ser la creación de cadenas de valor en la cual subconjuntos de información pasan de agente en agente y cada uno añadiendo valor para construir el producto final requerido por el usuario final. No debe cometerse el error de crear sofisticadas cadenas de valor a partir de demandas pues para ello son más adecuados los agentes inteligentes.
Poniendo todas estas piezas juntas podemos imaginar el siguiente escenario: Pedro y Lucía tiene sus respectivos agentes a los cuales se les delega la búsqueda de servicios de publicidad. Sus respectivos agentes pueden establecer contactos con otros agentes en forma libre buscando servicios, ofertas en cuestiones de servicios, seguridad, precios, confiabilidad, etc. Finalmente las cadenas de valor son reducidas a los requerimientos relativamente estrechos fijados por Pedro y Lucía.
|
|