| Sumario | Editorial | Entrevista | Intranet | Entre nosotros | Infovía/Internet en el IIE | Rincón de Internet | LMDS | Qué es | Multimedia | Bit recomienda |

[Página 'Rincón de internet' de Juan Noguera]

Búscando por el Ciberespacio II

En la anterior edición del "Rincón de Internet" vimos cuan útiles pueden llegar a ser los servicios de búsqueda existentes en Internet y nos centramos en los dos más antiguos pero de uso corriente todavía: Archie y Gopher. Como lo prometido es deuda, vamos a seguir el mismo hilo comentando las posteriores generaciones de servicios de búsqueda: WAIS, "Motores de Búsqueda" y Harvest. Todos estos servicios son accesibles directamente a través del "navegador" (Mosaic, Netscape, Netexplorer, etc) y, indirectamente, por medio de correo electrónico (Archie y Veronica inclusive). Esta columna se centra en el "acceso directo" a WAIS y "motores de búsqueda". La forma de llevar a cabo accesos "indirectos" y otros temas de gran interés como Harvest y "agentes" serán el motivo de discusión de la próxima columna, que cerrará el tema de "búsquedas".

Dada su gran utilidad Archie y Gopher-Veronica pronto gozaron de amplia aceptación entre la comunidad Internet, lo que animó a un grupo de empresas y asociaciones lideradas por Thinking Machines Corporation a desarrollar el servicio WAIS (Wide Area Information System) para acceder a bases de datos ("bibliotecas") por Internet. La idea de WAIS es muy sencilla. Usando una base de datos, una persona, empresa u organización, crea una biblioteca indexando información de texto sobre un tema específico, y la instala en un servidor WAIS. Cualquier usuario autorizado, desde su terminal y por medio de un cliente WAIS o un navegador convenientemente configurado (el proxi para WAIS), puede conectarse via Internet a dicho servidor y realizar una búsqueda.

Cuando se añade un documento a una biblioteca WAIS, todo su texto es indexado, generalmente palabra por palabra. Una búsqueda se realiza siempre suministrando al servidor "palabras clave" que se ajusten al tópico del que se desea información, éste devuelve todos los documentos que contienen cualquiera (una o varias) de las palabras clave. A modo de guía, cada documento devuelto va acompañado por un número de 1 a 1000 dependiendo de lo "bien" que se ajuste a la búsqueda. En general, mayor puntuación es sinónimo de mejor ajuste, pero no siempre, dado que la puntuación hace referencia al número de veces que cada una de las palabras clave aparece en el documento y no al "tema" del que deseamos información. Por ello es conveniente elegir correctamente las palabras clave, ni muy generales ni demasiado específicas.

La mayor desventaja de WAIS reside en el hecho de que alguien debe implementar la biblioteca indexando información, lo que requiere un tiempo considerable. Aun así, en la actualidad existen varios centenares de bibliotecas "públicas" en temas muy diversos, algunas de ellas bastante completas y casi todas llevadas a cabo por voluntarios apasionados en el tema que enfocan. La mayorí están indexadas en una biblioteca WAIS llamada "directory-of-servers", disponible en ftp.wais.com, a la que conviene dirigirse siempre que se inicia una búsqueda desde cero.

El interfaz WAIS esta orientado a lo que se conoce como "Lenguaje Natural", nosotros le pedimos la información en términos de forma parecida a como lo hariamos en una biblioteca, WAIS realiza la búsqueda en la base de datos de forma totalmente transparente, sin que nosotros tengamos que preocuparnos sobre como se contruye una petición a esa base de datos específica. Además, aunque las búsquedas siempre se realizan de la forma descrita (texto), WAIS puede selecionar y presentar información en variedad de formatos, desde texto a gráficos o audio/video.

Los "motores de búsqueda" o "web robots" son, hoy por hoy, las herramientas más utilizadas por los cibernautas para explorar el ciberespacio. Lo cierto es que los hay en todos los colores y para todos los gustos y preferencias idiom&aticas. Aunque técnicamente los ambos términos se refieren a cosas distintas, el primero es el código que se encarga de ejecutar una búsqueda dentro de una base de datos y el segundo es programa que "viaja" por la red indexando documentos HTML, en el ciberespacio se han generalizado a ciertos servicios cuya finalidad es la proporcionar punteros a URLs que contienen información sobre el tópico deseado.

El interfaz de estos servicios está basado en WAIS, por lo que las búsquedas y resultados obtenidos son muy parecidos a lo explicado anteriormente. En este caso las "librerias" contienen documentos HTML, en algunos casos muchos millones.

La mayor parte de "motores de búsqueda" están "abiertos" y cualquiera puede enviarles URLs a documentos HTML (normalmente páginas personales) para que los visiten e indexen (en la tabla aparece un URL que ofrece este servicio para los robots más famosos de Internet). También existen motores en los que es necesario abonar una cierta cantidad para poner información en su base de datos, para consultarla o para ambas cosas. éstos últimos suelen estar orientados a temas específicos en los que disponen de información de gran calidad, mientras que los primeros continen información de lo más variado.

Pedir documentos sobre un tópico determinado a un "motor de búsqueda" es algo que todo cibernauta acaba haciendo tarde o temprano y que requiere paciencia en muchas ocasiones. En la mayoría de los casos los documentos devueltos a una petición determinada se cuentan por miles o decenas de miles, y no siempre los que vienen con mayor puntuación son los más interesantes. Generalmente habrá que "refinar" la búsqueda un par de veces antes de obtener resultados satisfactorios. Como diferentes motores disponen de distintos índices (bibliotecas), a veces conviene probar con varios. Y no hay que desilusionarse demasiado si uno no tiene información sobre el tema de interés, tal vez otro esté repleto de ella.

En la tabla que acompaña a esta columna pueden encontarse URL a los motores más importantes de Internet y a algunos de los disponibles en España (los que conozco hasta ahora). También se citan algunas bibliotecas WAIS y URLs donde buscar información más detallada sobre los temas tratados. Personalmente, recomiendo a cualquiera que no haya usado aun un "motor de búsqueda" que lo haga y compruebe su potencial, a mi me han venido mu bien en varias ocasiones para buscar información que necesitaba.

Tabla de direcciones útiles
ServicioDirecciónComentario
Directorios de Bibliotecas WAISwais://quake.think.com:210/directory-of-serverscon WAIS o navegador
http://www.ncsa.uiuc.edu:8001/cnidr.org:210/directory-of-serverscon navegador
http://ftp.sunet.se/pub/nir/wais/directory-of-servers/ghindex.htmlcon navegador
ftp://ftp.wais.com/pub/directory-of-servers/via FTP
WAIS via Telnettelnet://quake.think.comlogin: wais
telnet://sunsite.unc.edulogin: swais
Motores de Búsquedahttp://www.lycos.com/Los más famosos
http://www.yahoo.com/
http://www.wecrawler.com/
http://www.ole.es/En España
http://www.advernet.es/ozu/
Subscrición de URLshttp://www.submit-it.com/Para que uno o varios robots indexen nuestra página personal en su base de datos

Desde aquí me gustaría señalar que esta columna esta abierta a colaboración y a críticas. Mi intención es tratar los temas de interés de la forma más eficaz posible, de modo que los artículos contengan informaci&oaacuten útil para todos, especialmente los que empiezan. Para ayudar a su elaboración está la "lista de servicio del "Rincón de Internet" (en ediciones de BIT pasadas se informaba sobre como subscribirse), también podeis contactar conmigo en juan.noguera@ieee.org.