搜索引擎发展历程回顾:WWW之前的信息检索方式(2)——WAIS
(编辑:jimmy 日期: 2024/11/5 浏览:3 次 )
搜索引擎发展历程回顾:WWW之前的信息检索方式(2)——WAIS
WAIS是Wide
Area Information Service的缩写,称为广域信息服务,是一种数据库索引查询服务。 Archie所处理的是文件名,不涉及文件的内容;而WAIS则是通过文件内容(而不是文件名)进行查询。因此,如果打算寻找包含在某个或某些文件中的信息,WAIS便是一个较好的选择。WAIS
是一种分布式文本搜索系统,它基于Z39.50标准。用户通过给定索引关键词查询到所需的文本信息,如文章或图书等。
Wais是一种可以迅速、全面检索大量信息的工具。当然,这一工具仅仅针对信息的数量和类型,以及检索程序的功能而言的。Wais能检索数百个信息资源中的任何一个资源,这些资源涉及大量的各种各样的主题。Wais当然有不足之处,我们将讨论它的局限性。但是,即便在局限性范围内,Wais仍是一种功能卓越的工具。只要能熟悉使用Wais,你就会觉得它像是一组思维简单但效率颇高的图书管理人员,随时准备为你检索任何你所需要的信息。
Wais的促成动因
名字“Wais”(读作“Wayz”)代表“广域信息服务”(Wide
Area Information Service)。Wais作为Internet一项服务, 是唯一由三个商业公司(A le、Thinking
Machines和Dow Jones )启动的研究计划促成的服务。
Wais的最初设想是雄心勃勃的。该设想要求,在浩翰信息世界中,计算机能为你跟踪大量的数据,筛选这些数据,然后向你提供仅与你的要求有关的信息。该设想旨在编制出一个能起提供参考的图书管理员作用的程序,这个程序可节省你的时间,并可以访问到你也许迄今不知道的信息。
例如,假定你的报纸每天以电子方式递送,这些信息将在你的计算机屏幕上显示。假如你能告诉程序你想看什么内容,并让程序来选择和显示这些内容,这有多么理想!
再如,我想对计算机说:“每天我要求你向我显示体育新闻,不要显示商情。我想看用自动问答程序选择和显示的各种内容,但只限于看它是否提及New
York Mets, 除了在‘世界杯’赛事期间,我不想看任何足球方面的内容。噢,是的,我还想看世界新闻,但政治内容不要太多。是否有涉及飞机的内容,最好能保证有这方面的内容……”
你会这样想:让计算机程序来做这种事吧。此外,你还希望当这个程序找到一篇真正使你感兴趣的文章时,你可以告诉它不要再找相同主题的其它文章了。
当然,只要有了这样一个系统,你就不必陷于各种新闻的汪洋大海之中。任何一种能被计算机存取的数据,原则上,都能由具有判别力的计算机程序为你检索出来。
在此,可以看到Wais之所以成功的原因:A le
公司制造了具有便于使用的图形接口的个人计算机;Thinking Machines公司制造了含有许多处理器,
适合于迅速检索大量数据的计算机;Dow Jones公司经营了信息服务业。
显然,这样一个系统在有些方面是很奇妙的。你可以让计算机程序处理信息检索的一切细节。你只需要象贵客一样,什么也不用动手就能按你的要求阅读个人专用的报纸。
当然,事情总会有局限性。首先不论多么个人化,你的计算机屏幕上的一系列文章始终不能取代可平放在桌上、用眼逐页阅读的印刷型的报纸或书籍。
其次,无论计算机程序怎样迎合你的好恶,你接收的任何数据,都只是针对你所提出的问题。你自己当然可以知道什么时候想看什么,却常常不能准确地提出该问的问题。
最后,该计算机程序只能找到计算机处理过的数据,这就是很大的局限性。试想一下,在一个正规图书馆中你能获取多少信息?
你可以步入图书馆,从书架上取下任意一本书,打开并阅读这本书。虽然有时准确找出你想要的内容很麻烦,但你可以翻阅书架上的每一本书,以及目录,在可能情况下,也可以请专门的图书管理员来查找。
人们常犯的一个错误是,以为能在计算机化的图书馆目录中检索图书,就能使用计算机阅读那本书的文本。在大多数情况下,即使你在计算机帮助下找到一本书,你仍然必须真正拿到这本书后才能阅读它。
关键是,与实际的图书馆比较,将文本贮存在计算机中的图书和期刊太少太少了。
Wais的最初计划是开发一个统一化的信息检索系统,这个系统能够访问全世界的全部数据库。有些数据可从Internet中免费获得,但在人们开始有偿使用信息之后就不再这样了。
Wais的未来或多或少可以预见到,起码也能事后知晓。它不会是未来的信息工具。是的,有些人使用象Wais一样的付费计算机系统,但我们大多数人仍然依赖于老式的印刷件。
因此,就Internet而论,Thinking
Machines公司已停止提供公开传播的Wais 。 Wais的免费版本叫做Freewais,现在由名为CNIDR
(联网的信息显示和检索交换站)的机构维护。
不过,Wais对于Internet仍然是很重要的,其原因是:Wais已逐渐发展成为一个系统,该系统能提供极其重要的优质服务。
何为Wais
Wais是一项Internet服务,它能检索数百个数据库中的任意一个数据。每个数据库是一个资源。你告诉Wais使用哪一个资源,你想找什么,
你给 Wais检索的内容指定一个或多个关键词,Wais将在你指定的资源中检索各条目的全部文本,找出满足你的标准内容。这个过程叫作全文本检索。
例如,你可让Wais对着一大批资料(recipes)
并告诉它找出所有含有单词“大蒜”、“鸡”、“水稻”的资料。或者可检索1992年美国总统竞选活动中比尔·克林顿的讲演集,找出涉及“税收”、“削减”和“
承诺”的讲话。或者可以检索蛋白质位置和模型的参考文献,选出所有含单词“二氢叶酸 还原酶”的引文。或者可以检索《圣经》、《古兰经》、《摩门教徒的书》,找出所有包括单词“通奸”的章节(想一想,计算机能替你节约多少时间)。
使用Wais相当简单,你只需选择一个或多个资源,然后告诉Wais要找什么。Wais将与包含这些资源的计算机连接,并要求它们进行检索。输出将是文章或引文的清单。
Wais将向你显示这个清单,按相关程度从大到小显示条目。Wais认为有关的内容是以你指定的关键词在每篇文章中出现的频率为根据的。Wais
认为最相关的文章是关键词出现次数最多的文章。
Wais向你显示它查找到的东西,你要通读这个清单,选出你想看的条目。然后Wais将检索实际文本,并将其显示在你的屏幕上。
如果你要保留这个条目,可以告诉Wais将其存到一个文件中,或将其邮寄给自己(亦可邮寄给其他人)。 当你找到一篇与你的兴趣特别相关的文章时,可以告诉Wais对这篇文章全文扫描或部分扫描,并使用这些词作进一步的检索,这叫做“关联性反馈”。
Wais提供的服务可能是非常有用的,但仍有局限性。首先,Wais
只能在查找了你所需信息后才对你有所帮助。虽然几百个信息源听起来好像很多,但它们并不能覆盖人们可能提出的全部问题。
其次,Wais实际上检索资源中所含的每一个词,而不考虑小的常用词,如“a
”和“the”。但这仅仅是一种简单的、非上下文联系的检索方法。例如, 你可能告诉Wais检索含单词“税收”、
“削减”和“承诺”的讲演集,而这些词可能出现在文本的任何地方,例如,发表讲演的人可能说: “我们必须付出才智,以增强我们履行未来诺言的能力。”(
此句含有关键词“tax”,“ cut”和“ promise”——译注),此时我们无法叫Wais 去查找“减税承诺”的有关内容。
当Wais正常工作时,它仍然是一种功能卓越的工具,它能为你节约大量的检索时间。
【如果有兴趣了解关于Wais的更多介绍,请参考相关文章。如
http://www.lnu.edu.cn/inter/internet_dc_16.html (本文部分内容选自该网页内容)。】
下一篇:搜索引擎发展历程回顾:基于WWW的搜索引擎的诞生