
黑蜘蛛推荐
如何利用大型搜索引擎查寻Internet网上药学信息
back
张 宜
Internet是个全新的信息工具,并且正处于发展之中。因此,网上药学信息的覆盖范围、查寻方法,都有其不同特点,甚至不同于70年代发展起来联机检索。下面重点谈谈Internet网上的药学信息搜索。
首先,我们必须清楚,网上药学信息的提供者是谁?在现阶段防火墙技术尚有待完善的前提下,国内Internet与Intranet之间往往采取物理隔断。因此,目前对大多数国内药师而言,网上药学信息的主要来源是国内、外网站。前面已经谈到,网站是网上的虚拟药学实体,药学网站是药学实体中人、财、物三要素及管理、科研等监督、支持体系的网上映象,同时,网站也反映了整个药学实体的本来功能,是原有功能的网上延伸。网上信息是由药学实体有选择提供的。即使是一些非药学实体建立的门户性综合网站,也是对药学实体信息的综合反映。因此,我们必须了解信息源的真正主人--药学实体。
其次,我们应清楚,网上药学信息与传统载体药学信息相比所具备的独特性质;这样我们在获取网上信息时才能有所准备,不致误入歧途或无所适从。这些特点包括:
1
网上药学信息具有高变动性。
一个充满活力的网站必须是快速更新的网站,而快速更新的网站往往页面内容甚至结构多变,引用的文献一个月后也许不知所终,甚至整个网站大搬家也时有发生。目前,国内期刊对引用网上内容的参考文献格式无统一标准,我们认为一般要求注明更新日期较为可靠,并在浏览时注意页面的及时拷贝收藏。
2
网上药学信息具有待验证性。
与期刊书报不同,任何药学实体都可以在网上发布信息。毕竟,各药学实体有其自身利益。这些信息并非全部经过“专家三审”。其中有很多可能就是垃圾信息,或者错误信息甚至谣言攻击,上网药师必须要有清醒的头脑,特别是一些初次上网者,如果仍以传统的阅读专业药学期刊的习惯去认真“学习”,极有可能导入误区。与其他科技网站不同,与人民健康密切相关的药学网站应考虑到权威性,对网上药学信息,心中要有一道潜在的防线。
3
网上药学信息的及时性。
网上药学信息从速度上看,基本和广播、电视、报纸同步,又能兼有期刊可重复阅读的特点,与报纸比,网站又具有可大容量累积和分类保存的优点。特别是一些政策法规、药学新闻,网站信息往往独具优势。
4
网上药学信息的非完整性。
“网上什么都能找到”,这是一个当前的认识误区之一,与“网上什么都没有”常常在不同的阶段发生在同一个药师身上。毕竟,网站是药学实体有选择信息的网上虚拟发布区,它和局域网顶级权限相去甚远,而且,目前网站的发展也不平衡。随着时间的推移,网上药学信息的内容将越来越丰富,这是必然趋势,但终久有些“门”对大多数药师关着,对此,要有充分的思想准备。
5
网上药学信息的“三公”性。
首先说“公平”。互联网的出现,极大地改变了国内、外药师在信息获取上的不平等现象。在国内,也提高了小城镇药师信息获取的丰富程度,任何一个拥有上网计算机的药师,在免费(free)信息的获取上都是平等的。
其次说“公开”。一般而言,信息服务凝聚了高智力的脑力劳动者的辛勤工作,这样的服务往往价格昂贵,国际联机检索就是一个例子。而在互联网时代,“访问量=财富”已成为一个新的思维模式,网上不断展开白热化的“眼球争夺战”。这促使一些服务趋于免费公开。追求访问量已成为促使信息免费服务的动力之一。依靠广告,而不是依靠查寻者交费已成为一些网站的收入模式。
互联网也为一些政策的“公开”导向推波助澜。互联网使我们能通过FDA药品信息公开制度的实施,了解美国FDA就某药进行辩论的会议记录、审批报告及批复、甚至官员签名。
关于“公正”。这是每个网站在希望在网民心中留下的印象,这种地位的确立需要长时间的考验。
6
网上药学信息的双向性。
药师上网,既可以是网上信息的索取者,也可以是网上信息的提供者。提供的方法包括建立个人网站,论坛发言,参加新闻组等等,这是传统媒介所无法比拟的。这一优点甚至超过“热线电话”的双向功能,因为不会占线,不用热线电话值班员,信息的可重复阅读。这种双向性使供需信息的交流成为网上另一道风景。作为信息查寻者,可充分利用这一特点。
7
网上药学信息的易扩散性。
Internet超越了时空限制,将全球电脑用户联为一家,只要你的个人网址或者E-mail地址的短短几个字母送给对方,那么流通渠道便同时建立,附加的大量信息随之得以顺利交流,可以免去邮寄的诸多不便。与有纸媒介相比,网上的药学信息更易扩散。上网药师可以利用该扩散特点,发布求医问药公告,在短时间内高效率地获得大众帮助。
下面将分类谈谈网上药学信息的具体查寻方法。
对于新老网民,搜索引擎一直是信息搜寻中的利器。但在搜索引擎的使用中,有几点注意事项必须了解。
首先,支持搜索引擎的是一个庞大的数据库,如药品信息数据库内为各药品的特征信息,网站信息数据库内为各网站的特征信息。一般所讲的大型搜索引擎网站均为搜索“网站”的搜索引擎,如雅虎、搜狐等。其数据库内为各网站的信息。搜索的结果指向某一网站或某一网页。本节内容主要介绍这类网站搜索引擎,药品信息数据库搜索引擎放在具体网站中介绍。
因为搜索引擎的基础是数据库,其搜索范围便限制在这些数据库之中。以网站特征为组成元素的数据库是否全面、准确,决定了基于该基础的搜索引擎的网站是否权威、准确。但目前的客观事实是,每天都有无数网站淘汰、新生。现阶段尚无一家搜索引擎收集了所有的网站信息。所以采用搜索引擎检索,其搜索范围只代表该引擎的数据库范围,而不是整个Internet,只是整个Internet网络中很小的一部分,这也是为什么会有如此多搜索引擎网站共存的实际原因。另外还有一点,即使某网站已被收入某搜索引擎,因为数据库内容所限,并不代表该网站所有内容可被查到,也有查漏的可能。
另外网站要被搜索引擎收录,需主动申请或推荐,并获得同意,从申请到收载有一滞后期。个别一些超大型搜索引擎网站重点并不在药学方面,往往反应迟钝,或考察期太长,或考察者并非药学专业。因此,大量新生甚至老牌药学网站有可能被遗漏。
强调上述观点的目的是希望上网药师知道,不要因为采用了某个著名搜索引擎网站,却没有查到目的线索,便产生疑虑,对网上信息的丰富性产生怀疑,只有对搜索引擎网站正确认识并正确定位,才能在引擎的使用中得心应手,使这一利器的功能得以充分发挥。
通过上述介绍,我们可以得知,大型搜索引擎网站在查寻药学信息方面最大的应用是根据目的线索,找到与之相关的网站或网页。这类大型网站基本上都有2个查寻途径:关键词搜索和分类列表。关键词搜索一般大同小异,输入查寻词即可。而对分类列表的分析可以对各搜索引擎网站核心和基础的部分→数据库信息有个透析的了解。以下侧重于药学相关部分,分别作个介绍。
一、中文简体类
(一)搜狐 http://www.sohu.com
其中与药学关系较密切的内容位于“卫生与健康”中“药物”这一栏目。
(二)中文雅虎 http://cn.yahoo.com
其中与药学关系较密切的内容位于“健康与医学”中“药学”这一栏目。
(三)网易
http://www.yeah.net
其中与药学关系较密切的内容位于“医疗健康”中“药学”这一栏目。
(四) 新浪搜索
http://search.sina.com.cn
与药学相关的网站主要分布在“医疗健康”栏目中。
(五)找到啦搜索
http://search.zhaodaola.com
与药学相关的网站主要集中在“医疗健康”栏目中“药学”部分
(六)中华网搜索 http://search.china.com
与药学相关的网站主要集中在“健康与医药”栏目中“药学”部分
(七)搜索客 http://www.cseek.com
与药学相关的网站不太集中,主要分散在“医疗健康”栏目
(八)北极星
http://www.beijixing.com
与药学相关的网站分散在“医疗与社会福利”栏目
(九)常青藤 http://www.tonghua.com.cn
该搜索与药学相关的网站比较集中,位于“医疗健康”栏目中的“药学”部分
(十)263搜索 http://search.263.net
与药学相关的网站主要集中在“医疗保健”栏中的“药局”部分
(十一)悠游搜索 http://www.goyoyo.com
与药学相关的网站集中在“搜索引擎”-“医疗保健”-“医药”栏中
其他尚有许多简体中文稿搜索引擎,可供参考。如:
1608:
http://www.1608.com
3721: http://www.3721.com
梦想家:
http://search.dreamer.com.cn
欧姆龙:
http://www.omron.online.sh.cn
无网:
http://pccms.pku.edu.cn:8000/gbindex.htm
视讯中文:
http://www.gdcatv.com.cn/internet_2/search/search_china/index.html
司南:
http://www.yippee.com.cn
/
我是野虎:
http://www.5415.com
/
二、中文繁体类
(一)茉莉之窗 http://www.jansers.com
(兼有中文简体)
与药学相关的网站集中在“保健”栏中“药物”分类中
点击其最后一个分类相当于进行一次模糊查询,指向的不是网站列表,而是一个搜索结果。
(二)香港世页 http://www.ipoic.com.hk
(兼有中文简体英文)
与药学有关的网站位于“保健”类下,点击最后分类得模糊搜索结果。
(三)COO台湾索引 http://www.coo.com.tw
与药学有关的网站位于“医疗”类中,(模糊搜索结果需限定)。
(四)4个C http://www.4cc.cc
其中与药学有关的网站位于“营业”-“医药”-“西药房”中
(五)天下游
http://www.iearthbound.com (兼有英文)
与药学相关的位于“健康医疗”栏目
(六)Excite中文 http://Chinese.excite.com/index.b5.dcg
(兼有英文、中文简体)
这是一个无分类的引擎,但其中数据库庞大、更新及时。
三、英文搜索引擎
(一)yahoo
http://www.yahoo.com
其中与药学有关的部分位于health→pharmacy
与药学有关的网站分类位于health→pharmacy
与药学有关的网站位于health→pharmacy栏目下
与药学有关的网站位于health→pharmacy栏目下
与药学有关的网站分类位于health→pharmacy栏目
这一个搜索站点栏目与lycos栏目一致,但hotbot增加了许多下拉式菜单,大大强化了搜索功能。
这是一个无分类的引擎、搜索前应点击Language,划定被搜索网站所用语言。
四、关于搜索引擎的评价和使用指南
对中文简体、繁体和英文搜索引擎及其中药学信息有个大致的了解后,可以对搜索引擎的使用有个评价和小结。
(一)搜索引擎的历史
1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式,而在同一年还出现了另外一个信息系统,这是我们所称之为的GOPHER。而最早的真正意义上的搜索引擎是lycos,创建于1994年春天,当时Michacl
Mauldin将John levitt的spider程序接入到其索引程序中。Yahoo!也是在当年成立的。而NCSA
、Mosaic出现在1993年,Netscape出现在1994年。
今天,搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提供各种网络资源,不仅提供网站搜索的服务,涉及面越来越广,也越来越有用。
(二)搜索引擎的现状
当今搜索引擎的发展,其方向遵循情报学所要求的全面、精确、有效三大目标,其中以英文搜索引擎发展迅速、遥遥领先,但离这三大目标仍有相当距离。因此,多个引擎并立的现状将持续一段时间,以待全面积累、分化或技术突破(如P2P技术的出现),中文引擎(繁体)在99年曾独领风骚,但近年,中文简体引擎后来居上,因为有爆炸式急剧发展的大陆网站的加盟,中文简体引擎无论从数量和质量上,均令人刮目相看。中文简体引擎在查询方式上一般有关键词搜索和分类搜索2种。这种风格接近于Yahoo模式。英文Yahoo注重于网站分类归总服务。而中文繁体引擎门户网站难觅分类搜索之芳踪,基本为关键词搜索,有许多著名的中文繁体搜索引擎门户网站在进入2000年后悄悄关闭,不能启用,这与中文简体引擎的急剧膨胀形成强烈反差。英文搜索中侧重于搜索数据库的有Alta
Vista及Exite等,这可能是繁体中文搜索引擎的主要模板之一。
(三)关于搜索引擎的数据库维护原理
搜索引擎的数据库资源由用户提供的登录信息组成,他们还主动地使用其“Web
crawlers”“Spiders”或“robots”程序搜索因特网并将搜索到的网页信息归入其索引数据库中。这些程序根据网页链接进行搜索,如从一些服务器上的链接表开始,顺着这些链接去发现新的网页并加入数据库。这样,搜索引擎也倾向于先搜索一些流行或大型的网站,这些网站提供大量的链接,web
crawler在找到一个网页后,将其标题及URL存储并返回数据库或对HTML源代码进行分析后归总返回数据库。网站所有人也可以通过在线登录提交网址,登录成功的时间一般在6到8周左右。如果你的网站更新太慢,一个站点登录成功后,可能会在2到3个月后便消失在搜索引擎中,而大多数搜索引擎都会定期对数据库中的URL进行更新情况的复核。
(四)提交检索词时的字母大小写问题
这种情况发生在英文引擎中,如果你拿不定注意有无影响,就全部用小写吧。一些搜索引擎的创办人曾有一个统计,人们习惯全部采用小写检索词的占80%以上,故引擎设计时考虑到了这一点。所有大型搜索引擎中只有2个引擎对大小写敏感,它们分别是Altavista和GO。故对这2个网站而言,采用小写检索词可能更全面些。
(五)了解搜索的基本数学规则
为了使搜索更准确,一些基本的搜索的数学规则必须清楚。查询条件越具体越好,具体规则如下:
十A
必有A,搜索结果中必须包含你所搜索的词的全部而且这个词是合并出现,不允许分散出现。如查阿昔洛韦,可能会出现带“韦”或“昔”的结果。而用+阿昔洛韦,则阿昔洛韦总是同时4个字出现。+阿昔洛韦
+疱疹,则两者同时出现
-B
必无B,希望搜索结果中不要出现另一不感兴趣的主题,如
+阿昔洛韦 -疱疹,则出现结果与疱疹无关。
“A
B C” 三词相联,同时出现。如查Pharmceutical care,可能出现仅与Pharmaceutical或仅与
care有关的结果,而 “Pharmaceutical care”则为同时紧联出现,可精确限定搜寻结果。
上述规则可以联合应用,并适用于大多数搜索引擎。
(六)搜索常见名词解释:
Boolean Search:通过使用and,not及or等命令,指定包含或排除某关键字的文档。
Concept
search:概念搜索,按关键字的概念或含义进行搜索,而非查找包含此关键字的文件。
Full-text
Index:全文检索,包含目录中所有文档的每个词的索引。
Fuzz
search:模糊搜索,当关键词不完整或拼写错误时,仍能进行相应的搜索。
Index:索引,由搜索引擎软件产生的可搜索目录,也称为“Catalog目录”,常用于同意词搜索。
Keyword
Search:关键字搜索,对含用户指定的关键字的文件进行搜索。
Phrase
search:短语搜索,对含用户指定的关键词(短语)的文件进行搜索。
Precision精确度,搜索引擎查询结果列表的级别。查询结果与条件越符合,表示精确度越高。
Query-By-Example,按范例查询,用户指示搜索引擎对与某个具体文档相类似的文档进行搜索,也称为相近搜索结果。
Recall:搜索结果返回率,与精确度相似。
Relevancy:相关性,文件中与用户查询的搜索条件相符的信息越多,它的相关性就越高。
Spider:蜘蛛,是搜索引擎用来查找网页并将其加入索引的一种软件。
Stemming:延伸搜索条件,指搜索引擎可将搜索关键字进行延伸。
Stop
word:停顿词,指文件中出现的连词、介词、冠词等并无太大意义的词。
Thesaurus:同意词列表,当查询不到与某个关键词相关的文档时,搜索引擎会对其同意词进行搜索。
Term
Frequency:搜索条件频率,缩写是TF,指一个搜索条件在某个文档中出现的次数。
网上的药学世界是高速变动的,其中的药学信息也处在高速变动之中,如何准确快速捕捉有效的药学信息,搜索引擎的巧用将是重要手段之一。