google高手写的心得体会,非常有用

上一篇 / 下一篇  2006-10-03 10:11:09 / 天气: 晴朗 / 心情: 高兴 / 个人分类:文献检索

1、前言

我是在2000年上半年知道GOOGLE的。在这之前,我搜索英文信息通常用AltaVista,而搜索中文信息则常用 Sina。但自使用了GOOGLE之后,它便成为我的Favorite Searchengine了。这也得感谢新浪网友曹溪,因为当初正是因为他的大力推介,才使我识得了GOOGLE。

记得1996年夏季的时候,当我第一次接触Internet,便被扑面而来的魔力征服了。那种天涯咫尺的感觉,真是妙不可言。在经历了疯狂的WWW冲浪和如痴如醉的BBS沉迷之后,我意识到Internet对我影响至深的还是在于学习方式的变迁。

如何来描述这种变迁呢?以前的学习,一般需要预先在肚子里存储下足够的知识,必要时,就从海量的信息中提取所需的部分。这种学习方式造就了很多“才高八斗,学富五车”的大才子。但是,到了信息领域大大超出“四书五经”的新时期,预先无目的的吞下海量信息的学习方式就有些不合时宜了。比方说,我们到了大型的图书城,往往有一种不知所措的感觉。旧有的学习方式需要变更以适应这个信息爆炸的年代。目的明确的去学习,即先知道要学什么,然后有目的的去寻找答案,这种方式看上去更加有效率。我不妨把这称为“即学式”,相应的,旧有的称为“预学式”。 不过,“即学式”的实施是有前提的。首先,要求学习者拥有一个包罗万象的信息库,以供随时抽取各种目的信息;其次,是需要一个强劲的信息检索工具,以便高效率的从信息库中提取信息。很明显,Internet可以充当那个海量的信息库,而搜索引擎,则正是寻找光明之火的绝好工具。

“公欲善其事,必先利其器”。Internet只有一个,而搜索引擎则有N多个。有搜索高手说,所谓搜索,就是“在正确的地方使用正确的工具和正确的方法寻找正确的内容”。但是,对于普通人而言,掌握诸多搜索引擎的可能性似乎不大。用一两个相对强劲的具代表性的工具达到绝大多数搜索目的更为人们所迫切希望。不同的时期,涌现出不同的强者。就目前而言,我们非常幸运的有了:

*****GOOGLE*****

2、摘要

本文简要的介绍了GOOGLE的历史和特点,GOOGLE的基本搜索语法和高级搜索语法,GOOGLE的特色功能,包括图片搜索、新闻组搜索和集成工具条等,还简单的介绍了一些常用搜索技巧和实用个案。尽管本文名为“GOOGLE搜索从入门到精通”,但事实上,笔者对运用GOOGLE进行搜索也尚处于“入门”阶段。

3、如何使用本文

阅读本文最好具备一些最基本的布尔代数基础,如“与”、“或”、“非”等。不过,即便你没有这方面的知识,也不必在意。对那些实例进行练习,你的疑惑就会迎刃而解。对于刚刚接触网络搜索的读者而言,也许你应该从头到尾的阅读本文;但对于那些有一定搜索基础的读者而言,只需要跳跃着寻找自己所需要的信息就可以了。当然,如果你有一定的英文基础,也可以把本文与GOOGLE大全(http://www.<wind_code_1 >.com/about.html)参照阅读,那样效果会更好。

4、GOOGLE简介

Google(www.<wind_code_2 >.com)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年 9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,GOOGLE已经获得30多项业界大奖。

GOOGLE的成功得益于其强大的功能和独到的特点:

GOOGLE支持多达132种语言,包括简体中文和繁体中文;
GOOGLE网站只提供搜索引擎功能,没有花里胡哨的累赘;
GOOGLE速度极快,据说有10000多台服务器,200多条T3级宽带;

GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果;
GOOGLE的搜索结果摘录查询网页的含有关键字的内容,而不仅仅是网站简介;
GOOGLE智能化的“手气不错”功能,提供可能最符合要求的网站;
GOOGLE的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。

5、搜索入门

要用GOOGLE做搜索,当然首先要进GOOGLE网站--www.google.com;不过,163.com和yahoo.com.cn使用的实际上也是GOOGLE搜索引擎,只是对搜索结果进行了编排,但无法提供一些特色功能,如图片搜索等。

第一次进入GOOGLE,它会根据你的操作系统,确定语言界面。需要提醒的是,GOOGLE是通过cookie来存储页面设定的,所以,如果你的系统禁用cookie,就无法对GOOGLE界面进行个人设定了。

GOOGLE的首页很清爽,LOGO下面,排列了四大功能模块:网站、图像、新闻组和目录服务。默认是网站搜索。现在进行第一次搜索实践,要查找所有关于“易筋经”的中文网站和网页。在搜索框内输入一个关键字“易筋经”,然后点击下面的“google搜索”按钮(或者直接回车),结果就出来了。

搜索:“易筋经”
结果:已搜索有关易筋经的中文(简体)网页。 共约有5,930项查询结果,这是第1-10项 。 搜索用时0.12秒。

6、初阶搜索

在上例子中,你已经知道了最基本的搜索,即查询包含单个关键字的信息。现在,进一步探讨多个关键字以及关键字间不同逻辑关系的查询。

6.1、搜索结果要求包含两个及两个以上关键字

一般搜索引擎需要在多个关键字之间加上“+”,而GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。

示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页
搜索:“易筋经 吸星大法”
结果:已搜索有关易筋经 吸星大法的中文(简体)网页。 共约有774项查询结果,这是第1-10项 。 搜索用时 0.24秒。

注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。

6.2、搜索结果要求不包含某些特定信息

GOOGLE用减号“-”表示逻辑“非”操作。

示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页
搜索:“易筋经 -吸星大法”
结果:已搜索有关易筋经 -吸星大法的中文(简体)网页。 共约有5,150项查询结果,这是第1-10项 。 搜索用时 0.40秒。

注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星大法”,搜索引擎将视为关键字为易筋经和吸星大法的逻辑“与”操作,中间的“-”被忽略。

6.3、搜索结果至少包含多个关键字中的任意一个

GOOGLE用大写的“OR”表示逻辑“或”操作。假定你是布兰妮和批头士的歌迷,现在要查找所有关于布兰妮和批头士的中文网页。

示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。
搜索:“Britney OR Beatles OR 布兰妮 OR 批头士”
结果:已搜索有关Britney OR Beatles OR 布兰妮 OR 批头士的中文(简体)网页。 共约有31,300项查询结果,这是第1-10项 。

注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。

6.4、“+”、“-”和“OR”的混合查询

混合查询涉及到逻辑操作符的顺序问题。一般而言,搜索引擎按照从左往右的顺序读取操作符号。如果只涉及“与”操作和“非”操作,则不会产生顺序问题,搜索结果数量和关键字顺序无关,不过,具体搜索的结果顺序会视关键字的顺序而定。单纯的“或”操作也同样道理。但是,如果“或”查询和其他两种查询混合在一起,问题就复杂了。现在我们做这样的查询:“所有关于Britney或者Beatles、但是没有Madonna相关信息的中文网页”。

搜索:“Britney OR Beatles -Madonna”
结果:已搜索有关Britney OR Beatles -Madonna的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.23秒。

搜索:“-Madonna Britney OR Beatles”
结果:已搜索有关-Madonna Britney OR Beatles的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.13秒。

搜索:“Britney -Madonna OR Beatles”
结果:找不到和您的查询-Britney -Madonna OR Beatles-相符的网页

搜索:“Britney OR -Madonna Beatles”
结果:找不到和您的查询-Britney OR -Madonna Beatles -相符的网页

可见,“或”操作的前后两个关键字必须是默认的“与”查询,否则,搜索引擎将无法完成搜索。

6.5、用“+”和“-”减少冗余信息

通常情况下,用一个关键字查询,会得到很多和查询目的不相关的冗余信息。我们总是希望,搜索结果的第一个条目中就包含所需要的信息。“+”和“-”很多时候就起到缩小搜索结果的范围,以提高查询结果命中率。

例:查阅天龙八部具体是哪八部。

分析:如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。

(1)、如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部 阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。

(2)、如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部 佛教 -金庸”的查询结果为1,120项,可以迅速找到需要的资料。


wqd428(C)proxycn.com(2004-08-26 21:49):

Google搜索从入门到精通 v4.0 (二)

7、辅助搜索

7.1、通配符问题

很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。GOOGLE不支持通配符,只能做精确查询,关键字中的“*”或者“?”会被忽略掉。

7.2、关键字的字母大小写

GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。

7.3、搜索整个句子

GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。

示例:搜索包含“long, long ago”字串的页面。
搜索:“"long long ago"”
结果:已搜索有关long long ago的中文(简体)网页。 共约有16,500项查询结果,这是第1-10项 。 搜索用时 0.06秒。

7.4、搜索引擎忽略的字符和词汇

GOOGLE对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。

示例:搜索关于第一次世界大战的信息
搜索:“"worldwar i"”
结果:"i"使用过于频繁,没有被列入搜索范围。已向英特网搜索"worldwar i". 共约有7,370项查询结果,这是第1-10项 。 搜索用时0.17秒。

7.5、强制搜索

如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。

示例:搜索包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。
搜索:“"+who +am +i"”
结果:已向英特网搜索"+who +am +i". 共约有332,000项查询结果,这是第1-10项 。 搜索用时3.68秒。

注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。

8、进阶搜索

上面已经探讨了GOOGLE的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。

8.1、对搜索的网站进行限制

“site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。
搜索:“金庸 site:edu.cn”
结果:已搜索有关金庸 site:edu.cn的中文(简体)网页。 共约有1,730项查询结果,这是第1-10项 。 搜索用时 0.23秒。

示例:搜索包含“金庸”和“古龙”的中文新浪网站页面,
搜索:“金庸 古龙 site:sina.com.cn”
结果:已在sina.com.cn搜索有关金庸 古龙 的中文(简体)网页。 共约有734项查询结果,这是第1-10项 。 搜索用时0.12秒。

示例:搜索新浪文教频道中关于鲁迅的信息。
搜索:“鲁迅 site:edu.sina.com.cn”
结果:已在edu.sina.com.cn搜索有关 鲁迅的中文(简体)网页。 共约有672项查询结果,这是第1-10项 。 搜索用时0.24秒。

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。

8.2、查询某一类文件(往往带有同一扩展名)

“filetype:”,这是个尚在测试阶段的GOOGLE特色查询,不过功能已经非常强大,可以做很多意想不到的事情哦。

最重要的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前GOOGLE检索的PDF文档大约有2500万左右。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。

示例:搜索关于电子商务(ECOMMERCE)的PDF文档。
搜索:“ecommerce filetype:pdf”
结果:已向英特网搜索ecommerce filetype:pdf. 共约有25,500项查询结果,这是第91-100项 。 搜索用时 0.44秒。

下面是某项搜索结果:

[PDF]www.ecommerce.gov/apec
文档类型: PDF/Adobe Acrobat - 一般文字档
Page 1. A Partnership of the Business Community With APEC Economies E-COMMERCE
READINESS ASSESSMENT GUIDEwww.ecommerce.gov/apecPage 2. ...
www.ecommerce.gov/apec/docs/read... adiness_guide_5.pdf - 类似网页

可以看到,GOOGLE在PDF档前加上了[PDF]的标记,而且,GOOGLE把PDF文件转换成了文字档,点击“一般文字档”,可以粗略的查看该PDF文档的大致内容。当然,PDF原有的图片以及格式是没有了。

搜索PDF文档还可以用“inurl:”语法。比如上例,也可以用“inurl:pdf ecommerce”。搜索结果数量大致相同,不过查询结果顺序则略有很大差别。

注意,上述查询均是对PDF内文的检索,“ecommerce”这个关键字是包含在PDF文档中的。

“filetype”的另一个强大用处则在图片搜索。下文将对GOOGLE的图片搜索功能作详细说明,此处只是略提一下。进入“http://images.<wind_code_5 >.com/”,查找关于本拉登的JPG图片。

搜索:“Bin Laden filetype:jpg”
结果:搜索有关 Bin Laden filetype:jpg 的图片()。(试验版) 共约有1,630项查询结果,这是第1-20项 。 搜索用时0.14秒。

除此之外,我尚未发现其他的filetype用法。如果有谁知道,请给我发邮件。预先感谢。

8.3、搜索的关键字包含在URL链接中

“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。

示例:查找MIDI曲“沧海一声笑”。
搜索:“inurl:midi 沧海一声笑”
结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。 共约有16项查询结果,这是第1-10项 。 搜索用时0.16秒。

示例:查找微软网站上关于windows2000的安全课题资料。
搜索:“inurl:security windows2000 site:microsoft.com”
结果:已在microsoft.com内搜索有关inurl:security windows2000 的网页。 共约有188项查询结果,这是第1-10项 。 搜索用时0.27秒。

注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。例如,GOOGLE会把“cgi-bin/phf”中的“/”当成空格处理。

“allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。

示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。
语法:“allinurl:"cgi-bin" phf +com”
搜索:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有37项查询结果,这是第1-10项 。 搜索用时0.36秒。

8.4、搜索的关键字包含在网页标题中

“intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。

示例:查找日本明星藤原纪香的照片集。
搜索:“intitle:藤原纪香 写真”
结果:已搜索有关intitle:藤原纪香 写真的中文(简体)网页。 共约有465项查询结果,这是第1-10项 。 搜索用时0.16秒。

TAG: 文献检索

神憩 引用 删除 waityou0804   /   2006-11-26 18:58:39
GOOGLE好像是世界级搜索引擎
 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2024-04-20  
 123456
78910111213
14151617181920
21222324252627
282930    

数据统计

  • 访问量: 2032
  • 日志数: 9
  • 建立时间: 2006-09-11
  • 更新时间: 2006-10-05

RSS订阅

Open Toolbar