在网站设计过程中,网站设计者们应考虑商业引擎网络爬虫的工作原理。所有的商业搜索引擎都采用了向量空间模型,或是它的变体,向量空间模型一般是与其他技术结合在一起使用的。

互域东莞网络公司,专业东莞网站设计,东莞网站建设行业里很有竞争力的团队之一。

您的当前位置:互域网络 >> 网站设计知识 >> 网站设计者应该学习的爬虫工作原理

网站设计者应该学习的爬虫工作原理

日期:2009-08-20   来源:来自网络
202009-08

·爬虫爬行范围和链接结构:

如果希望网站能够吸引新的访问者,在网站设计过程中,网站设计者们应考虑商业引擎网络爬虫的工作原理。关于商业引擎网络爬虫工作原理的具体细节,外人知道得很少,但可以从其一般工作原理中获得几点启示。

许多网站从未被任何搜索引擎发现过,网站设计者们应该确保他们的网站能够让搜索引擎的“爬虫”发现。某些搜索引擎有URL提交功能,即允许设计者们将其网站的URL提交到爬行列表中,所有的主流搜索引擎都有这一功能;有些搜索引擎虽没有此功能,但如果已经被索引过的网站中有指向未被索引到的网站的链接,那么顺着链接,爬虫也能爬取该网站。因此,对于新网站而言,应该确保至少有一个已经被主流搜索引擎索引到的网站链接到该网站。
 

网络爬虫是沿着从网页文本中提取出来的链接爬行的,任何一个网站都应含有足够的链接,以便爬虫能够发现该站点所有的网页。更具体的讲,爬虫很可能从网站的首页开始爬行,因此,网站首页上的链接应能够指向该网站所有的网页。另外,这些链接必须包含在网页的HTML中,且是标准的HTML(如,使用锚点标签),因为爬虫可能识别不了其他格式的链接,包括JAVA或JavaScript格式。


 

·搜索引擎程序是这样解析网页文本的:

知道搜索引擎处理网页的过程,有益于了解它们是如何寻找相关网页的。似乎所有的商业搜索引擎都采用了向量空间模型,或是它的变体,向量空间模型一般是与其他技术结合在一起使用的。向量空间模型将所有的网页都转换到一个无序的词库中,每个网页都用一个列表表示,列表中是网页里各个词出现的频率。稍后,会用数学公式将词频转换为权重,该数学公式能够赋予文档中词频较高的词语较高的权重。同时,也会给稀有词语赋予较高的权重。

一个网页中的文本对搜索引擎来说,比对用户更为重要。网页中的文本与链接主题无关,但可以给出一些网站的总体印象,这些网站里有些内容不愿被搜索引擎索引到,所以,在设计时专门提防着搜索引擎。此时,需要区分“爬行”和“索引”这两个概念。爬行一个网站是指沿着链接访问该站点上所有的页面,且一般会为这些网页保存一个复本。索引则是爬行的下一个阶段,即将网页文本存人到一个特殊的“倒排文档”数据库中,利用“倒排文档”数据库,可以快速搜索到与用户查询相匹配的页面。标准搜索引擎一般只索引网页文本,而忽略图片和其他多媒体信息。因此,讨论搜索时就应该区分文本和图片。

用户在访问网站的时候,从图片中获得的信息比从文本中获得的信息更直观。举一个极端的例子,一个来自知名公司的图标放在页面中显眼的位置,就足以说明该网页是该公司的。相反,搜索引擎则是忽略所有图片的,至少在从网页中提取信息时是这样的。如果一个网页上都是电视机的图片,但其文本中却没有一个“电视机”词,那么,搜索引擎不知道这个页面是关于电视机的。这就说明,网站的设计者们需要确保页面中含有描述该站点主题内容的词语。

一些更聪明的方法可以用来帮助搜索引擎来判定该页面是关于电视机的。Google首先提出了这样的方法:如果有其他页面链接到含有鞋子图片的页面,且锚文本中也提到鞋子,这便证明该图片页面是和鞋子相关的。另外,有一些精细的方法,如潜在语义分析,可以根据主题同义词,或其他与主题相关的词来猜测一个网页的主题。例如,如果一个页面中含有“显示器”,或其他与电视机相关的词(如“液晶显示”和“等离子”);那么,这便足以说明该页面是和电视机相关的。然而,网站设计者们不能依赖使用这些先进技术的搜索引擎,因此,应该保证他们站点的关键页面中含有大量与主题相关的文本信息,可以吸引访问者。当然,这些文本应该在站点页面的HTML中,而不是在图片,或Java程序或多媒体形式的媒介中。

[ 关键字:网站设计,爬虫 ]


相关阅读:
  • 网站建设需要重视的问题 [04-02] 一个网站的诞生是需要非常多道工序的,千锤百炼出真金,做好网站建设中的每一个小细节(detail),将小细节看成是大问题,那么你的网站就会备受喜爱了..
  • 网站建设网站设计的6大注意点 [04-02] 在网站建设设计中,需要做的很多的工作(WORK),对于现在的网站设计的趋势(trend)的了解。东莞网站设计是设计过程的前端的设计通常用于描述一个网..
  • 优质内容对于网站建设有何作用? [03-23] 对于网站建设(construct/build)来说,网站的网站内容是决定一个网站是否有价值(value)的关键因素,如果网站的内容具有一定的吸引力或原创性,那..
  • 外贸型网站在建站前需要哪些事项? [03-17] 随着互联网的不断发展(Develop),冲击(chōng jī)着传统公司被迫转型,对于在网络中开展(kāi zhǎn)营销推广企业来说,国外贸易、进出口贸易(Fo..
  • 制作网站的流程与步骤 [03-14] 无论您是做个人网站、还是企业网站亦或是系统(system)平台、电商(e-Commerce)网站。东莞网站设计是一个把 软件需求转换成用 软件网站表示的过程,..
  • 从五个层面剖析网站设计 [12-13] 如果要你创建一个网站,需要做哪些工作?流程是怎样的?网页的阅读顺序是自下而上,依次体现了网站设计的5个层面战略层、范围层、结构层、框架层、表现层..
  • 什么是干净的网站设计? [12-10] 但是,正如客户有时会问我们,干净的网站设计究竟意味着什么?我们意识到这个术语可能有点含糊不清,定义可能因一家公司(或网站设计师)而异。尽管..

在线QQ咨询