站在搜索引擎蜘蛛抓取网站内容的角度去看待一个网站,蜘蛛到底会青睐怎样的网站设计呢,网站针对搜索引擎的抓取,索引和排名等关键因素如何做出最适当的网站设计,有的放矢,理论上来说网站设计解决了这几个关键的问题,一定程度上就可以增加搜索引擎的友好度。
首先,蜘蛛必须先找到你的网页才能进一步抓取你网站的内容。要让搜索引擎发现网站首页,就必须有外部链接链到首页。找到首页后蜘蛛沿着内部链接找到更深的内容页,所以从这个角度来说就要求网站要有良好的结构,符号逻辑,并且所有页面可以通过可以爬行的普通HTML链接到达。JavaScript链接,Flash中的链接等搜索引擎蜘蛛一般不能爬行,就会造成收录问题。网站所有页面离首页都不能设置得太远,最好在五次点击之内。要被收录,页面要有最基本的权重,良好的网站链接结构可以适当传递权重,使尽量多的页面达到收录门槛。
其次的问题就是蜘蛛找到了你的页面之后能不能顺利抓取。被找到的URL必须是可以被抓取的,由数据库动态生成。带有太多数据库调用的ID,整个页面Flash过多,可疑的转向以及大量复制内容等都可能使搜索引擎敬而远之。某些文件站长可能不希望被收录,除了不链接到这些文件,更保险的方法是使用robots文件或meta robots标签禁止收录。
最后,必须考虑蜘蛛在抓取页面之后怎样提取有用信息,我们知道让整个页面的关键信息点被抓取到才是重点,这也是我们网站设计要求的,关键词在页面重要位置合理分布,重要标签的撰写,HTML代码的精简,一定程度上都可以帮助搜索引擎理解页面内容,提取有用信息。这些设计可以帮助搜索引擎能顺利找到所有页面,抓取这些页面并提取其中真正有相关性的内容,这样才能让搜索引擎友好对待网站。