最近一段时间比较忙,博客也就没能顾得上更新了,十一有空的话,还是得补上一点内容。
自从上次百度调整之后,后续的调整就一直没有停止过,从最近一个月的日志大概总结出了蜘蛛的一些新特点(包括百度和Google),抽时间整理一下,与大家共享!
十一回去拍点新房的照片来Show一下。
另外,最近研究了NetBox,可以把Asp整理打包成一个exe可执行文件,移植到98-win7系统上使用,很方便,客户端就不需要装任何服务器平台了,而且还保护了源文件。但也有一些缺陷,如打包成exe后,fso功能失效等等问题,有空了写点心得出来,大家有兴趣也可以研究一下,跟软件差不多了,可以以假乱真,去忽悠客户啦^_^!…
>>阅读全文
标签归档:baiduspider
百度,最近变的很敏感!
最近快被百度折腾死了!
百度的变来变去,让我们这些站长也跟着受罪,最近一两周都在集中精力研究百度的变化。百度最近变的很敏感了,也很“严厉”了。通过最近的日志情况分析出,百度对大站的抓取频率基本还是没有多大变化,但对页面中出现的异常情况如500,404,302等,百度会特别的注意并快速做出反应,之后会对站点进行观察,如果情况一直存在的话,在百度的搜索结果中就会体现出来,如快照会一直不更新,或者去快照老页面等等,直到站点消除异常情况。
所以,站长平时还是要多看日志,尤其是最近百度在不断地调整,如果不能及时发现问题,必将影响SEO的效果。对日志中出现的异常情况要及时处理,才能跟上蜘蛛的脚步,针对蜘蛛的变化及时调整自己的站点。…
>>阅读全文
百度搜索结果发生变化,无法site网站目录
百度搜索结果发生变化,无法site出网站下面的目录结果了!
这是今天下午才发生的情况,基本上每天我都会多次site网站的情况,因为蜘蛛爬行的比较频繁,每一个小时左右结果都会不一样。晚上加班时,按常规再查一下网站在搜索引擎中的情况,却发现无法site出目录了,不知道百度又在搞什么东东,是一时的调整,还是算法又悄悄地发生改变了呢?
公司网站site目录时的提示结果:
site网易国际新闻目录时的提示结果:
site新浪国际新闻目录时的提示结果:
不知道百度是不是在调整算法。。。
保持高度关注,并继续跟踪分析!
貌似百度不再K我了
换Zblog快一个月了,当我第一次在空间测试zblog的时候,却不小心清空了空间的所有内容,没办法只能匆忙地把zblog换上去了,当然之前的PJ的文件也被删除掉了。这样从搜索引擎过来的页面全部都没有了,除了首页。
想了个办法,把网站的404错误页面做了一下,写了一个小程序,把文章的链接地址(包括带别名的)全部读出来,然后做成静态的404页面,放到空间上面。这样就可以引导蜘蛛来爬行我的新链接了
>>阅读全文
蜘蛛日志分析程序,专为SEO定制
因为工作的需要,每天都需要看上百兆的日志文件,然后分类提取,筛选记录,查看日志文件,光是百度的日志文件都有上万条,因而不论是记录蜘蛛规律,还是数据统计,都是一个不小的工作量,因为这些,每天都要加班的,最近趁着加班的时间,写了一套分析日志的asp程序,主要功能是把日志文件导入到数据库中,分类整理,再通过查询得出详细的数据,得出做SEO所需要的详细数据,然后判断出网站的问题及下一步应该努力的方向。
这套程序是用xhtml+css写的,基本上是兼容所有的主流浏览器,包括IE(废话)、火狐、Safari、Apple、Chrome。目前程序处理最后的完善的阶段,估计还有一个星期可以完全搞定。有了这套程序,以后工作的效率就会提高不少的,不用再一条一条地在UE里面查找,记录,再把数据汇总到EXCEl了。随着工作的需要,程序的功能还会进一步的完善。其实是很简单的程序,公司的程序员有几百人,估计都不屑写这些个小玩意吧,呵呵,权当自己练练手了。现在天天做页面优化,都快把程序忘完了。
有对这套程序感兴趣的朋友们可以给我留言索要,大家可以交流学习,共同进步嘛!
分析蜘蛛返回代码200 0 0和200 0 64的意思
在上一篇文章中提到过200 0 64,到底"200 0 64"是什么意思?网上基本上全把后面这个"64"和百度联系起来,说这里是"200 0 64"就不是正常抓取,只有是"200 0 0"才是正常抓取……,我打开www.google.com搜索了一下"200 0 64",果然如此,更有甚者甚至还给出了解决方法,说如何如何修改网站就可以让"200 0 64"变成"200 0 0"以让搜索引擎正常抓取……
不知道有多少人被发表这段歪理的人害得把本来好好的网站改来改去!下面详细解说一下这三个状态代码.
打开一个IIS的日志,我们在最上边大约第三行能够看到一个表头,像这样:
>>阅读全文
分析百度蜘蛛(Baiduspider)爬行后代码的意思
研究搜索引擎蜘蛛的爬行规律对于网站优化意义重大。
今天整理了一些关于百度蜘蛛(Baiduspider)爬行后代码的意思的资料,研究一下百度蜘蛛爬行后返回代码代表的具体含义: 2xx 成功,3xx 重定向,4xx 客户机中出现的错误,5xx 服务器中出现的错误
>>阅读全文