September 04
今天的访问量居然达到537(截至12:00),以往只有40-100,这是由于我在燕南等网站发布了帖子,公布了网址。
July 27
6月底,与阿W聊天,那厮正热恋着MSN的BLOG,介绍了他的主页,并吹嘘他的BLOG在百度中搜索是第一个,在GOOGLE中是第10个,让我羡慕不已--据说,要花钱让GOOGLE的排名排在前面,一年要花上数十万,而百度根据竞争程度,从1500元到数万元不等。
回到单位马上自己做了一个,不料用搜索引擎搜索不到。请教阿W,阿W说你的网页作大了就可以搜索到了--意思是他的网页已经做的很大了,我对伊崇拜不已。
又过了几天,还是搜索不到,我等
又过了几天,还是搜索不到,我忍
又过了几天,我搜索“笑傲江湖、msn",搜索到了http://spaces.msn.com/members/zcmk1,是一个叫“冲” 的人作的,标题也是“笑傲江湖”,除了一张模糊不清的图片,一个日志也没有,他能搜索到,我却搜索不到,小尼姑的头,和尚摸的,我阿Q摸不得,我忍无可忍.
曾经看到网上有所谓优化的方法,还有欺骗搜索引擎的方法,可以让自己的网站在搜索中排位到前面。莫非阿W和冲会这种方法?也不像。
最后,我读了一篇介绍搜索引擎原理的文章,终于明白了原因:
首先简单介绍一下GOOGLE大致的流程:Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页,将遍历到的网页送到存储服务器(Store Server)中。
②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故障的时候,可以及时完整地进行网页的数据恢复。
③索引器(Indexer)从Repository中读取数据,将读取的数据解压缩后进行分析,它将网页中每个有意义的词进行统计后,转化为关键词(wordID)的若干索引项(Hits),生成索引项列表,该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中,并生成以文档号(docID)部分排序的顺排档索引。
当用户查询时,1. 分析查询。
2. 把词汇转换成wordID。
3. 在短barrel中查找每个词汇doclist的开头。
4. 扫描doclist直到找到一篇匹配所有关键词的文档
5. 计算该文档的rank
6. 根据rank排序匹配文档,返回前k个。
googleg根据用户的意见,不断改进RANK的计算方法。所以google的结果比较科学。(实际比这要复杂的多,我简单介绍一下)
而百度不同,1、百度的爬行器速度慢,索引更新慢,2在rank的计算上没有google科学。
现在我明白了,有“冲” 的“笑傲江湖”,没有我的”笑傲江湖“并不是他比我做的好,是他比我作的早,
明白了这一点,我在百度搜索“拯救爱因斯坦 MSN"(这是我的blog最初的题目,因为每人看,所以改成笑傲江湖了),果然,第一个就是我的网页,不过由于我已经改了网页的题目,这个网页已经过期了,用”网页快照“打开,可以看到这一我抄录的一篇关于”asperger"的论文,深奥难懂,根本没人看。
现在我明白了,如果想让你的blog在百度中排第一,那么你找一个不太容易重复的题目(避免强有力的竞争)等上几个月,你就是第一了。我的网友“精神鸦片飞行器”“赫逊河畔”都是百度搜索中的第一,因为与他重名的非常少,网页存在时间比较长,在DNS服务器中都有记录,所以是第一。我如果不改名,也快是第一了。
July 26
Google Earth免费供个人使用,另外,还有一款Google Earth Plus是需要付费的,它提供了更多的服务,主要包括:
1. 兼容GPS(全球定位系统)
2. 高质量的打印
3. 电子邮件客户服务
4. 更加丰富的注释
5. 数据导入
6. 提供3D地形和建筑物,其浏览视角支持倾斜或旋转;
7. 保存和共享搜索和收藏夹;
8. 添加自己的注释。
尚未找到破解版,哪位找到请告诉我
July 15
我的网络日志“主页”的中间部分(网络日志)部分比较窄,我就把右边的列表挪到左边,谁知在主页就看不到网络日志了。试了几次都不行。最后只好恢复了默认设置。请问这是为什么
在说一个事。昨天我把日志标题写成“共存主义社会”,就不能发布了,把“主义”删除了,就可以发布。原来微软只认标题。凡是涉及“民主”、自由、主义等等,一率不能发布。
中国真是太············