目前在网上能够找到的收录中文blog最全的搜索引擎,应该是Technorati。做一个简单的测试,用“的”这个出现频率最高的中文字作关键字,在各搜索引擎中搜出的结果如下:
搜索引擎 | 结果数 |
---|
 | 270,000,000 |  | 20,845,152 |  | 17,845,197 |  | 8,112,117 |  | 218,362 |  | 58,779 |  | 2,696 |
|
从Technorati
的结果可以看出,中文blog的帖子数量大约为2000万左右。IceRocket的搜索结果接近上述数字,Google Blog
Search只有不到一半。倒是中文blog搜索引擎,反倒遗漏了大量的中文blog,8Fang的结果最好,也只有Technorati的1%。最惨的
是Booso,只是Technorati结果的万分之一多一点。
看来,即使搜中文blog,国外的搜索引擎也要远远好于“咱们自己的”搜索引擎。
Update:
骆逸说得没错,可能是由于中文分词的问题,导致某些搜索引擎无法给出包含“的”的页面的准确数量,这样就不恰当地拉大了中文blog搜索引擎与国外搜索引
擎的差距。我改用“我的”(表示为[1])这个同样常用的词,以及“的 OR 我的 OR 你的 OR 他的 OR
是的”(表示为[2])这种各搜索引擎都支持的组合方式来进行比较,不能说完全反映了各搜索引擎的中文blog索引状况,至少比较趋近于各自的真实水平。
结果如下:
搜索引擎 | [1]结果数 | [2]结果数 |
---|
 | 6,123,191 | 20,885,441 |  | 4,705,032 | 5,689,788 |  | 4,702,956 | 12,950,208 |  | 260,552 | 523,619 |  | 207,534 | 373,465 |  | 9,473 | 16,827 |
|
可以发现,几个中文blog搜索引擎,结果数量都有不同程度的上升,而国外的搜索引擎则不同程度地下降了。但整体上,两者仍不在一个数量级上。