搜索引擎Coogle的体系结构及其核心技术研究
王德峰[1,2] 李东[1]
[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001 [2]哈尔滨商业大学计算机与信息工程学院,黑龙江哈尔滨150028
摘 要:
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率. (共4页)学科分类:
TP393[工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络]

















cqvip.com