专利名称:基于综合主题词垂直搜索和聚焦爬虫的网页分类识
别方法
专利类型:发明专利
发明人:掌明,卢艳宏,杨瑞,樊纪山,王经卓,宋永献,孙巧榆,张
金学,洪露
申请号:CN201611247621.5申请日:20161229公开号:CN106649823A公开日:20170510
摘要:本发明公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,属于网页搜索引擎技术领域,本发明是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究,主要研究如何判断一个动态变化的网页是否与主题词相关,通过计算页面的主题词关联度,筛出与综合主题词关联度较大的URL进入待爬行队列,利用垂直搜索和聚焦爬虫技术获得网页的分类信息,设计了网页分类识别模型和算法,通过对动态变化的网页识别,获得不同分类的URL,为用户对提供网页的精准搜索,也能给出未知的URL所属网页分类。本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。
申请人:淮海工学院
地址:222005 江苏省连云港市海州区苍梧路59号
国籍:CN
代理机构:北京市领专知识产权代理有限公司
代理人:林辉轮
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容