企业与个人网络营销一站式服务商
网站建设 / SEO优化排名 / 小程序开发 / OA
0731-88571521
136-3748-2004
百度如何判断网页文章的重复度
信息来源:   发布时间:2016-7-28   浏览:

 1,网站重复内容的判断

  A,获取多个网页;

  B,分别提取网页的网页正文;

  C,从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;

  D,根据网页正文句子签名对多个网页进行聚类;

  E,针对每一类下的网页,计算网页的附加签名;

  F,根据附加签名判断每一类下的网页是否重复。

  通过上述方式,网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

  网站页面基本架构

  提取正文

  A,对网页进行分块;

  B,对分块后的网页进行块过滤,以获取包含网页正文的内容快;

  C,从内容块中提取网页正文。

  正文分句

  A,对网页正文进行分句;

  在本步骤中,可利用分号,句号,感叹号等表示句子完结的标志符号来对网页正文进行分句。此外,还可以通过网页正文的视觉信息来对网页正文进行分句。

  B,对分句后的网页正文进行过滤及转换;

  在步骤中,首先过滤掉句子中的数字信息;版权信息以及其他对网页重复判断不起决定性作用的信息。随后,对句子进行转换,例如,进行全角/半角转换或者繁体/简体转换,以使得转换后的句子的格式统一。

  C,从过滤及转换后的网页正文中提取最长的一个或多个句子;

  在本步骤中,过滤及转换后的网页正文提取出最长的一个句子或者做场的预定数量连续句子的组合。例如,某个网页实例中,经过过滤及转换后的某段最长,远超其他句子,因此可选择该段为网页正文句子,或者选择最长的连续句子组合作为网页正文句子。

  D,对一个或多个句子进行hash签名运算,以获取网页正文句子签名。





上一条: 企业如何做有效的网络推广
下一条: SEO数据分析报告该怎么写?
案例鉴赏
多年的网站建设经验,斌网网络不断提升技术设计服务水平,迎合搜索引擎优化规则
网络营销
多年的网站建设经验,网至普不断提升技术设计服务水平,迎合搜索引擎优化规则
长沙私人做网站    长沙做网站    深圳网站建设    株洲做网站    东莞做网站    南京防腐木    湖南大拇指养猪设备    株洲做网站    
版权所有 © 长沙市天心区斌网网络技术服务部    湘公网安备 43010302000270号  统一社会信用代码:92430103MA4LAMB24R  网站ICP备案号:湘ICP备13006070号-2