友情链接平台须知投稿
友情链接查询:
登录注册

当前位置:首页 > 站长资讯 > 页面无用时间信息导致网页不被爬虫抓取

页面无用时间信息导致网页不被爬虫抓取

2018-11-29 10:58:03  来源:百度搜索资源平台  浏览:

  网站内容发布后几个礼拜都未曾收录,并已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。经追查,原来是因为页面上的无用时间信息——没有想到是不是?快来看看这个案例吧。
  站点求助:现象
  一起飞网站目录内容发布后几个礼拜都未曾收录。案例如下:
  https://www.yqfml.com/webdir/wangzhi/47-1.html(栏目页)
  https://www.yqfml.com/siteinfo/1007.html(内容页)
  我们已将这些url放入sitemap,并使用了百度统计的集成的JS推荐,但是未曾有改善。
  站点求助:自查
  根据反馈中心的回复,使用抓取异常工具诊断:未发现异常
  院长出手,内部追查
  工程师结论:spider抓取很及时,但因为该网站没有设置内容产出时间,网站底部却有个老旧时间日期,导致spider误以为网页内容老旧(具体策略较复杂,在此不做赘述)。建议增加页面内容产生时间,去掉没有必要的时间信息。

1.png

  *以上为旧页面截图,“2011年9月9日”对时间识别造成干扰。
  站点总结:
  1,网页上切忌勿乱加时间,如网站的(始于2011年9月9日)这种时间是一个大忌
  2,网页内容尽可能加上产出时间,也就是发布时间
  3,百度site的结果时间和权重并无太多关系
  4,跟百度沟通的时候,一定要条例清晰,证据确凿。自身的问题一定要先排查准确。

本文由速链吧友情链接平台为您整理发布,若涉及版权问题,请原作者联系我们处理!