B、停止过于扁平化的布局
C、停止孤岛链接
留意: 倒霉于spider抓取的环境
1、通过query(搜索)检索获得的内页。
2、必要响应配置才气会见内页的环境
………………………………………………
2、PC/移动适配
1)成立适配:PC与移动端URL,有法则级的对应相关,且彼此关联
2)不提议做法
A、单一域名下多种设置方法
B、把移动站作为PC下一级目次,如: 3w。a.com/m/
3、数据主动提交
4、停止目次被黑或售卖
二、页面布局
1、不提议行使js加载页面内容
2)表现一部门,点击加载全文/下拉
2、移动友爱性尺度
3、索引页友爱性
1)排版机关:
A、按宣布时刻次序、忌时刻错杂(置顶内容可模块化处理赏罚)
B、不要漏链(孤岛)
2)内容质量
A、只包罗同主题内容页
B、保持与内容同步更新
C、停止交错泛滥索引页
4、索引页翻页友爱性(PC端)
1)1 2 3 次序排序
假如也许,只管罗列所有翻页,至少保存最近一段时刻的全部内容
2)不友爱做法
A、仅有上一页、下一页
B、URL以页数节制,不要用URL起始数目
C、翻页后链URL与翻页页码关联
A、回收PC端翻页提议
B、回收下拉举措触发加载,下拉次数上限为3次
留意: 不友爱做法
无穷下拉、点击加载更多
三、抓取限定
1、停止预期以外的封禁
1)UA/IP封禁
A、建站模板中包括的封禁信息,被迁徙
B、处事器自动封禁计策
C、网站地址空间处事商封禁IP
2、提议
处事器配置排查,确保robots、UA、IP配置是否切合预期
3、死链接反馈
………………………………………………
高级工程师 刘立
1、主动提交(及时提交)道理
传统: 网站宣布新页面-守候百度爬虫逐层遍历发明-百度爬虫发明网页
及时: 网站宣布新页面-百度爬虫发明网页