365建站器v12隆重发布,全新的界面,全新的体验,全新的功能,您值得佣有! 365建站器v12隆重发布! 立即查看

365建站数据采集采集字段高级参数设置的方法

发表在 新手指南/使用教程 2021-9-27 14:04:22 上一主题 下一主题 0 3918

365建站数据采集采集字段高级参数设置的方法:
365建站器从10.5版本后采集功能支持多规则判断,多规则合并内容,子页面/分页采集功能等
1、如果要使用级参数格式 必须是<fieldarr fields='myfield' myfield='我的规则'>[field:myfield]</fieldarr>
     myfield可以自定义 3个名称必须一一对应即可
2、如果采集同一个内容 在不同页面 可能有2个规则  myfield的值可以使用 <title>[内容]</title>[or]//*[@id="idname"] 中间使用分隔符隔开,只有一个规则生效即可获得内容

3、如果一篇文章要获得同一个网址内容中的多个地方的内容,可以使用多规则合并内容格式 如下:
      <fieldarr fields='myfield1,myfield2,myfield3' myfield1='我的规则' myfield2='我的规则' myfield3='我的规则'>[field:myfield1][field:myfield2][field:myfield3]</fieldarr>

4、如果一篇文章要采集子页面/分页内容 格式如下:
     <fieldarr fields='myfield' myfield='我的规则'>[field:myfield][field:sonmyfield]</fieldarr><sonfieldarr areahtml='' cjurlbh='' pjurl='' fields='sonmyfield' sonmyfield='我的规则'></sonfieldarr>
说明:areahtml表示采集区域名  cjurlbh表示包含网址(支持正则),pjurl表示拼接网址 这3个参数  和主页面采集参数用法相同,后面的参数同法同上面的说明

5、针对内容和图片分开的json,内容只包含类似<!--IMG_0-->如下图:
QQ截图20210927195625.jpg

可以使用的格式如下:
<fieldarr fields='body' body='"body":"[内容],"link":' pregreplace='"ref":\s?"<!--(.*?)-->",[\w\W]*?"src":\s?"(.*?)",' pregpj='<!--(name)-->'>[field:body]</fieldarr>
pregreplace表示正则(获得2个值),前者为名称,后者为值
pregpj为内容中包含的的拼接地址格式


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则