请选择 进入手机版 | 继续访问电脑版
用户
 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
365建站器v10隆重发布,全新的界面,全新的体验,全新的功能,您值得佣有! 立即查看
查看: 238|回复: 0

365建站数据采集采集字段高级参数设置的方法

[复制链接]
发表于 2021-9-27 14:04:22 | 显示全部楼层 |阅读模式
365建站数据采集采集字段高级参数设置的方法:
365建站器从10.5版本后采集功能支持多规则判断,多规则合并内容,子页面/分页采集功能等
1、如果要使用级参数格式 必须是<fieldarr fields='myfield' myfield='我的规则'>[field:myfield]</fieldarr>
     myfield可以自定义 3个名称必须一一对应即可
2、如果采集同一个内容 在不同页面 可能有2个规则  myfield的值可以使用 <title>[内容]</title>[or]//*[@id="idname"] 中间使用分隔符隔开,只有一个规则生效即可获得内容

3、如果一篇文章要获得同一个网址内容中的多个地方的内容,可以使用多规则合并内容格式 如下:
      <fieldarr fields='myfield1,myfield2,myfield3' myfield1='我的规则' myfield2='我的规则' myfield3='我的规则'>[field:myfield1][field:myfield2][field:myfield3]</fieldarr>

4、如果一篇文章要采集子页面/分页内容 格式如下:
     <fieldarr fields='myfield' myfield='我的规则'>[field:myfield][field:sonmyfield]</fieldarr><sonfieldarr areahtml='' cjurlbh='' pjurl='' fields='sonmyfield' sonmyfield='我的规则'></sonfieldarr>
说明:areahtml表示采集区域名  cjurlbh表示包含网址(支持正则),pjurl表示拼接网址 这3个参数  和主页面采集参数用法相同,后面的参数同法同上面的说明

5、针对内容和图片分开的json,内容只包含类似<!--IMG_0-->如下图:
QQ截图20210927195625.jpg

可以使用的格式如下:
<fieldarr fields='body' body='"body":"[内容],"link":' pregreplace='"ref":\s?"<!--(.*?)-->",[\w\W]*?"src":\s?"(.*?)",' pregpj='<!--(name)-->'>[field:body]</fieldarr>
pregreplace表示正则(获得2个值),前者为名称,后者为值
pregpj为内容中包含的的拼接地址格式


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则