365建站数据采集采集字段高级参数设置的方法:
365建站器从10.5版本后采集功能支持多规则判断,多规则合并内容,子页面/分页采集功能等
1、如果要使用级参数格式 必须是<fieldarr fields='myfield' myfield='我的规则'>[field:myfield]</fieldarr>
myfield可以自定义 3个名称必须一一对应即可
2、如果采集同一个内容 在不同页面 可能有2个规则 myfield的值可以使用 <title>[内容]</title>[or]//*[@id="idname"] 中间使用分隔符隔开,只有一个规则生效即可获得内容
3、如果一篇文章要获得同一个网址内容中的多个地方的内容,可以使用多规则合并内容格式 如下:
<fieldarr fields='myfield1,myfield2,myfield3' myfield1='我的规则' myfield2='我的规则' myfield3='我的规则'>[field:myfield1][field:myfield2][field:myfield3]</fieldarr>
4、如果一篇文章要采集子页面/分页内容 格式如下:
<fieldarr fields='myfield' myfield='我的规则'>[field:myfield][field:sonmyfield]</fieldarr><sonfieldarr areahtml='' cjurlbh='' pjurl='' fields='sonmyfield' sonmyfield='我的规则'></sonfieldarr>
说明:areahtml表示采集区域名 cjurlbh表示包含网址(支持正则),pjurl表示拼接网址 这3个参数 和主页面采集参数用法相同,后面的参数同法同上面的说明
5、针对内容和图片分开的json,内容只包含类似<!--IMG_0-->如下图:
可以使用的格式如下:
<fieldarr fields='body' body='"body":"[内容],"link":' pregreplace='"ref":\s?"<!--(.*?)-->",[\w\W]*?"src":\s?"(.*?)",' pregpj='<!--(name)-->'>[field:body]</fieldarr>
pregreplace表示正则(获得2个值),前者为名称,后者为值
pregpj为内容中包含的的拼接地址格式
|
|