365建站数据采集采集字段高级参数设置的方法 - 新手指南/使用教程

我和我追逐的梦 发表于 2021-9-27 14:04:22

#1：365建站数据采集采集字段高级参数设置的方法

365建站数据采集采集字段高级参数设置的方法：
365建站器从10.5版本后采集功能支持多规则判断，多规则合并内容，子页面/分页采集功能等
1、如果要使用级参数格式必须是<fieldarr fields='myfield' myfield='我的规则'>[field:myfield]</fieldarr>
   myfield可以自定义 3个名称必须一一对应即可
2、如果采集同一个内容在不同页面可能有2个规则  myfield的值可以使用 <title>[内容]</title>[or]//*[@id="idname"] 中间使用分隔符隔开，只有一个规则生效即可获得内容

3、如果一篇文章要获得同一个网址内容中的多个地方的内容，可以使用多规则合并内容格式如下：
   <fieldarr fields='myfield1,myfield2,myfield3' myfield1='我的规则' myfield2='我的规则' myfield3='我的规则'>[field:myfield1][field:myfield2][field:myfield3]</fieldarr>

4、如果一篇文章要采集子页面/分页内容格式如下：
   <fieldarr fields='myfield' myfield='我的规则'>[field:myfield][field:sonmyfield]</fieldarr><sonfieldarr areahtml='' cjurlbh='' pjurl='' fields='sonmyfield' sonmyfield='我的规则'></sonfieldarr>
说明：areahtml表示采集区域名  cjurlbh表示包含网址（支持正则），pjurl表示拼接网址这3个参数  和主页面采集参数用法相同，后面的参数同法同上面的说明

5、针对内容和图片分开的json，内容只包含类似如下图：

可以使用的格式如下：
<fieldarr fields='body' body='"body":"[内容],"link":' pregreplace='"ref":\s?"",[\w\W]*?"src":\s?"(.*?)",' pregpj=''>[field:body]</fieldarr>
pregreplace表示正则（获得2个值），前者为名称，后者为值
pregpj为内容中包含的的拼接地址格式

页: [1]

365建站论坛 (论坛已停止维护，软件相关教程请到：https://soft.365jz.com/sitemanager/)

#1：365建站数据采集采集字段高级参数设置的方法