此贴2017年5月12号被修改,适用于新版本采集
365采集器采集文章很简单,只要输入网址即可以采集1.新建-找到想采集的网站 如 新浪滚动新闻:http://roll.news.sina.com.cn/s/channel.php?ch=01#num=100&page=1
如果页面有分页,可以如下设置【变量部分用(*)代替】:
2.检查内容页上的格式,如下,
http://mil.news.sina.com.cn/worl ... yfuzny3824434.shtml
http://news.sina.com.cn/s/wh/2017-06-07/doc-ifyfuzny3824233.shtml
http://news.sina.com.cn/s/wh/2017-06-07/doc-ifyfuzmy2487274.shtml
http://sports.sina.com.cn/l/2017-06-07/doc-ifyfuzny3823183.shtml
http://sports.sina.com.cn/basket ... yfuzny3822895.shtml
http://news.sina.com.cn/c/nd/2017-06-07/doc-ifyfuzmy2485146.shtml
..............................
找出内容页网址共同拥有的字符(写的精准确,采集效率就会提高),如:doc-,.shtml
注意:公共规则是系统集成的采集规则,大部分网站都可以使用,如果发现个别网站采集不了内容,可自定义规则,规则写法如:<前面代码>[内容]<后面代码>!
3.保存就可以采集了,如果采集不到内容或者想更精准采集,内容采集规则可以不用公共规则,自己制定内容采集规则,内容代码如下:
<div class="article-a__content" id="artibody">
<p> 2017全国马术耐力巡回赛“海湾杯”普兰店站于2017年5月29日上午开赛。本次比赛吸引了国内最优秀的耐力赛赛马和骑手前来参赛。</p>
<p> 本次比赛由大连凯洋马业发展有限公司承办。开幕式在大连海湾工业区滨海公园举行。</p>
<p> 普兰店区人大常委会主任于华盛主持了开幕式。</p>
<figure class="article-a__figure"><img src="http://n.sinaimg.cn/sports/transform/20170607/5r6T-fyfuzmy2510986.jpg" alt="身披01号马甲的骑手-大连凯洋集团董事长魏洋" data-link=""><figcaption class="article-a__figcaption">身披01号马甲的骑手-大连凯洋集团董事长魏洋</figcaption></figure>
<div style="margin-top:35px;">
</div>
</div>
自定义规则就可以写成 id="artibody">[内容]</div>
自定义规则一定要是所有采集文章通用的,如果写的不对则不能采集全部内容
另外针对内容是否含有图片,div,script等可以进行过滤
这样就全部设置完成了,就不懂的,可以回复,我们帮你解决!
以上新浪滚动新闻规则如下,你可以直接导入
M1taWl3QwsDLufa2r9DCzsVbWlpdaHR0cDovL3JvbGwubmV3cy5zaW5hLmNvbS5jbi9zL2NoYW5uZWwucGhwP2NoPTAxI251bT0xMDAmcGFnZT0oKilbWlpduau5srnm1PJbWlpdPGEoW14+XSopPj0+v9UNCjwvYT49Pr/VDQo8ZGl2KFtePl0qKT49Pr/VDQo8L2Rpdj49Pr/VDQo8c2NyaXB0KFtePl0qKT4oP3MpKD9pKSguKj8pPC9zY3JpcHQ+PT6/1Q0KaHR0cDovLyhbXC9cLkEtWmEtejAtOV0rKT0+v9VbWlpdZG9jLSwuc2h0bWxbWlpdMS0xMDBbWlpddHlwZTE=
|