风讯官方论坛

首页 » FoosunCMS交流区 » 插件讨论 » 采集如何设置才会不采集已经采集的文章?
backdream - 2005-10-27 16:15:00

另外多页倒序采集的“采集对象页”如何设置,如果设置到第一页,那第一页会先采,最后反而排到最后啦。

chning - 2005-10-27 17:21:00

对已经采集的文章,在审核数据里或者历史数据里有的,系统上不会采集的,不用设置!


采集多页倒序,你可以从最后先前采,然后选择倒序,


如索引采集,填写从10到1就可以了


那样就是将最后一页倒序采集了再倒序采集倒数第二页,


这样顺序是不会有变化的。

backdream - 2005-10-28 08:19:00

可是我采集,入库后,再点开始采集,结果它又重新采集一遍,结果历史数据里面信息都翻番啦……


我用的是3.1版本。

chning - 2005-10-28 09:19:00

不会吧?


判断是否已经采集过信息是通过新闻的URL是否存在采集数据库中判断的。


你看看你重复新闻的URL是否不一样?


不一样还是会再采的,毕竟电脑不如人脑。

backdream - 2005-10-28 15:30:00
就是同一个设置好的采集站点,我重复点开始采集,它每次都重新采集一遍,郁闷。
chning - 2005-10-30 11:23:00

重新开始采是否有红色提示“新闻已经在列表中存在……”?


如果不是可能是你的程序被修改过的。

backdream - 2005-10-31 16:58:00

没有提示啊……直接下载的3.1free版,没有任何修改……


我采集使用倒序采集,目标URL是最后一页,分页采用的是倒数第二页到第一页。


[此贴子已经被作者于2005-10-31 17:01:46编辑过]

天堂流星 - 2005-10-31 19:18:00
不应该出现这样子的,我还没遇到过呢!
chning - 2005-11-1 09:27:00

我也没有遇到过,你把采集对象页面贴出来大家研究研究

backdream - 2005-11-2 10:53:00

http://www.sxwbw.com/news/listnews.asp?classid=13&page=1





















































采集站点名称


采集对象页

采集站点分类

入库目标栏目

新闻摸板


采集参数
锁定 保存远程图片 新闻是否已经审核 是否倒序采集

保存图片路径

过滤选项
HTML STYLE DIV A CLASS FONT SPAN OBJECT IFRAME SCRIPT


不分页 标记分页设置 索引分页设置 手工分页设置 列表内容范围设置






其他页面
  输入区域: 2)document.Form.OtherPageSetting.rows-=1">缩小 扩大  可用标签:[其他页面]    [变量]









索引规则
  输入区域: 2)document.Form.IndexRule.rows-=1">缩小 扩大

页码
页码开始: 页码结束   例:在索引规则中写http://.../index_^$^.htm,其中^$^代表设定的页码

分页内容
  输入区域: 2)document.Form.HandPageContent.rows-=1">缩小 扩大






列表内容
  输入区域: 2)document.Form.ListSetting.rows-=1">缩小 扩大  可用标签:[列表内容]    [变量]

列表URL*
  输入区域: 2)document.Form.LinkSetting.rows-=1">缩小 扩大  可用标签:[列表URL]  [变量]

新闻标题*
  输入区域: 2)document.Form.PageTitleSetting.rows-=1">缩小 扩大  可用标签:[新闻标题]  [变量]

新闻内容*
  输入区域: 2)document.Form.PagebodySetting.rows-=1">缩小 扩大  可用标签:[新闻内容]  [变量]

设置作者 设置来源 设置时间 设置分页









手动设置

作者
  输入区域: 2)document.Form.AuthorSetting.rows-=1">缩小 扩大  可用标签:[作者]  [变量]


采集两遍后,我的审核数据和历史数据和入库文章里面站点的采集资料。继续采集它还采一遍……晕。

backdream - 2005-11-2 10:58:00

上面那个有点乱,重新附一个图片,注意是倒序采集。采集对象那里填写的是最后一页,然后分页那里是先倒数第二页,直到第一页。


[upload=gif]UploadFile/2005-11/200511210582119366.gif[/upload]



附件: 1571.gif
1
查看完整版本: 采集如何设置才会不采集已经采集的文章?