另外多页倒序采集的“采集对象页”如何设置,如果设置到第一页,那第一页会先采,最后反而排到最后啦。
对已经采集的文章,在审核数据里或者历史数据里有的,系统上不会采集的,不用设置!
采集多页倒序,你可以从最后先前采,然后选择倒序,
如索引采集,填写从10到1就可以了
那样就是将最后一页倒序采集了再倒序采集倒数第二页,
这样顺序是不会有变化的。
可是我采集,入库后,再点开始采集,结果它又重新采集一遍,结果历史数据里面信息都翻番啦……
我用的是3.1版本。
不会吧?
判断是否已经采集过信息是通过新闻的URL是否存在采集数据库中判断的。
你看看你重复新闻的URL是否不一样?
不一样还是会再采的,毕竟电脑不如人脑。
重新开始采是否有红色提示“新闻已经在列表中存在……”?
如果不是可能是你的程序被修改过的。
没有提示啊……直接下载的3.1free版,没有任何修改……
我采集使用倒序采集,目标URL是最后一页,分页采用的是倒数第二页到第一页。
[此贴子已经被作者于2005-10-31 17:01:46编辑过]
我也没有遇到过,你把采集对象页面贴出来大家研究研究
http://www.sxwbw.com/news/listnews.asp?classid=13&page=1
采集站点名称 | | ||||||||||
采集对象页 | |||||||||||
采集站点分类 | |||||||||||
入库目标栏目 | |||||||||||
新闻摸板 | | ||||||||||
采集参数 | 锁定 保存远程图片 新闻是否已经审核 是否倒序采集 | ||||||||||
保存图片路径 | |||||||||||
过滤选项 | HTML STYLE DIV A CLASS FONT SPAN OBJECT IFRAME SCRIPT | ||||||||||
不分页 标记分页设置 索引分页设置 手工分页设置 列表内容范围设置 | |||||||||||
| |||||||||||
| |||||||||||
分页内容 | 输入区域: 2)document.Form.HandPageContent.rows-=1">缩小 扩大 | ||||||||||
| |||||||||||
列表URL* | 输入区域: 2)document.Form.LinkSetting.rows-=1">缩小 扩大 可用标签:[列表URL] [变量] | ||||||||||
新闻标题* | 输入区域: 2)document.Form.PageTitleSetting.rows-=1">缩小 扩大 可用标签:[新闻标题] [变量] | ||||||||||
新闻内容* | 输入区域: 2)document.Form.PagebodySetting.rows-=1">缩小 扩大 可用标签:[新闻内容] [变量] | ||||||||||
设置作者 设置来源 设置时间 设置分页 | |||||||||||
| |||||||||||
采集两遍后,我的审核数据和历史数据和入库文章里面站点的采集资料。继续采集它还采一遍……晕。
上面那个有点乱,重新附一个图片,注意是倒序采集。采集对象那里填写的是最后一页,然后分页那里是先倒数第二页,直到第一页。
[upload=gif]UploadFile/2005-11/200511210582119366.gif[/upload]