风讯官方论坛

首页 » FoosunCMS交流区 » 插件讨论 » 一个关于采集分页的问题
倾四海 - 2007-3-11 07:59:00

请教高手下面的分页应该怎么采?

<div align="right">本新闻共<font color=red>18</font>页,当前在第<font color=red>1</font>页  <br><font color="red">1</font>  <a href="13_05_39_831_2.htm">2</a>  <a href="13_05_39_831_3.htm">3</a>  <a href="13_05_39_831_4.htm">4</a>  <a href="13_05_39_831_5.htm">5</a>  <a href="13_05_39_831_6.htm">6</a>  <a href="13_05_39_831_7.htm">7</a>  <a href="13_05_39_831_8.htm">8</a>  <a href="13_05_39_831_9.htm">9</a>  <a href="13_05_39_831_10.htm">10</a>  <Br><a href="13_05_39_831_11.htm">11</a>  <a href="13_05_39_831_12.htm">12</a>  <a href="13_05_39_831_13.htm">13</a>  <a href="13_05_39_831_14.htm">14</a>  <a href="13_05_39_831_15.htm">15</a>  <a href="13_05_39_831_16.htm">16</a>  <a href="13_05_39_831_17.htm">17</a>  <a href="13_05_39_831_18.htm">18</a>  </div>


[此贴子已经被作者于2007-3-11 08:11:03编辑过]

hxr009 - 2007-3-12 17:11:00

同问``

weiyangshe - 2007-3-12 21:18:00

到目前我还没发现可以采集成功分页内容的

我使用火车头采集到可以 不过发布到风迅却怎么都发布不进来

十分之郁闷

zhwsz - 2007-5-7 21:02:00
到目前我还没发现可以采集成功分页内容的
zhwsz - 2007-5-8 18:27:00
请教:到底该怎么采集文章的分页,教程和录像没讲清楚!
zhwsz - 2007-5-11 18:24:00
希望能得到你的帮助,先谢谢了!
whwwhw007 - 2007-5-12 16:52:00
到目前我还没发现可以采集成功分页内容的, 其它的用的都不错,哦,顺便说一下,那个评论的应该再加引用功能,还有表情!  希望官方加强!

内容分页采集估计是采不了的!  试了两三个站,没一个是成功的!  我的进度全毁在这里了.数据目前还是空缺中!:'(
xcu06 - 2007-5-13 15:08:00
采集分页对风讯来说搜 垃圾!鸡肋!大家不要抱什么希望!
就是这个味 - 2007-5-15 12:56:00
上这里看看,也许对你有帮助:
http://www.homeqoo.com/html/hongai.html

鸿爱采集系统V1.1是一款BS的全能采集系统。和目前网上流行的CS版的万能采集系统,火车头采集系统功能类似。甚至更强。此版本为免费版。您可以任意传播复制修改。但不得用于商业用途。
免费版功能介绍:
1、采集规则需要在后台定义。后台目录/admin/ 帐户密码均为awen
2、可多任务,多线程采集。最多可20个任务。每任务最多100线程。根据服务器配置可自由设置。
3、可采集任何类型的网站信息,如新闻,下载,人才,供求,商城,图库,房产,论坛,博客等等。
4、支持续采,任意时候打开目标采集,同一站点不会出现重复信息。
5、规则支持正则表达式。比目前大多数CMS内带的采集灵活的多。比如目标站的HTML结构发生变化时,由于采用的是正则表达式截取字段。故可以最大限度的适应变化。维护方便的多。
6、支持分页采集。
7、支持目标页自带内分页采集。同一信息的多个分页自动更新到一条信息。
8、支持多种数据库,XML,SqlServer,Access。后台可自由设置。
9、完全脱离于您使用的程序。可单独使用,也可整合到您的后台。不需要对程序有任何的了解就可以使用。只需要了解数据库结构即可。
10、字段支持直接赋值,随机赋值,asp代码执行后赋值。不仅仅是直接采集得到字段的值。
11、可任意定义字段个数,字段中英名称。
12、采集字段不够库中字段时,可定义附加字段赋值。
13、支持顺序倒序采集。支持目标条数上限。达到多少条信息自动停止。
14、后台按所有字段查询任务规则。更方便修改规则。
15、后台定义好任务后可先测试采集。即试采。实时掌握规则定义情况。
16、后台可复制采集规则。大大降低了工作量。
17、字段支持数据不在目标页的采集。这一点相当重要和强大。目前流行ajax,或Js或动态页返回值。普通的采集系统只能采集直接能看到的数据。而若没有此项功能。直接看到的将可能是<script src="另一个页面?参数=多少"></script>这种信息。但真正的信息却在另一个页面。鸿爱采集就能把这另一个页面的信息“揪”出来。

正式版介绍:
正式版比免费版效率提高40倍,有效排除内页有分页时的干扰信息。比如外部站的信息,或者“热门新闻”,“相关新闻”等链接。可采集需要登录的页面。更有效防止重复信息,空信息,无效信息,垃圾信息等。维护更方便。过滤更精准,可指定哪些代码不被过滤,如只过滤html不过滤图片和文字。支持远程存图,图片水印。等等。
wenmeng - 2007-5-16 11:54:00
偶最多可以设置采集到3个分页..希望风讯加强啊.
DiXcovery - 2007-5-22 07:10:00
</font>&nbsp;&nbsp<a href="[分页新闻]">[变量]</a>



----------------------------------
注意有两个空格的代码. 这里显示不出来 就是..&    n    b  s  p  ;
就是这个味 - 2007-5-22 23:59:00


引用:
原帖由 DiXcovery 于 2007-5-22 07:10:00 发表
</font>&nbsp;&nbsp<a href="[分页新闻]">[变量]</a>



----------------------------------
注意有两个空格的代码. 这里显示不......


用鸿爱采集http://www.homeqoo.com/html/hongai.html,如上面说的。这样设置就可以随便他变成什么了:
</font>.*?<a.*?分页新闻.*?>.*?</a>
还可以用([\S\s]*?)支持回车换行的匹配。
上面说的,如果别人多加一个空格,你就马上采集不到内容了。:)维护起来相当麻烦。
1
查看完整版本: 一个关于采集分页的问题