已经采集成功了(详细请往下看 7、8、9 楼)
以下这段代码该如何采集呢??
我用了很多的方式都采集不到,就只能采到第一页。下面的页面都采集不到>
<table width="440" border="0" cellspacing="0" cellpadding="0">
<tr>
<td width="20"></td>
<td width="400" align="center"><div class="pages"><span class="nextpre">« 前一页</span><span class="current">1</span><a href="0101_199_58059_1.shtml" title="Go to page 2">2</a><a href="0101_199_58059_2.shtml" title="Go to page 3">3</a><a href="0101_199_58059_3.shtml" title="Go to page 4">4</a><a href="0101_199_58059_4.shtml" title="Go to page 5">5</a><a href="0101_199_58059_1.shtml" class="nextprev" title="Go to Next Page">后一页 »</a></div>
</td>
<td width="20"></td>
</tr>
</table>
我的是这样写的:<span class="current">[变量]</span><a href="[新闻分页]" title="Go to page
试过用好几种方式了,都采集不到
[此贴子已经被作者于2007-1-24 10:32:32编辑过]
采集图片时,也出现同样的问题?????
标签好象是 [分页新闻]
如果是4.0的话 ... 请参考官方教程
谢谢你的回复,我已经成功的采集到了,花了好几个星期的时间,终于搞定了。
现在快要下班了,等明天或是什么时候,我回来贴一下我的方法吧。
我回来了!
很多人在论坛上说什么分页采集BUG。我差一点就相信了,但是因为在论坛上零星的有看到一些采集成功的信息,所以还是认为主要问题,是出在自己的采集设置上出了问题?因此我就在上面发贴子,希望能找到答案。
同时,我也自己的试着找原因,试不同的采集设置。
以下谈谈我个人在这次采集过程的一些经验:
A、别要一出现问题,脑里第一个就是“程序有BUG”,就出声骂,影响到后来者。
B、多在论坛上找找,如果不能直接的找到答案,就先发个贴子。但是不能死等,(毕竟回不回答你、能不能回答都是你无法知晓的)。你可以找一些相关的贴子看看,看能不能找到修改你问题的灵感。
C、在分页采集不成功的问题里,很多人都把注意力,放到了最后的那个分页设置。认为是这个设置出现了问题。理由就是没有分页时,前面那那些设置都是成功的。其实这是不对的,我之前就是犯了这个毛病了。那些设置都是相关的,我之所以会采集到第一页而采集不到其他的,就是因为我的内容设置不符合。
现在写一下我自己的分页采集方法
我采集的是凤凰,它的编码是:UTF-8的,所以如果想要采集的话得改一下:
网站位置/Admin/Collect/inc/Function.asp
搜索一下:GB2312,然后把它改成:UTF-8
下面就是我的采集设置了。
| 列表URL* | 输入区域: 缩小 扩大 可用标签:[列表URL] [变量] | ||||||
新闻标题* | 输入区域: 缩小 扩大 可用标签:[新闻标题] [变量] | ||||||
新闻内容* | 输入区域: 缩小 扩大 可用标签:[新闻内容] [变量] | ||||||
设置作者 设置来源 设置时间 | |||||||
| |||||||
不设置新闻分页 新闻标记分页 新闻索引分页 新闻手动分页 | |||||||
| |||||||
在设置上面的法则的过程中出现了两个大的失误:
A、如果“新闻内容”没设置好的话,那是采集不了分页的。对于这条原则我没找出具体的原则,我只是知道,我这里没有把“« 前一页12345678910后一页 »”包含进来,但我想这不是主要的问题。因为在论坛上有人要求把它加进去,那个人会那样去要求应该是它有那样采集成功过。所以具体怎样还得大家都试。
B、如果“分页新闻”那设置在(“« 前一页12345678910后一页 »”)红色这个位置的话,它就只能采集到第二页,其它的都采不到。经过测试我把它设置在“后一页”这里。
至此所有分页都采集到了?
很多人不在问采集到的结果是怎样的?
第一页新闻内容
[Page]
第二页新闻内容
[Page]
第三页。。。。。
[Page]
最后一页
最后祝大家都能采集到,为网络上的共享而喝采吧!!!