[此贴子已经被作者于2005-10-31 12:34:21编辑过]
没采过,感觉用WORD 转HTML有点BT,应该很稀有吧?
http://www.ahpi.gov.cn/jgzc/皖价商[2005]276号.htm
其实不BT,因为有些人对网页的制作并不懂,用WORD转HTML的方式让他们的工作更为简单,也是懒人的做法,你看看上面的那个网页的源码你就明白了,但是要采集这样的网页是非常的难。
[此贴子已经被作者于2005-10-31 12:55:44编辑过]
那是肯定的,一般那样的站每个页面的标记都不一样的,
确定采集页面标题和内容是问题啊
也不全是你说的那样,采集页面标题和内容基本上都可以确定,只有部分文件不一样,因为我仔细查看了一下,有三种形式:1、直接用WORD文档转换的HTML文档,2、采用筛选过的WORD转HTML的HTML文档,3、纯HTML格式的文档。
难点就难在如何过滤WORD转换HTML的内容过滤问题,垃 圾代码暴多,但相似点也很多,筛选过的HTML文档要好一点,体积会小一半以上。
给出两种版本,一种是DOC格式,一种是html格式。
因为我遇到这样一个问题,直接采集回来后,在生成网页时,程序停止响应。
因为文章太多,有2000多条,我现在只能采用一个方法,首先把每个文档的URL采集下来,然后从采集数据库中把URL复制出来,然后用软件下载下来,再用软件批量转换。我哭,还要我安装office2000!
谁能给我想出更好的办法?
这种情况我建议你使用离线浏览器,
下到本地然后用DW的批量替换。