风讯官方论坛FoosunCMS交流区插件讨论请教采集高手:如何采集用word文档转html的网页?

1  /  1  页   1 跳转 查看:1124

标题: 请教采集高手:如何采集用word文档转html的网页?

请教采集高手:如何采集用word文档转html的网页?

如何采集WORD文档转html的网页?大家都知道WORD转HTML会生成大量垃 圾代码,然而想采集这样的文档真的很难,难点就在如何过滤垃 圾代码上,请高手指点一二!目前我所能做的就是将HTML文档下载下来,然后用软件批量转换.几千条啊,累死人了.

[此贴子已经被作者于2005-10-31 12:34:21编辑过]

引用
 

没采过,感觉用WORD 转HTML有点BT,应该很稀有吧?

引用
 

http://www.ahpi.gov.cn/jgzc/皖价商[2005]276号.htm


其实不BT,因为有些人对网页的制作并不懂,用WORD转HTML的方式让他们的工作更为简单,也是懒人的做法,你看看上面的那个网页的源码你就明白了,但是要采集这样的网页是非常的难。


[此贴子已经被作者于2005-10-31 12:55:44编辑过]

引用
 

那是肯定的,一般那样的站每个页面的标记都不一样的,


确定采集页面标题和内容是问题啊

引用
 

也不全是你说的那样,采集页面标题和内容基本上都可以确定,只有部分文件不一样,因为我仔细查看了一下,有三种形式:1、直接用WORD文档转换的HTML文档,2、采用筛选过的WORD转HTML的HTML文档,3、纯HTML格式的文档。


难点就难在如何过滤WORD转换HTML的内容过滤问题,垃 圾代码暴多,但相似点也很多,筛选过的HTML文档要好一点,体积会小一半以上。

引用
 

过滤不好确定部分可以用变量,不过要小心别把需要的代码替换掉了
引用
 

http://cache.baidu.com/c?word=%BC%DB%B8%F1%3B%D5%FE%B2%DF%3Bdoc&url=http%3A//www%2E12358%2Ecom%2Ecn/Aspx/CommonPage/UploadFile/3ca63829%2D4e02%2D40c5%2D8e11%2D709bb235a21f%2Edoc&b=0&a=41&user=baidu
看看百度是怎么过滤的


给出两种版本,一种是DOC格式,一种是html格式。


因为我遇到这样一个问题,直接采集回来后,在生成网页时,程序停止响应。


因为文章太多,有2000多条,我现在只能采用一个方法,首先把每个文档的URL采集下来,然后从采集数据库中把URL复制出来,然后用软件下载下来,再用软件批量转换。我哭,还要我安装office2000!
谁能给我想出更好的办法?

引用
 

这种情况我建议你使用离线浏览器,


下到本地然后用DW的批量替换。

引用
 

没错,我也是用这种方法来采集一些标题和内容的标记不清,难以采集的网站
引用
 
1  /  1  页   1 跳转

版权所有 Foosun.NET  NewsCMS.com  NewsIDC.COM  Sitemap

Powered by Discuz!NT 2.0.1115    Copyright © 2001-2009 Comsenz Inc.
Processed in 0 second(s) (Cached).
返顶部