查看其它板块

火车头采集器如何过滤掉多余的标签（纯正则替换）

来源：常见问题解疑 - 远策科技 | 2022-01-24

火车采集器几乎所有网页都能采集，用途很广。比如网站采集内容、采集数据挖掘客户、舆情监测、文件批量下载等。我日常主要用于网站日常采集文章，今天分享下如何通过火车采集器得到一个”标准“的内容。

这里所谓的标准，是所采集的文章每一个段落都是，没有多余的HTML标签和与主题无关的字符。这里我们可以通过纯正则替换达到我们的目的。

以下为一些常用的纯正则替换规则示例：

清除与正文无关的内容

正则<header>[\s\S]*?</header>|| |规则4|规则5

替换空

如文中的广告，注释等。如果发布到一些免费平台，有的HTML特殊字符并不会被转化，只需在末尾加入'|&.*?;'过滤掉最后特殊HTML字符即可。

只保留图片以及常用的块级元素

正则 (?i)<(?!/?h|/?p|/?div|br|img).*?>

替换空

只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写

把标签修改为p

正则<(?!img)(/?)\w+.*?>

替换<$1p>

去掉除了img标签外的所有标签的选择器或样式，并把标签修改为p，如果需要保留其他标签可以参考这样写 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 这里是保留img和h标题标签

改成标准图像代码

正则<img.*?src="(.+?)".*?>

替换<img src="$1">

把乱七八糟的图像样式，改成标准图像代码

规范段落标签

正则</?p>

替换

规范段落标签开始结束，某些站个别文章,结束后没有开始就直接是下个段落的内容

段落去除前后空格

正则 \s*(<\/?p>)\s*

替换$1

把或前后的空格替换为空

去除多余P标签

正则(){2,}|(){2,}

替换$1$2

把连续2个以上的或替换为1个

去除空段落

内容

替换空

把所有的空段落替换为空，普通替换即可

清理多余标签

正则 ^|$

替换空

由于第五步的关系，文章开头可能是结尾可能是需要清理他们

其他可能用到的

过滤英文正则[a-zA-Z]

过滤两位以上的数字(\d{2,100})

返回首页了解更多常见问题解疑

远策科技

河北远策科技有限公司以工匠精神打造精致服务，不循规蹈矩，不惊世骇俗，为企业互联网营销整合方案，服务涵盖：网站建设、网站推广、品牌优化、微信开发、VI设计、视频制作等。解决企业互联网营销难题，让企业不再为推广而烦恼。

远见卓识

10年网站建设推广经验

18家优秀合作设计机构

117家品牌长期合作共赢

1000+网站建设案例作品

专注营销型网站建设定制

深厚经验网站建设团队

完备的项目流程管理体系

企业一站式网络推广服务

策无遗算

一路走来，崇尚创意是我们的活力和根源，让客户满意是我们工作的目标，不断超越客户的期望值源自我们对这个行业的热爱！远策科技结合十年互联网品牌设计经验和整合营销的理念，将策略和执行紧密结合，有效提升企业推广整体表现！

建站公司地址：石家庄市长安嘉和广场1911、裕华区ICC环球智慧中心24F | 业务咨询：131-1155-0088 , 159-3167-7513

河北远策网络公司为您提供石家庄网站建设制作,网站优化推广,网站改版托管等 | 冀ICP备18035311号-1 | SITEMAP | 冀公网安备:13010202002454号

首页

网站建设

营销推广

微信开发

资讯

案例

联系

探知 • 创造美好

查看其它板块

火车头采集器如何过滤掉多余的标签（纯正则替换）

快捷标签

多一份参考，总有益处

远策科技

远见卓识

策无遗算

相关链接展开

远策 - 建站推广一站式服务

131-1155-0088

首页

网站建设

营销推广

微信开发

资讯

案例

联系

关于

Yuan Ce

探知 • 创造美好

查看其它板块

火车头采集器如何过滤掉多余的标签（纯正则替换）

快捷标签

多一份参考，总有益处

远策科技

远见卓识

策无遗算

相关链接 展开

远策 - 建站推广一站式服务

131-1155-0088

微信扫码 立即咨询

相关链接展开

微信扫码立即咨询