PHP正则表达式过滤html标签属性(DEMO)

上海迅速网络

2026-08-03

1234

上海迅速网络

在PHP中，你可以使用正则表达式来过滤HTML标签中的属性。下面是一个简单的DEMO示例，演示如何移除HTML标签内所有的属性，仅保留标签本身。

示例代码

php

深色版本

<?php

// 待处理的HTML内容
$html = '<div class="container" id="main-container"><p style="color:red;" data-id="123">Hello World!</p></div>';

// 使用正则表达式移除所有HTML标签内的属性
$cleanHtml = preg_replace('/<([a-z][a-z0-9]*)[^>]*?(\/?)>/i', '<$1$2>', $html);

echo "原始HTML:\n";
echo htmlspecialchars($html);
echo "\n\n过滤掉属性后的HTML:\n";
echo htmlspecialchars($cleanHtml);

?>

解释

<([a-z][a-z0-9]*)[^>]*?(\/?)>：这是匹配HTML标签及其可能存在的属性的正则表达式。
- <([a-z][a-z0-9]*) 匹配起始的标签名，如 div 或 p。
- [^>]*? 非贪婪地匹配任何不在 '>' 中的字符（即标签内的属性）。
- (\/?) 匹配可能存在的自闭合斜杠 /，用于像 <img /> 或 <br /> 这样的标签。
'<\1\2>'：替换模式，\1 和 \2 分别对应于第一个和第二个括号内的捕获组，即标签名和自闭合斜杠（如果有的话）。这意味着我们只保留标签名称和必要的自闭合斜杠，而丢弃了其他所有属性。

输出结果

运行上述代码后，输出将如下所示：

深色版本

原始HTML:
<div class="container" id="main-container"><p style="color:red;" data-id="123">Hello World!</p></div>

过滤掉属性后的HTML:
<div><p>Hello World!</p></div>

这样，你就成功地使用PHP正则表达式移除了HTML标签中的所有属性，仅保留了标签结构。不过需要注意的是，对于复杂的HTML文档，使用专门的HTML解析器（如DOMDocument类）可能会更安全、更可靠。正则表达式适用于简单的情况，但对于非常复杂或不规则的HTML结构，它可能无法完美处理。

特别申明：本站的主旨在于收集互联网运营相关的干货知识，给运营小伙伴提供便利。网站所收集到的公开内容均来自于互联网或用户投稿，并不代表本站认同其观点，也不对网站内容的真实性负责，如有侵权，请联系站长删除

业务联系

迅速服务号

扫码添加微信好友

我们来联系您