.NET(C#)用正则表达式清除HTML标签（包括script和style），保留纯本文

如今是互联网时代，随时随刻都在接触网页数据。那么对于.NET的开发人员来说，处理网页源码就是有时候就不能避免了。今天给大家分享.NET用正则表达式清除HTML标签的通用方法。使其保留网页源码中的纯文本，具体方法：

#region去掉HTML中的所有标签,只留下纯文本
///<summary>
///去掉HTML中的所有标签,只留下纯文本
///</summary>
///<paramname="strHtml"></param>
///<returns></returns>

publicstaticstringCleanHtml(stringstrHtml){if(string.IsNullOrEmpty(strHtml))returnstrHtml;//删除脚本
//Regex.Replace(strHtml,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase)
strHtml=Regex.Replace(strHtml,"(\<script(.+?)\</script\>)|(\<style(.+?)\</style\>)","",RegexOptions.IgnoreCase|RegexOptions.Singleline);//删除标签
varr=newRegex(@"</?[^>]*>",RegexOptions.IgnoreCase);
Matchm;for(m=r.Match(strHtml);m.Success;m=m.NextMatch())
{
strHtml=strHtml.Replace(m.Groups[0].ToString(),"");
}returnstrHtml.Trim();
}
#endregion

云点博客

免费在线屏幕测试工具

工具/效果集合

标签云

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

去顶部