云点博客-关注全栈开发云点博客

关注全栈开发
提升用户体验

.NET(C#)用正则表达式清除HTML标签(包括script和style),保留纯本文

如今是互联网时代,随时随刻都在接触网页数据。那么对于.NET的开发人员来说,处理网页源码就是有时候就不能避免了。今天给大家分享.NET用正则表达式清除HTML标签的通用方法。使其保留网页源码中的纯文本,具体方法:

#region去掉HTML中的所有标签,只留下纯文本
///<summary>
///去掉HTML中的所有标签,只留下纯文本
///</summary>
///<paramname="strHtml"></param>
///<returns></returns>

publicstaticstringCleanHtml(stringstrHtml){if(string.IsNullOrEmpty(strHtml))returnstrHtml;//删除脚本
//Regex.Replace(strHtml,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase)
strHtml=Regex.Replace(strHtml,"(\<script(.+?)\</script\>)|(\<style(.+?)\</style\>)","",RegexOptions.IgnoreCase|RegexOptions.Singleline);//删除标签
varr=newRegex(@"</?[^>]*>",RegexOptions.IgnoreCase);
Matchm;for(m=r.Match(strHtml);m.Success;m=m.NextMatch())
{
strHtml=strHtml.Replace(m.Groups[0].ToString(),"");
}returnstrHtml.Trim();
}
#endregion


赞(0) 打赏