如今是互联网时代,随时随刻都在接触网页数据。那么对于.NET的开发人员来说,处理网页源码就是有时候就不能避免了。今天给大家分享.NET用正则表达式清除HTML标签的通用方法。使其保留网页源码中的纯文本,具体方法:
#region去掉HTML中的所有标签,只留下纯文本 ///<summary> ///去掉HTML中的所有标签,只留下纯文本 ///</summary> ///<paramname="strHtml"></param> ///<returns></returns> publicstaticstringCleanHtml(stringstrHtml){if(string.IsNullOrEmpty(strHtml))returnstrHtml;//删除脚本 //Regex.Replace(strHtml,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase) strHtml=Regex.Replace(strHtml,"(\<script(.+?)\</script\>)|(\<style(.+?)\</style\>)","",RegexOptions.IgnoreCase|RegexOptions.Singleline);//删除标签 varr=newRegex(@"</?[^>]*>",RegexOptions.IgnoreCase); Matchm;for(m=r.Match(strHtml);m.Success;m=m.NextMatch()) { strHtml=strHtml.Replace(m.Groups[0].ToString(),""); }returnstrHtml.Trim(); } #endregion