个人资料

主页 博客 留言板 搜索
跳过导航链接首页 > 博客列表 > 博客正文

使用js和正则表达式提取html中的纯文本和图片地址

分类

    使用正则表达式提取html第一张图片的地址(c#)

       /// <summary>
        /// 取得HTML中第一张图片的 URL。
        /// </summary>
        /// <param name="sHtmlText">HTML代码</param>
        /// <returns>图片的URL列表</returns>
        public static string GetHtmlImageUrl(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签
            Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
            // 搜索匹配的字符串
            MatchCollection matches = regImg.Matches(sHtmlText);           
            // 取得匹配项列表    
            string sUrlList = matches[0].Groups["imgUrl"].Value;
            return sUrlList;
        }

     使用正则表达式提取html文本中纯文字的内容(js)

<script>
      var htmlstr =document.getElementById(<%# Eval("ID", "{0}") %>).innerText;
      htmlstr = htmlstr.replace(/<[^>]+>/g, '');                                                   
      document.getElementById(<%# Eval("ID", "{0}") %>).innerHTML= htmlstr;               
</script>

正则表达式获取html 图片地址 (全部)


/// <summary> 
        /// 取得HTML中所有图片的 URL。 
        /// </summary> 
        /// <param name="sHtmlText">HTML代码</param> 
        /// <returns>图片的URL列表</returns> 
        public   string[] GetHtmlImageUrlList(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签 
            Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

            // 搜索匹配的字符串 
            MatchCollection matches = regImg.Matches(sHtmlText);
            int i = 0;
            string[] sUrlList = new string[matches.Count];

            // 取得匹配项列表 
            foreach (Match match in matches)
                sUrlList[i++] = match.Groups["imgUrl"].Value;
            return sUrlList;
        }



songshizhao
最初发表2017/2/19 18:42:34 最近更新2017/2/19 18:42:34 4339
为此篇作品打分
10