它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。研赚app赚钱下载-研赚app邀请码1.2.0红包版
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
万博投注规则 多乐彩乐乐网 乐鱼体乐鱼入口 手机体育竞彩 田径场体育游戏 新用户送58彩金bet365 dafabet取款要多久 dafabet应用首页 PC蛋蛋时时彩APP 九游会地下空间最新消息 众博应用手机登录 山东体育主持人名单 体育城大亨无限 环球体育咋样投诉 德赢和博鱼展开内容
云创办公下载安装-云创办公app2.3.3 官方版
赛莎视界app下载-赛莎视界官方客户端1.0.1最新版
维京人村庄游戏下载-维京人村庄游戏0.17 最新手机版
荣耀崛起中文版下载-角斗士版荣耀崛起1.0手机版
Real Transport Truck Simulator(真正的运输卡车模拟器)1.0.3 安卓版
王者传奇回收版手游下载-王者传奇回收版1.0.7.371热血版
天嗨助手-天嗨苹果助手3.3.8.0 最新版
善酒庄app1.0.0 无广告版
脑筋急转弯3650问V9.30.408 安卓版
V聊啪app2.3.0 安卓版
锤子一键Root教程-锤子一键Root3.3.00 安卓最新版
蛋蛋熊家族搞怪QQ表情工具-蛋蛋熊家族搞怪QQ表情包中文官方版
众神大冒险上线送五星下载-众神大冒险上线送五星1.0手机版
士林变频器说明书下载-士林变频器操作手册pdf完整版
康岁健康app-康岁健康手机客户端4.1.2 安卓版
8.0/156.1M
这款游戏是超热血的传奇系列游戏,游戏虽然小,但是在游戏里面是可以pk对战的,通过提升战斗力加入pk竞技场里面和其他人对弈哦,轻松组队找到自己的联盟,游戏升级都是...
7.7/1,766.2M
精选好货助手app是一款非常实用的手机开店后台软件,app上有着非常丰富的优质折扣商品能够批发,涵盖名品服饰鞋包、美妆、母婴、居家、日用百货等品类,店主只需一键...
7.7/1,771.9M
这是一款很好玩的休闲游戏,TwistHit(捻击),游戏画风很唯美,融入了当下最环保的植树概念,让我们一起来拯救森林吧!怎么玩填上花环植树,拯救整个森林。你能种...
红裤衩游戏下载安装-红裤衩游戏(独行侠Lonerangerix自制)1.0 安卓版
7.5/1,880.6M
知名游戏UP主独行侠Lonerangerix将红裤衩广告做成小游戏又将出现哪些惊喜内容呢,游戏内加入了僵尸和鲨鱼元素,红裤衩大战僵尸,目前仅有八个关卡能体验到不...
9.9/1,222.9M
是一款很实用的企业办公服务类软件,软件为用户提供公司注册、工商服务、税务管理等功能,帮助想要注册公司的朋友们一键搞定流程!商浪app介绍商浪,是中国广受欢迎的一...
9.2/1,694.9M
妖精模拟战礼包版是一款卡牌手游,游戏以经典丰富的剧情故事深入人心,带你进入奇幻世界,激烈的高手对决,决一死战。玩家在游戏中将领略各种不同法系的仙法,要加油争做法...
晴点AI数数app下载-晴点AI数数智能识别计数工具1.0.0 安卓最新版
10.0/147.5M
晴点AI数数智能识别计数工具适合需要做大量计数识别的,这是感上线不久的,也是官方最新版本,识别效率和准确度都很不错,感觉很不错,给大家分享下。晴点AI数数智能识...
百度音乐10.1.9.1 单文件绿色版-百度音乐10.1.9VIP去广告绿色特别版官方最新版
8.5/1,525.0M
百度音乐在大家的电脑上面都是经常的会使用到的听歌软件,那么你想要免费的版本或者是会员的都是可以直接的来下载这款百度音乐10.1.19去广告VIP特别版!百度音乐...
Protection of salary(AS01) 1.0地图下载-Protection of salary(AS01) 1.0正式版【攻略+隐藏英雄密码】
7.6/469.3M
Protectionofsalary(AS01)1.0正式版是守护薪水这部地图的番外篇,给大家提供最新的1.0正式版本下载,重磅制作的一张地图,非常好玩的内容,...
疯狂大海龟红包版下载最新版-疯狂大海龟下载安装735.105 最新版
7.6/1,104.8M
汇服八方新出的游戏,疯狂大海龟是消消乐版本,简单玩一下可以拿0.3以上。游戏玩法很简单的,就是消灭星星的玩法设计,直接点击消灭方块就可以了,没事的时候点几下就可...
百度版神都夜行录下载-神都夜行录手游百度版1.0.52 百度手机版
9.3/441.4M
神都夜行录是一款网易出版的以百鬼夜行作为故事题材的动作冒险类角色扮演手游。游戏画面采用精美的浮世绘风格,华丽唯美的人物造型,带给玩家极致的视觉享受,该作另辟蹊径...
8.2/1,531.4M
CANAL笔记所有功能免费开放,操作简单便捷,轻松满足高效记录需求。无论是生活点滴、学习心得还是事务管理,均可快速记录,还能一键输入内容,提升记录效率。此外,支...
饥荒1000天存档下载-饥荒1000天存档1.0 绿色免费版 【纯手工一千天】
8.1/1,189.7M
想要长时间的在饥荒游戏中不死,就不能缺少饥荒1000天存档工具。借助这样的软件就能够拥有非常多的物品,而且随便你怎么用都可以。想要的就赶紧来此下载吧!饥荒100...
8.5/560.3M
彩虹喵pro提供丰富的壁纸、表情包、组件和头像资源,帮助用户个性化手机桌面,所有素材实时更新且完全免费,还支持自定义倒数日功能。彩虹喵pro使用教程1、在本站下...
9.3/430.3M
现在自媒体大爆发,很多朋友开始做自己的媒体,小火花自媒体助手就是一款好用的自媒体运营工具,支持头条、企鹅、大鱼、百家号四大平台所有视频、文章、图集等,用技术提升...
养成教育主题班会ppt-小学生行为习惯的养成教育课件免费版【共36页】
9.8/1,424.4M
这是一份由36页组成的、内容完全免费的适合小学阶段进行查阅使用的小学生行为习惯的养成教育ppt课件(以下简称为养成教育主题班会ppt),如果作为班主任老师的你需...
舞谱app-舞谱(舞蹈教学视频app)1.0.2 安卓免费版
8.9/989.0M
舞蹈教学视频app可以给所有的喜欢学习舞蹈的朋友,提供各种各样的舞蹈教学视频,帮助你更好的更快的学习好最新的舞蹈,是你现在手机上不可以缺少的软件!舞蹈学习技巧1...
桌面大鹅下载手机版-桌面大鹅(Goose)1.0.0 安卓版
8.5/1,601.8M
桌面大鹅是一款超有趣的休闲游戏,游戏内容沙雕有趣,这只大鹅真的是令人又爱又恨,游戏中有着各种的剧情内容,快来体验最搞笑的游戏吧~感兴趣的小伙伴快来东坡下载吧!桌...
四叶草战纪官方版下载-四叶草战纪手游ios版1.0 手机正版
8.5/1,824.3M
四叶草战纪是一款非常好玩的新生代3D奇幻MMORPG。游戏画风超级棒,玩家将在游戏中探索未知的世界。宏达的世界观,丰富的游戏剧情,自由策略组合神技玩法,给你绝佳...
孩子们的空间冒险下载-孩子们的空间冒险游戏Space Station1.1.8 手机版
9.7/20.5M
太空冒险的新时代!您想让孩子们实现梦想,并参加令人兴奋的太空冒险吗?让我们去太空站并建造自己的太空飞船!为孩子们玩有趣的太空游戏。参加宇航员课程并收集所有谜题,...
7.8/41.6M
陷阵之志游戏,是一款回合制策略游戏,在游戏中,玩家要操控人类机甲和外星生物作战,找到强大的新武器与驾驶员,如果玩家被击败,可以回溯时间寻求支援。游戏玩法在一片简...
9.3/1,021.0M
合战天下手游官方版是一款很好玩的策略类游戏,游戏以三国为背景题材,玩家在游戏中需要招募并培养自己手下的名将,你需要带领他们攻打敌人,最终称霸三国!游戏介绍《合战...
Boat.io Void Blackhole(虚空黑洞io游戏)1.0 安卓最新版
8.9/55.6M
这是一款最新的黑洞io系列休闲游戏,游戏可以多人在线畅玩,离线也可以玩,玩家需要控制黑洞来吞噬所有的东西,游戏玩法非常的有趣!游戏特色大海,大河大船,小船无尽的...
汉字转拼音软件下载-汉字拼音查找(汉字转拼音软件)1.0 绿色免费版
9.6/1,130.6M
汉字拼音查找软件是一款可以帮助你把汉字转换为拼音的工具,这款软件可以帮助很多的小学生更好的学习学会拼音,有需要的家长朋友就可以下载试试!汉字拼音查找主要功能有些...
8.5/627.0M
蕴含了多种元素的策略桌游,这里提供的就是卡坦岛手机版的,灵活配置各种资源,更快速的进行发展,规则非常简单,但是完好就不容易了。游戏背景游戏以大航海时代时航海家发...