国产精品久久在线,超碰超碰在线,www.成人

HtmlCleaner是一個免費開源的適用范圍廣的Java語言Html文檔解析器，它能重新整理HTML文檔的每個元素并生成結構良好(Well-Formed)的 HTML 文檔。默認它遵循的規則是類似于大部份web瀏覽器為創文檔對象模型所使用的規則，戶可以提供自定義tag和規則組來進行過濾和匹配。

HtmlCleaner軟件特色

它被設計的小，快速，靈活而且獨立。HtmlCleaner也可用在Java代碼中，當命令行工具或Ant任務。解析后編程輕量級文檔對象，能夠很容易的被轉換到DOM或者JDom標準文檔，或者通過各種方式(壓縮，打印)連續輸出XML。

HtmlCleaner使用示例

寫一個測試用的html文件：html-clean-demo.html

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >

< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >

< head >

< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />

< meta http-equiv = "Content-Language" content = "zh-CN" />

< title > html clean demo </ title >

</ head >

< body >

< div class = "d_1" >

< ul >

< li > bar </ li >

< li > foo </ li >

< li > gzz </ li >

</ ul >

</ div >

< div >

< ul >

< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >

< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >

< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >

< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >

</ ul >

</ div >

</ body >

</ html >

Html代碼

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<head>

<title>html clean demo</title>

</head>

<body>

<ul>

</ul>

</div>

<div>

<ul>

</ul>

</div>

</body>

</html>

模擬需求：取出title，name="my_href" 的鏈接，div的class="d_1"下的所有li內容。下面用htmlcleaner寫代碼，HtmlCleanerDemo.java

package com.chenlb;

import java.io.File;

import org.htmlcleaner.HtmlCleaner;

import org.htmlcleaner.TagNode;

/**

* htmlcleaner 使用示例.

* @author chenlb 2008-11-26 下午02:12:02

public class HtmlCleanerDemo {

public static void main(String[] args) throws Exception {

HtmlCleaner cleaner = new HtmlCleaner();

TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );

//按tag取.

Object[] ns = node.getElementsByName("title" , true ); //標題

if (ns.length > 0 ) {

System.out.println("title=" +((TagNode)ns[ 0 ]).getText());

}

System.out.println("ul/li:" );

//按xpath取

ns = node.evaluateXPath("//div[@class='d_1']//li" );

for (Object on : ns) {

TagNode n = (TagNode) on;

System.out.println("\ttext=" +n.getText());

}

System.out.println("a:" );

//按屬性值取

ns = node.getElementsByAttValue("name" , "my_href" , true , true );

for (Object on : ns) {

TagNode n = (TagNode) on;

System.out.println("\thref=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());

}

Java代碼

package com.chenlb;

import java.io.File;

import org.htmlcleaner.HtmlCleaner;

import org.htmlcleaner.TagNode;

/**

* htmlcleaner 使用示例.

* @author chenlb 2008-11-26 下午02:12:02

public class HtmlCleanerDemo {

public static void main(String[] args) throws Exception {

HtmlCleaner cleaner = new HtmlCleaner();

TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");

//按tag取.

Object[] ns = node.getElementsByName("title", true); //標題

if(ns.length > 0) {

System.out.println("title="+((TagNode)ns[0]).getText());

}

System.out.println("ul/li:");

//按xpath取

ns = node.evaluateXPath("//div[@class='d_1']//li");

for(Object on : ns) {

TagNode n = (TagNode) on;

System.out.println("\ttext="+n.getText());

}

System.out.println("a:");

//按屬性值取

ns = node.getElementsByAttValue("name", "my_href", true, true);

for(Object on : ns) {

TagNode n = (TagNode) on;

System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());

}

cleaner.clean()中的參數，可以是文件，可以是url，可以是字符串內容。個人認為：比較常用的應該是evaluateXPath、 getElementsByAttValue、getElementsByName方法了。另外說明下，htmlcleaner 對不規范的html兼容性比較好。

HtmlCleaner更新內容

1.HtmlCleaner的文檔對象模型擁有了一些函數，處理節點和屬性，所以在序列化之前搜索或者編輯是非常容易的。

2.提供基本HtmlCleaner DOM的XPath支持

3.使用XML配置文件讓創建定制tag變得更加容易

4.修復多個bug以及API改進

PC官方版

安卓官方手機版

IOS官方手機版

日韩精品中文字幕一区二区-日韩精品中文字幕一区-日韩精品中文字幕视频-日韩精品在线一区二区三区-第一页在线-第一福利视频

html解析器(HtmlCleaner)2.13 免費版

相關軟件

Netman網絡人綠色版V3.0

網絡人NetmanV7.133 綠色版

HTCAD 免費版(內帶注冊機)v5.6

TMPGEnc DVD Author v3.0.9 綠色漢化免費版

TMPGEnc DVD Author V1.5.15.49 漢化補丁

tmpgenc 4.0 xpress 綠色漢化中文免費版

渲染巨匠(lightscape) 3.2 漢化版1.0 最新版

EnableRightClick解除右鍵限制的插件

拳皇(The King of Fighters) 2002

拳皇(The King of Fighters) 98

HtmlCleaner軟件特色

HtmlCleaner使用示例

HtmlCleaner更新內容

html解析器(HtmlCleaner)截圖

html解析器(HtmlCleaner) 2.13 免費版

擴展閱讀

本類最新軟件

本類軟件推薦