建议采用jsoup来抓取和解析文件。
jsoup支持css选择器。
下面是一个简单的例子:
Document doc = Jsoup.parse(in/*文件流*/, charset/*字符集*/, service/*相对地址*/);
Element e = doc.select("div[id=myid]").get(0);// 用选择器选择元素
Listchilds = new LinkedList (e.childNodes());
for (Iteratoriter = childs .iterator(); iter.hasNext();) {
iter.next().remove();// 移除找到元素的所有子元素
}
e.appendText("sometext"); // 追加新内容
String content = doc.html(); // 生成结果
那是因为编码不匹配,所以显示不出来