java使用htmlparser抓取网页信息,中文字符显示为“??”,如何解决?

2025-03-02 14:45:24
推荐回答(2个)
回答1:

建议采用jsoup来抓取和解析文件。

jsoup支持css选择器。

下面是一个简单的例子:

Document doc = Jsoup.parse(in/*文件流*/, charset/*字符集*/, service/*相对地址*/);
Element e = doc.select("div[id=myid]").get(0);// 用选择器选择元素
List childs = new LinkedList(e.childNodes());
for (Iterator iter = childs .iterator(); iter.hasNext();) {
   iter.next().remove();// 移除找到元素的所有子元素

e.appendText("sometext");    // 追加新内容
String content = doc.html(); // 生成结果

回答2:

那是因为编码不匹配,所以显示不出来