一篇英文的文章,怎么通过JAVA代码,提取里面所有的单词?

2024-11-29 18:38:44
推荐回答(1个)
回答1:

读取txt文件可以用逐行扫描方式,提取单词用正则表达式。

前提:出现的连续英文字符就是单词;除了英文字符外地所有字符都不是单词;每行的最后一个单词不能断字,即hel-(提行)lo。

// 读取文件就省略了哈
String s = "I have 5 apples... How much do you have?";
// 以出现1次或多次的非英文符号为单词的分隔
String[] a = s.split("[^a-zA-Z]+");
// 输出结果,总共有8个单词
System.out.println(a.length);