我需要拆分文本并仅获取单词、数字和连字符组成的单词。我还需要获取拉丁词,然后我使用了\\p{L},它给了我 \xc3\xa9、\xc3\xba \xc3\xbc \xc3\xa3 等等。例子是:
String myText = "Some latin text with symbols, ? 987 (A la pointe sud-est de l\'\xc3\xaele se dresse la cath\xc3\xa9drale Notre-Dame qui fut lors de son ach\xc3\xa8vement en 1330 l\'une des plus grandes cath\xc3\xa9drales d\'occident) : ! @ # $ % ^& * ( ) + - _ #$% " \' : ; > < / \\ | , here some is wrong\xe2\x80\xa6 * + () e -"\n\nPattern pattern = Pattern.compile("[^\\\\p{L}+(\\\\-\\\\p{L}+)*\\\\d]+");\nString words[] …Run Code Online (Sandbox Code Playgroud)