我上一个问题的扩展:
文本清理和替换:从Java中的文本中删除\n
我正在清理这个来自具有不规则文本的数据库的传入文本.这意味着,没有标准或规则.有些包含像®,&trade,<等HTML字符,其他的有这种形式:”,–等.其他时候我只用<和>获取HTML标签.
我正在使用String.replace来替换字符的含义(这应该没问题,因为我正在使用UTF-8吗?),并且replaceAll()用正则表达式删除HTML标记.
除了为每个替换调用replace()函数以及编译HTML标记正则表达式之外,是否有任何建议使这种替换有效?
使用pdfbox我可以从PDF获取文本.文字是这样的:
Run Code Online (Sandbox Code Playgroud)abcabcabs Phrase 1 123 abc 123 abcabcabs 123 abcabcabs 123 abc 123 Phrase 2 abcabcabs 123 abc 123
使用正则表达式我试图获取内容Phrase 1
,Phrase 2
但看起来我只能在一行中的单词之间获取文本.我试图删除\n
使用这些方法,但我的文本文件总是与上面的新行.
如何在一个没有线条的巨型字符串中获取文本并将其打印在屏幕上?
我在Facebook上为Android应用程序工作.我必须使用字符串作为URL传递.但我的描述值有很多空格和换行符.我必须纠正,同时将该值作为url传递,没有空格.但它会在facebook墙上张贴空格.可能吗?任何的想法.