相关疑难解决方法(0)

我正在清理这个来自具有不规则文本的数据库的传入文本.这意味着,没有标准或规则.有些包含像®,&trade,<等HTML字符,其他的有这种形式:”,–等.其他时候我只用<和>获取HTML标签.

我正在使用String.replace来替换字符的含义(这应该没问题,因为我正在使用UTF-8吗？),并且replaceAll()用正则表达式删除HTML标记.

除了为每个替换调用replace()函数以及编译HTML标记正则表达式之外,是否有任何建议使这种替换有效？

4
推荐指数

1
解决办法

3714
查看次数

使用pdfbox我可以从PDF获取文本.文字是这样的:

abcabcabs  Phrase 1 123 abc 123

abcabcabs 123 abcabcabs 123 abc 123  Phrase 2 abcabcabs 

123 abc 123

使用正则表达式我试图获取内容Phrase 1,Phrase 2但看起来我只能在一行中的单词之间获取文本.我试图删除\n使用这些方法,但我的文本文件总是与上面的新行.

如何在一个没有线条的巨型字符串中获取文本并将其打印在屏幕上？

2
推荐指数

1
解决办法

1484
查看次数

我在Facebook上为Android应用程序工作.我必须使用字符串作为URL传递.但我的描述值有很多空格和换行符.我必须纠正,同时将该值作为url传递,没有空格.但它会在facebook墙上张贴空格.可能吗？任何的想法.

0
推荐指数

1
解决办法

5400
查看次数