是否有一个跨平台的Java方法来删除文件名特殊字符?

Ben*_*n S 58 java filesystems filenames cross-platform

我正在制作一个跨平台的应用程序,它根据在线检索的数据重命名文件.我想清理我从当前平台的Web API中获取的字符串.

我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方式来做到这一点?

编辑:在Windows平台上,您不能有问号'?' 在文件名中,而在Linux中,您可以.文件名可能包含这些字符,我希望支持这些字符的平台保留它们,否则,将它们删除.

此外,我更喜欢不需要第三方库的标准Java解决方案.

Sar*_*tha 26

正如其他地方所建议的那样,这通常不是你想要做的.通常最好使用安全方法(如File.createTempFile())创建临时文件.

您不应该使用白名单执行此操作,只保留"好"字符.如果文件仅由中文字符组成,那么您将从中删除所有内容.我们不能因此而使用白名单,我们必须使用黑名单.

Linux几乎允许任何可能真正痛苦的事情.我只是将Linux限制在你限制Windows的同一个列表中,这样你就可以在将来避免头痛.

在Windows上使用此C#片段我生成了一个在Windows上无效的字符列表.这个列表中有比你想象的更多的字符(41)所以我不建议你尝试创建自己的列表.

        foreach (char c in new string(Path.GetInvalidFileNameChars()))
        {
            Console.Write((int)c);
            Console.Write(",");
        }
Run Code Online (Sandbox Code Playgroud)

这是一个简单的Java类,它"清理"文件名.

public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
    Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    for (int i = 0; i < badFileName.length(); i++) {
        int c = (int)badFileName.charAt(i);
        if (Arrays.binarySearch(illegalChars, c) < 0) {
            cleanName.append((char)c);
        }
    }
    return cleanName.toString();
}
}
Run Code Online (Sandbox Code Playgroud)

编辑:正如斯蒂芬建议你也可能应该验证这些文件访问只发生在你允许的目录中.

以下答案包含用于在Java中建立自定义安全上下文然后在该"沙箱"中执行代码的示例代码.

如何创建安全的JEXL(脚本)沙箱?

  • 必须对非法字符数组进行排序,才能使 `binarySearch` 正常工作。请添加`Arrays.sort(illegalChars)`或将数组更改为“{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 , 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 34, 42, 47, 58, 60, 62, 63, 4} 92, 12 (3认同)

Dir*_*irk 20

或者只是这样做:

String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");
Run Code Online (Sandbox Code Playgroud)

结果: A20_B22b_A_BC_ld_ma.la.xps

说明:

[a-zA-Z0-9\\._] 匹配az小写或大写,数字,点和下划线的字母

[^a-zA-Z0-9\\._]是反过来的.即所有与第一个表达式不匹配的字符

[^a-zA-Z0-9\\._]+ 是一系列与第一个表达式不匹配的字符

所以每个字符序列都不包含az,0-9或者字符._将被替换.

  • 这适用于仅使用英文字母的文件名.如果文件仅由中文字符组成,那么您将从中删除所有内容.由于这个原因,我们不能在字符串上使用白名单来删除坏字符,我们必须使用黑名单. (8认同)
  • 要在文件名中保留非拉丁字符,可以使用unicode标志(自Java 1.7起),如下所示:`String sane = filename.replaceAll(“(?U)[^ \\ w \\ ._] +”, “ _”);` (2认同)

Sti*_*itt 14

这是基于Sarel Botha接受的答案,只要你没有遇到基本多语言平面之外的任何字符,它就可以正常工作.如果您需要完整的Unicode支持(谁不支持?)使用此代码而不是Unicode安全:

public class FileNameCleaner {
  final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};

  static {
    Arrays.sort(illegalChars);
  }

  public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    int len = badFileName.codePointCount(0, badFileName.length());
    for (int i=0; i<len; i++) {
      int c = badFileName.codePointAt(i);
      if (Arrays.binarySearch(illegalChars, c) < 0) {
        cleanName.appendCodePoint(c);
      }
    }
    return cleanName.toString();
  }
}
Run Code Online (Sandbox Code Playgroud)

这里的主要变化:

  • 使用codePointCount icw length而不仅仅是length
  • 使用codePointAt代替charAt
  • 使用appendCodePoint而不是append
  • 无需投chars到int秒.事实上,你永远不应该处理chars,因为它们基本上是因为BMP之外的任何事情而被打破.

  • 我已经阅读了最佳答案和这个答案,这个答案似乎经过了更仔细的考虑......但是我找不到任何该代码正确执行而另一个代码不能正确执行的情况。什么输入表明了差异? (2认同)

Dav*_*oni 6

有一个非常好的内置Java解决方案 - Character.isXxx().

试试Character.isJavaIdentifierPart(c):

String name = "name.é+!@#$%^&*(){}][/=?+-_\\|;:`~!'\",<>";
StringBuilder filename = new StringBuilder();

for (char c : name.toCharArray()) {
  if (c=='.' || Character.isJavaIdentifierPart(c)) {
    filename.append(c);
  }
}
Run Code Online (Sandbox Code Playgroud)

结果是"name.é$ _".

  • 它确实删除了对文件名有效的连字符(至少在Windows中),但它完成了这项工作,无论如何我认为Apache Commons FilenameUtils应该采用跨平台的方式来完成这项工作 (4认同)

Aar*_*lla 6

这是我使用的代码:

public static String sanitizeName( String name ) {
    if( null == name ) {
        return "";
    }

    if( SystemUtils.IS_OS_LINUX ) {
        return name.replaceAll( "/+", "" ).trim();
    }

    return name.replaceAll( "[\u0001-\u001f<>:\"/\\\\|?*\u007f]+", "" ).trim();
}
Run Code Online (Sandbox Code Playgroud)

SystemUtils来自Apache commons-lang3


Ste*_*n C 5

你的问题并不清楚,但是因为你打算从网络表格中接受路径名(?),你可能应该阻止尝试重命名某些东西; 例如"C:\ Program Files".这意味着您需要规范化路径名以消除"." 在进行访问检查之前和"..".

鉴于此,我不会尝试删除非法字符.相反,我使用"new File(str).getCanonicalFile()"来生成规范路径,接下来检查它们是否满足您的沙盒限制,最后使用"File.exists()","File.isFile()"等,以检查源和目标是否是犹太教,并且不是相同的文件系统对象.我会通过尝试执行操作并捕获异常来处理非法字符.