我有阿拉伯语塔什基尔语TXT的大文件,我正在尝试查找包含特定模式mashkula的 行,我尝试了以下语法:\xd9\x8e \xd9\x8b \xd9\x8f \xd9\x8c \xd9\x91 \xd9\x92 \xd9\x8dgrep
cat file.txt | grep "\xd8\xa7\xd9\x87\xd9\x84\xd8\xa7"\nRun Code Online (Sandbox Code Playgroud)\n在我插入塔什基尔标记之前,这不会返回任何内容:
\ncat file.txt | grep "\xd8\xa3\xd9\x87\xd9\x92\xd9\x84\xd8\xa7\xd9\x8b"\nRun Code Online (Sandbox Code Playgroud)\n我得到了正确的输出
\n\xd8\xa3\xd9\x87\xd9\x92\xd9\x84\xd8\xa7\xd9\x8b
我也尝试过
\ngrep -P "[\xd9\x8f\\ \xd9\x91\\ \xd9\x8e\\ \xd9\x8b\\ \xd9\x90\\ \xd9\x8d\\ \xd9\x8c\\ \xd9\x92\\ \\~]|[\xd8\xa7\xd9\x87\xd9\x84\xd8\xa7]" file.txt\nRun Code Online (Sandbox Code Playgroud)\n这将返回不同模式中的所有匹配字符:
\n\xd8\xa3\xd9\x87\xd9\x92\xd9\x84\xd8\xa7\xd9\x8b \xd8\xa3 ... \xd9\x87\xd9\x92.. \xd9\x84\xd9\x8b\xd8\xa7 \xd8\xa3\xd9\x86\xd9\x92\xd8\xaa\xd9\x8e \xd9\x84\xd9\x8e\xd9\x8a\xd9\x92\xd9\x84\xd8\xa7\xd9\x8b ..\nRun Code Online (Sandbox Code Playgroud)\n如何使用 grep 匹配阿拉伯语变音标记?\n在使用 grep 之前是否可以从文本中删除塔什基尔标记?\n我的操作系统是 Ubuntu 18.04
\n更新:此时,我使用以下命令从文本中删除塔什基尔标记:\n sed "s/[\xd9\x8f \xd9\x91 \xd9\x8e \xd9\x8b \xd9\x90 \xd9\x8d \xd9\x8c \xd9\x92]//g",然后我就可以 …