相关疑难解决方法(0)

如何在Bash中定义哈希表？

什么是相似的Python字典,但在Bash中(应该适用于OS X和Linux).

bash dictionary associative-array hashtable

Rei*_*ica

2017 02-17

520
推荐指数

10
解决办法

39万
查看次数

寻找独特的线条

如何找到唯一的行并从文件中删除所有重复项？我的输入文件是

Run Code Online (Sandbox Code Playgroud)

我希望结果如下:

2
3

Run Code Online (Sandbox Code Playgroud)

sort file | uniq不会做这个工作.将显示所有值1次

linux sorting unique uniq

amp*_*ino

2012 12-08

71
推荐指数

8
解决办法

15万
查看次数

使用 JavaScript 对 2800 万个字符串进行重复数据删除

我有一个包含 2800 万个字符串的 JSON 文件，大小约为 15 GB。有些字符串是重复的，因此我需要创建一个仅包含唯一字符串的新 JSON 文件。我猜其中有 2.4 亿个是独一无二的，但我需要找出确切的数字。这些字符串均小于 100 个字符。以下是数据示例：

[
    '4zWMS2IHAKcsrVtrUBFXIFjkwvbiCyiK',
    'btFqRsglI1Dh81jpgmnRhKPGIBbe2cU7',
    '8Us6mE6zWfyOpjhXsJssE65LrOFc7yr6',
    ...
]

Run Code Online (Sandbox Code Playgroud)

我的第一个方法是创建一个 JavaScript 对象并将该对象的所有键设置为字符串。然后我会检查密钥的长度，这将是我的唯一计数。不幸的是，我遇到了限制，JavaScript 对象只能有大约 8M 个键。

我的下一个方法是在 JavaScript 中创建一个新数组，然后迭代我的字符串，然后使用.indexOf方法查看是否已将字符串添加到数组中。不幸的是，这太慢了。

谁能想到一种方法可以在 JavaScript 中做到这一点？如果这不是适合这项工作的工具，我也可以切换到其他语言。

javascript arrays string object

Kir*_*met

2022 11-06

12
推荐指数

1
解决办法

2800
查看次数

如何通过linux工具完全删除重复的行,如grep,sort,sed,uniq？

这个问题真的很难写,因为我看不出任何能给它带来意义的东西.但这个例子显然是直截了当的.如果我有这样的文件:

Run Code Online (Sandbox Code Playgroud)

在解析删除重复行的文件之后,变成这样:

1
3
4

Run Code Online (Sandbox Code Playgroud)

我知道python或其中的一些,这是我写的一个python脚本来执行它.创建一个名为的文件clean_duplicates.py并将其运行为:

import sys

#
# To run it use:
# python clean_duplicates.py < input.txt > clean.txt
#
def main():

    lines = sys.stdin.readlines()

    # print( lines )
    clean_duplicates( lines )

#
# It does only removes adjacent duplicated lines, so your need to sort them
# with sensitive case before run it.
# 
def clean_duplicates( lines ):

    lastLine    = lines[ 0 ]
    nextLine    = None
    currentLine = None …

Run Code Online (Sandbox Code Playgroud)

python awk grep sed uniq

use*_*ser

2017 05-23

4
推荐指数

1
解决办法

545
查看次数