小编Iva*_*van的帖子

为什么我的Scala编写的行重复数据删除应用程序如此之慢？

我有一些大的(比方说200 MiB - 2 GiB)文本文件,里面装满了大量的重复记录.每行可以在文件上分布大约100个甚至更精确的副本.任务是删除所有重复,留下每个记录的一个唯一实例.

我已经实现如下:


object CleanFile {
  def apply(s: String, t: String) {
    import java.io.{PrintWriter, FileWriter, BufferedReader, FileReader}

    println("Reading " + s + "...")

    var linesRead = 0

    val lines = new scala.collection.mutable.ArrayBuffer[String]()

    val fr = new FileReader(s)
    val br = new BufferedReader(fr)

    var rl = ""

    while (rl != null) {
      rl = br.readLine()

      if (!lines.contains(rl))
        lines += rl

      linesRead += 1

      if (linesRead > 0 && linesRead % 100000 == 0)
        println(linesRead + " lines read, " …

Run Code Online (Sandbox Code Playgroud)

performance scala

Iva*_*van

lucky-day

0
推荐指数

1
解决办法

466
查看次数

Java对数组使用什么类以及如何在Scala中实例化它？

我需要传递一个定义为原始值的二维Java数组

int myArray[][] = {{ 1, 2 }, { 3, 4 }, { 5, 6 }, { 7, 8 }};

Run Code Online (Sandbox Code Playgroud)

用Java术语表示从Scala应用程序到Java库函数.

如何在Scala中定义这样的对象？

java arrays scala

Iva*_*van

lucky-day

0
推荐指数

1
解决办法

137
查看次数

有没有办法可以使用〜指向Python中文件路径中的主目录？

我试图使用Python(版本3.5,但我也很好奇2.7)自动执行某些任务,而不是shell脚本.如果我能写"~/myfile.txt"而不是,我会很高兴的/home/me/myfile.txt.这可能吗？

python

Iva*_*van

lucky-day

0
推荐指数

1
解决办法

49
查看次数

如何在IntelliJ Idea 2016.2.4中运行SBT项目？

自Scala/SBT-IDEA集成开始以来已经过去很多年,结果清晰可见.一开始我一直在使用纯Linux终端来创建和运行SBT项目和SBT扩展来生成IDEA样板,以便能够使用Idea来编写代码.现在,当我重新访问Scala/SBT-IDEA堆栈时,似乎可以方便地从IDEA内部完成所有工作,此页面描述了如何操作.

所以,我设法创建了这个项目,但我找不到我的意思.有人可以帮忙吗？

我没有安装Scala或SBT,因为Idea似乎已经自己下载了它们(虽然我不知道它放在哪里).

scala intellij-idea sbt

Iva*_*van

lucky-day

0
推荐指数

1
解决办法

1047
查看次数

Python 3.6 中显式定义的已编译正则表达式的类型是什么？

我正在编写一个函数来处理预编译的正则表达式。我如何明确定义这一点？例如

def use_regular_expression(regular_expression: ???):
    pass

Run Code Online (Sandbox Code Playgroud)

我要写什么来代替“???” 只接受re.compile给定有效正则表达式字符串的输出？

print(type(re.compile('')))说_sre.SRE_Pattern并且 PyCharm IDE 表明它是，re.__Regex但无论我尝试导入和指定它们的明显方式是什么，似乎都不起作用。

python regex types python-3.x

Iva*_*van

lucky-day

0
推荐指数

1
解决办法

524
查看次数

标签统计

scala ×3

python ×2

arrays ×1

intellij-idea ×1

java ×1

performance ×1

python-3.x ×1

regex ×1

sbt ×1

types ×1

为什么我的Scala编写的行重复数据删除应用程序如此之慢？

Java对数组使用什么类以及如何在Scala中实例化它？

有没有办法可以使用〜指向Python中文件路径中的主目录？

如何在IntelliJ Idea 2016.2.4中运行SBT项目？

Python 3.6 中显式定义的已编译正则表达式的类型是什么？

标签 统计

小编Iva_van的帖子

标签统计