小编Iva*_*van的帖子

为什么我的Scala编写的行重复数据删除应用程序如此之慢?

我有一些大的(比方说200 MiB - 2 GiB)文本文件,里面装满了大量的重复记录.每行可以在文件上分布大约100个甚至更精确的副本.任务是删除所有重复,留下每个记录的一个唯一实例.

我已经实现如下:


object CleanFile {
  def apply(s: String, t: String) {
    import java.io.{PrintWriter, FileWriter, BufferedReader, FileReader}

    println("Reading " + s + "...")

    var linesRead = 0

    val lines = new scala.collection.mutable.ArrayBuffer[String]()

    val fr = new FileReader(s)
    val br = new BufferedReader(fr)

    var rl = ""

    while (rl != null) {
      rl = br.readLine()

      if (!lines.contains(rl))
        lines += rl

      linesRead += 1

      if (linesRead > 0 && linesRead % 100000 == 0)
        println(linesRead + " lines read, " …
Run Code Online (Sandbox Code Playgroud)

performance scala

0
推荐指数
1
解决办法
466
查看次数

Java对数组使用什么类以及如何在Scala中实例化它?

我需要传递一个定义为原始值的二维Java数组

int myArray[][] = {{ 1, 2 }, { 3, 4 }, { 5, 6 }, { 7, 8 }};
Run Code Online (Sandbox Code Playgroud)

用Java术语表示从Scala应用程序到Java库函数.

如何在Scala中定义这样的对象?

java arrays scala

0
推荐指数
1
解决办法
137
查看次数

有没有办法可以使用〜指向Python中文件路径中的主目录?

我试图使用Python(版本3.5,但我也很好奇2.7)自动执行某些任务,而不是shell脚本.如果我能写"~/myfile.txt"而不是,我会很高兴的/home/me/myfile.txt.这可能吗?

python

0
推荐指数
1
解决办法
49
查看次数

如何在IntelliJ Idea 2016.2.4中运行SBT项目?

自Scala/SBT-IDEA集成开始以来已经过去很多年,结果清晰可见.一开始我一直在使用纯Linux终端来创建和运行SBT项目和SBT扩展来生成IDEA样板,以便能够使用Idea来编写代码.现在,当我重新访问Scala/SBT-IDEA堆栈时,似乎可以方便地从IDEA内部完成所有工作,此页面描述了如何操作.

所以,我设法创建了这个项目,但我找不到我的意思.有人可以帮忙吗?

我没有安装Scala或SBT,因为Idea似乎已经自己下载了它们(虽然我不知道它放在哪里).

scala intellij-idea sbt

0
推荐指数
1
解决办法
1047
查看次数

Python 3.6 中显式定义的已编译正则表达式的类型是什么?

我正在编写一个函数来处理预编译的正则表达式。我如何明确定义这一点?例如

def use_regular_expression(regular_expression: ???):
    pass
Run Code Online (Sandbox Code Playgroud)

我要写什么来代替“???” 只接受re.compile给定有效正则表达式字符串的输出?

print(type(re.compile('')))_sre.SRE_Pattern并且 PyCharm IDE 表明它是,re.__Regex但无论我尝试导入和指定它们的明显方式是什么,似乎都不起作用。

python regex types python-3.x

0
推荐指数
1
解决办法
524
查看次数

标签 统计

scala ×3

python ×2

arrays ×1

intellij-idea ×1

java ×1

performance ×1

python-3.x ×1

regex ×1

sbt ×1

types ×1