小编CRM*_*CRM的帖子

在最小数量的比较中二进制搜索大数组中的多个不同数字

我有一个大的n数组(比如n = 1000000),其值单调不减.我有一组'k'键值(比如k = {1,23,39,55,..}).假设键值已排序.我必须使用最少的比较数在大数组中找到这些键值的索引.如何使用二进制搜索来搜索多个唯一值？对每个键值单独执行操作需要进行大量比较.当我在同一个大阵列上搜索另一个元素时,我能否以某种方式使用我在一次搜索中学到的知识？

c arrays algorithm

CRM*_*CRM

2014 09-06

4
推荐指数

1
解决办法

1237
查看次数

火花应用中的垃圾收集时间非常高,导致程序停止

我正在本地模式下运行spark应用程序.我使用scala 2.10.4的spark 1.5.2.

当我使用大型数据集作为输入时,我会在日志中不断收到以下消息.

16/01/04 14:44:12 INFO collection.ExternalSorter: Thread 88 spilling in-memory map of 553.6 MB to disk (1 time so far)
16/01/04 14:44:19 INFO collection.ExternalSorter: Thread 78 spilling in-memory map of 580.0 MB to disk (1 time so far)
16/01/04 14:45:11 INFO collection.ExternalSorter: Thread 88 spilling in-memory map of 553.6 MB to disk (2 times so far)
16/01/04 14:45:29 INFO collection.ExternalSorter: Thread 78 spilling in-memory map of 580.0 MB to disk (2 times so far)
16/01/04 14:46:12 …

Run Code Online (Sandbox Code Playgroud)

garbage-collection scala apache-spark

CRM*_*CRM

2016 01-07

4
推荐指数

1
解决办法

1万
查看次数

PostgreSQL Optimizer如何处理交叉列关联

存储在同一表的不同列中的数据之间通常存在关系或相关性.例如,在customers表中,c_state列中的值受country_id列中的值的影响,因为XYZ的状态仅在ABC国家中找到.

我认为PostgreSQL假定谓词是相互独立的,并且对于相同关系的每个谓词的选择性相乘.因此,选择性估计将远小于实际值,并且当数据高度依赖和偏斜时,可以选择非最佳访问路径.如何在PostgreSQL中避免这种情况？

我们可以在PostgreSQL 9.3.5中的一组列上创建某种多列统计信息.有没有支持多维直方图？

sql database postgresql postgresql-9.3

CRM*_*CRM

lucky-day

3
推荐指数

1
解决办法

920
查看次数

使用scala在spark应用程序中构建倒排索引

我是Spark和scala编程语言的新手.我的输入是CSV文件.我需要在csv文件中的值上构建一个倒排索引,如下面的示例所示.

Input: file.csv

attr1, attr2, attr3
1,     AAA,    23
2,     BBB,    23
3,     AAA,    27

output format: value -> (rowid, collumnid) pairs
for example: AAA -> ((1,2),(3,2))
             27  -> (3,3)

Run Code Online (Sandbox Code Playgroud)

我已经开始使用以下代码了.那之后我被困住了.请帮助.

object Main {
  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("Invert Me!").setMaster("local[2]")
    val sc = new SparkContext(conf)

    val txtFilePath = "/home/person/Desktop/sample.csv"

    val txtFile = sc.textFile(txtFilePath)
    val nRows = txtFile.count()

    val data = txtFile.map(line => line.split(",").map(elem => elem.trim()))
    val nCols = data.collect()(0).length

  }
}

Run Code Online (Sandbox Code Playgroud)

csv scala apache-spark

CRM*_*CRM

2015 12-01

3
推荐指数

1
解决办法

2335
查看次数