小编Edm*_*mon的帖子

 CREATE OR REPLACE FUNCTION get_mod(modifier varchar)
  RETURNS varchar
    AS $$
      def is_float(val):
        try:
            if val:
               float(val)
               return True
            else:
               return False
        except ValueError:
            return False
      if modifier is None:
        return "NOMOD"
      if is_float(modifier):
        return str(float(modifier)*1)
      return modifier
    $$ LANGUAGE plpythonu;

Run Code Online (Sandbox Code Playgroud)

我想is_float在其他一些PL/Python函数中使用函数.我知道我可以创建它作为可调用的PL/Python函数,但我发现更多的笨重(执行基于SQL的PL/Python调用),而不是直接调用纯Python,自定义实用程序函数.

是否可以在Postgres上通过PL/Python可重用的纯Python函数创建和公开？

python postgresql plpython

Edm*_*mon

2014 02-08

5
推荐指数

1
解决办法

925
查看次数

在Java中,按位操作比模数/提醒操作符更快吗？

我在几个博客中读到,在Java模数/提醒操作符中比按位-EN慢.所以,我编写了以下程序进行测试.

public class ModuloTest {
    public static void main(String[] args) {
        final int size = 1024;
        int index = 0;

        long start = System.nanoTime();
        for(int i = 0; i < Integer.MAX_VALUE; i++) {
            getNextIndex(size, i);
        }
        long end = System.nanoTime();
        System.out.println("Time taken by Modulo (%) operator --> " + (end - start) + "ns.");

        start = System.nanoTime();
        final int shiftFactor = size - 1;
        for(int i = 0; i < Integer.MAX_VALUE; i++) {
            getNextIndexBitwise(shiftFactor, i);
        }
        end = System.nanoTime();
        System.out.println("Time …

Run Code Online (Sandbox Code Playgroud)

java bit-manipulation

Nir*_*jan

2016 09-04

5
推荐指数

1
解决办法

4986
查看次数

在Python中随机选择数组中的连续元素

我有一个索引列表，例如0 ... 365，并且我想选择该列表的连续子区域，这些索引是随机选择而不选择的，很少。

index = [i+1 for i in range(365) ] 
#n could be 3
for i in range(n):
   exclusion_regions.append( get_random_contiguous_region(index) )

Run Code Online (Sandbox Code Playgroud)

是否有人对实现get_random_contiguous_region（）有建议？

python algorithm

Edm*_*mon

2015 01-17

5
推荐指数

1
解决办法

748
查看次数

基于Salt的Spark集群安装快速指南

我试过在官方Salt用户论坛上问这个,但由于某种原因我没有得到任何帮助.我希望我能在这里得到帮助.

我是Salt的新用户.我仍然在评估框架作为我们SCM工具的候选者(而不是Ansible).

我完成了本教程,并且能够成功地管理本教程前半部分所涵盖的master-minion/s关系.

教程现在分为许多不同的复杂领域.

我需要的是相对直接的,所以我希望也许有人可以在这里指导我如何实现它.

我希望在20台RHEL 7机器上安装Spark和HDFS(比如在168.192.10.0-20范围内,0是名称节点).

我知道了:

https://github.com/saltstack-formulas/hadoop-formula

我找到了第三方Spark公式:

https://github.com/beauzeaux/spark-formula

有人能够以最直接的方式提出一套关于如何进行此安装的说明吗？

hdfs salt-stack apache-spark

Edm*_*mon

lucky-day

5
推荐指数

1
解决办法

1052
查看次数

Spark SQL - 使用一些格式错误的记录加载csv/psv文件

我们正在使用Spark加载文件目录的层次结构并将它们转换为Parquet.数百个管道分隔文件中有数十GB.有些人自己很大.

例如,每个第100个文件都有一行或两行,它们有一个额外的分隔符,使整个进程(或文件)中止.

我们正在加载使用:

sqlContext.read .format("com.databricks.spark.csv") .option("header", format("header")) .option("delimiter", format("delimeter")) .option("quote", format("quote")) .option("escape", format("escape")) .option("charset", "UTF-8") // Column types are unnecessary for our current use cases. //.option("inferschema", "true") .load(glob)
Run Code Online (Sandbox Code Playgroud)
是否有任何扩展或事件处理机制与Spark,我们可以附加到读取行的逻辑,如果遇到格式错误的行,只是跳过行而不是失败进程？

(我们计划进行更多的预处理,但这将是最直接和最关键的解决方案.)

csv apache-spark parquet apache-spark-sql

Edm*_*mon

2015 12-18

3
推荐指数

1
解决办法

8677
查看次数

选择无需替换 - 通过改变列表

我正在寻找Python中的高效函数,它可以在不替换的情况下进行样本选择,而是通过实际改变原始列表.也就是说,替代方案:

random.sample(population, k)
Run Code Online (Sandbox Code Playgroud)
在选择样本时从原始列表中删除元素.列表可以是数百万个项目,并且可能会对样本函数进行数十次后续调用.

理想情况下,我想做的事情如下:

sample_size_1 = 5 sample_size_2 = 200 sample_size_3 = 100 population = range(10000000) sample_1 = select_sample(population, sample_size_1) #population is shrunk sample_2 = select_sample(population, sample_size_2) #population is shrunk again sample_3 = select_sample(population, sample_size_3) #and population is shrunk again
Run Code Online (Sandbox Code Playgroud)
在population每次调用select_sample之间有效缩小的位置.

我有一些代码,我可以在这里展示,但我希望已经可以获得的东西,或者比我的while循环更多的"pythonic".

python algorithm sampling

Edm*_*mon

2015 03-15

1
推荐指数

1
解决办法

220
查看次数

标签统计

python ×4

algorithm ×2

apache-spark ×2

csv ×2

postgresql ×2

apache-spark-sql ×1

bit-manipulation ×1

greatest-n-per-group ×1

hdfs ×1

java ×1

kinect ×1

parquet ×1

playframework-2.0 ×1

plpython ×1

rest ×1

salt-stack ×1

sampling ×1

scala ×1

sql ×1

tuples ×1

window-functions ×1

标签 统计

小编Edm_mon的帖子

标签统计