小编gok*_*oks的帖子

无法在Windows机器上安装sasl-0.1.3 python包

我试图在Windows 7(64位机器)上安装sasl-0.1.3 python包.它与C1083的致命错误有关.

看起来saslwrapper.cpp无法在c ++模块中包含sasl/sasl.h库.

在此输入图像描述

请帮我解决这个问题.如果您需要更多详细信息,请告诉我们.

我在我的机器上安装了python 2.7.

sasl python-2.7

gok*_*oks

2014 10-22

13
推荐指数

2
解决办法

2万
查看次数

pyspark中的--files选项不起作用

我尝试了命令行中的sc.addFile选项(没有任何问题)和--files选项(失败).

运行1:spark_distro.py

from pyspark import SparkContext, SparkConf
from pyspark import SparkFiles

def import_my_special_package(x):
    from external_package import external
    ext = external()
    return ext.fun(x)

conf = SparkConf().setAppName("Using External Library")
sc = SparkContext(conf=conf)
sc.addFile("/local-path/readme.txt")
with open(SparkFiles.get('readme.txt')) as test_file:
    lines = [line.strip() for line in test_file]
print(lines)
int_rdd = sc.parallelize([1, 2, 4, 3])
mod_rdd = sorted(int_rdd.filter(lambda z: z%2 == 1).map(lambda x:import_my_special_package(x)))

Run Code Online (Sandbox Code Playgroud)

外部包:external_package.py

class external(object):
    def __init__(self):
        pass
    def fun(self,input):
        return input*2

Run Code Online (Sandbox Code Playgroud)

readme.txt文件

MY TEXT HERE

Run Code Online (Sandbox Code Playgroud)

spark-submit命令

spark-submit \
  --master yarn-client …

Run Code Online (Sandbox Code Playgroud)

hadoop-yarn apache-spark pyspark

gok*_*oks

2017 11-09

11
推荐指数

1
解决办法

3976
查看次数

如何在 Python Dataframe（从固定宽度文件创建）上生成哈希或校验和值？

我有 2 个固定宽度的文件，如下所示（唯一的变化是日期值从位置 14 开始）。

sample_hash1.txt

GOKULKRISHNA 04/17/2018
ABCDEFGHIJKL 04/17/2018
111111111111 04/17/2018

Run Code Online (Sandbox Code Playgroud)

sample_hash2.txt

GOKULKRISHNA 04/16/2018
ABCDEFGHIJKL 04/16/2018
111111111111 04/16/2018

Run Code Online (Sandbox Code Playgroud)

使用 pandas read_fwf 我正在读取此文件并创建一个数据框（通过排除仅加载前 13 个字符的日期值）。所以我的数据框看起来像这样。

import pandas as pd
df1 = pd.read_fwf("sample_hash1.txt", colspecs=[(0,13)])
df2 = pd.read_fwf("sample_hash2.txt", colspecs=[(0,13)])

Run Code Online (Sandbox Code Playgroud)

df1

   GOKULKRISHNA
0  ABCDEFGHIJKL
1  111111111111

Run Code Online (Sandbox Code Playgroud)

df2

   GOKULKRISHNA
0  ABCDEFGHIJKL
1  111111111111

Run Code Online (Sandbox Code Playgroud)

现在我试图在每个数据帧上生成一个散列值，但散列是不同的。我不确定这有什么问题。有人可以对此有所了解吗？我必须确定文件中的数据是否有任何更改（不包括日期列）。

print(hash(df1.values.tostring()))
-3571422965125408226

print(hash(df2.values.tostring()))
5039867957859242153

Run Code Online (Sandbox Code Playgroud)

我正在将这些文件（每个文件大小约为 2GB）加载到表中。每次我们从源接收完整文件时，有时数据没有变化（最后一列日期除外）。所以我的想法是拒绝这样的文件。因此，如果我下次可以在文件上生成散列并存储在某个地方（在表中），我可以将新文件散列值与存储的散列值进行比较。所以我认为这是正确的方法。但坚持哈希生成。

我检查了这篇文章 Most Effective property to hash for numpy array 但这不是我要找的

python hash pandas

gok*_*oks

2018 04-18

8
推荐指数

2
解决办法

4791
查看次数

如何在蜂巢中的多分隔符字符串上使用字符串拆分功能？

我的字符串数据如下所示。

data = 'ABCD/~DEFG/~HJKL/~MNOP'

Run Code Online (Sandbox Code Playgroud)

我尝试了以下查询

select split(data,'[/~]')[1] from test_table;

Run Code Online (Sandbox Code Playgroud)

预期输出：ABCD原始输出：[SPACES]

当我尝试使用索引[2]进行相同的查询时，其工作原理。

select split(data,'[/~]')[2] from test_table;

Run Code Online (Sandbox Code Playgroud)

预期输出：DEFG原始输出：DEFG

我的观察：对于每个偶数索引数字（如0,2,4 ..），它都可以正常工作，并且为诸如1,3,5 ..的奇数索引数填充空格。

有人可以帮我解决这个问题。

hadoop hive

gok*_*oks

lucky-day

2
推荐指数

1
解决办法

1万
查看次数

如何使用python [with Duplicates]查找列表中序列的长度？

我正在尝试下面的代码.

from itertools import groupby

range_mod = ['P', 'P', 'P', 'P', 'N', 'N', 'N', 'N', 'P', 'P', 'P']

print(dict((i,len(list(j))) for i, j in groupby(range_mod)))

Run Code Online (Sandbox Code Playgroud)

注意:输出不必在Dict中

实际产量: