小编Shi*_*ale的帖子

python项目的文件夹命名约定

python社区中用于设置项目文件夹和子文件夹名称的命名约定是什么？

my-great-python-project
my_great_python_project 
myGreatPythonProject 
MyGreatPythonProject

Run Code Online (Sandbox Code Playgroud)

我发现在github中混淆了。感谢您的专家意见。

python naming conventions

Cog*_*bot

2018 10-16

15
推荐指数

3
解决办法

7458
查看次数

python spark替代方案可以为非常大的数据爆炸

我有一个这样的数据框：

df = spark.createDataFrame([(0, ["B","C","D","E"]),(1,["E","A","C"]),(2, ["F","A","E","B"]),(3,["E","G","A"]),(4,["A","C","E","B","D"])], ["id","items"])

Run Code Online (Sandbox Code Playgroud)

它创建了一个df像这样的数据框：

+---+-----------------+
|  0|     [B, C, D, E]|
|  1|        [E, A, C]|
|  2|     [F, A, E, B]|
|  3|        [E, G, A]|
|  4|  [A, C, E, B, D]|
+---+-----------------+

Run Code Online (Sandbox Code Playgroud)

我想得到这样的结果：

+---+-----+
|all|count|
+---+-----+
|  F|    1|
|  E|    5|
|  B|    3|
|  D|    2|
|  C|    3|
|  A|    4|
|  G|    1|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

这基本上只是找到所有不同的元素df["items"]并计算它们的频率。如果我的数据更易于管理，我会这样做：

all_items = df.select(explode("items").alias("all")) 
result = all_items.groupby(all_items.all).count().distinct() 
result.show()

Run Code Online (Sandbox Code Playgroud)

但是因为我的数据在每个列表中有数百万行和数千个元素，所以这不是一个选项。我正在考虑逐行执行此操作，以便一次只处理 2 个列表。因为大多数元素经常在多行中重复（但每行中的列表是一个集合），这种方法应该可以解决我的问题。但问题是，我真的不知道如何在 …

python arrays count apache-spark

car*_*iem

2018 10-12

5
推荐指数

1
解决办法

2811
查看次数

比较运算符的正则表达式

我很抱歉不得不问这个问题，并且我怀疑对于任何人来说，即使是稍微熟悉正则表达式的人来说，这也是非常简单的。我有一个始终采用以下形式的字符串comparison_operator integer：

例如'>2:'或'<=0:'.

我想将比较运算符和数字分开，但我无法找到有关如何执行此操作的明确解释。非常感谢任何帮助。我正在使用 Python 的“re”模块，尽管据我了解，正则表达式或多或少与语言无关。

python regex

Chr*_*per

2018 10-03

2
推荐指数

1
解决办法

953
查看次数

如何在perl中生成日期列表？

我想编写一个脚本,在perl中生成从现在到去年的日期.

防爆

                <option value="01/02/2010">Feb 07</option>
                <option value="01/03/2010">Mar 07</option>
                <option value="01/04/2010">Apr 07</option>
                <option value="01/05/2010">May 07</option>
                <option value="01/06/2010">Jun 07</option>
                <option value="01/07/2010">Jul 07</option>
                <option value="01/08/2010">Aug 07</option>
                <option value="01/09/2010">Sep 07</option>
                <option value="01/10/2010">Oct 07</option>
                <option value="01/11/2010">Nov 07</option>
                <option value="01/12/2010">Dec 07</option

Run Code Online (Sandbox Code Playgroud)

我不知道我怎么做.我现在手动做

scripting perl

fen*_*nec

2019 02-19

1
推荐指数

1
解决办法

2669
查看次数