小编Shi*_*ale的帖子

python项目的文件夹命名约定

python社区中用于设置项目文件夹和子文件夹名称的命名约定是什么?

my-great-python-project
my_great_python_project 
myGreatPythonProject 
MyGreatPythonProject
Run Code Online (Sandbox Code Playgroud)

我发现在github中混淆了。感谢您的专家意见。

python naming conventions

15
推荐指数
3
解决办法
7458
查看次数

python spark替代方案可以为非常大的数据爆炸

我有一个这样的数据框:

df = spark.createDataFrame([(0, ["B","C","D","E"]),(1,["E","A","C"]),(2, ["F","A","E","B"]),(3,["E","G","A"]),(4,["A","C","E","B","D"])], ["id","items"])
Run Code Online (Sandbox Code Playgroud)

它创建了一个df像这样的数据框:

+---+-----------------+
|  0|     [B, C, D, E]|
|  1|        [E, A, C]|
|  2|     [F, A, E, B]|
|  3|        [E, G, A]|
|  4|  [A, C, E, B, D]|
+---+-----------------+ 
Run Code Online (Sandbox Code Playgroud)

我想得到这样的结果:

+---+-----+
|all|count|
+---+-----+
|  F|    1|
|  E|    5|
|  B|    3|
|  D|    2|
|  C|    3|
|  A|    4|
|  G|    1|
+---+-----+
Run Code Online (Sandbox Code Playgroud)

这基本上只是找到所有不同的元素df["items"]并计算它们的频率。如果我的数据更易于管理,我会这样做:

all_items = df.select(explode("items").alias("all")) 
result = all_items.groupby(all_items.all).count().distinct() 
result.show()
Run Code Online (Sandbox Code Playgroud)

但是因为我的数据在每个列表中有数百万行和数千个元素,所以这不是一个选项。我正在考虑逐行执行此操作,以便一次只处理 2 个列表。因为大多数元素经常在多行中重复(但每行中的列表是一个集合),这种方法应该可以解决我的问题。但问题是,我真的不知道如何在 …

python arrays count apache-spark

5
推荐指数
1
解决办法
2811
查看次数

比较运算符的正则表达式

我很抱歉不得不问这个问题,并且我怀疑对于任何人来说,即使是稍微熟悉正则表达式的人来说,这也是非常简单的。我有一个始终采用以下形式的字符串comparison_operator integer

例如'>2:''<=0:'.

我想将比较运算符和数字分开,但我无法找到有关如何执行此操作的明确解释。非常感谢任何帮助。我正在使用 Python 的“re”模块,尽管据我了解,正则表达式或多或少与语言无关。

python regex

2
推荐指数
1
解决办法
953
查看次数

如何在perl中生成日期列表?

我想编写一个脚本,在perl中生成从现在到去年的日期.

防爆

                <option value="01/02/2010">Feb 07</option>
                <option value="01/03/2010">Mar 07</option>
                <option value="01/04/2010">Apr 07</option>
                <option value="01/05/2010">May 07</option>
                <option value="01/06/2010">Jun 07</option>
                <option value="01/07/2010">Jul 07</option>
                <option value="01/08/2010">Aug 07</option>
                <option value="01/09/2010">Sep 07</option>
                <option value="01/10/2010">Oct 07</option>
                <option value="01/11/2010">Nov 07</option>
                <option value="01/12/2010">Dec 07</option
Run Code Online (Sandbox Code Playgroud)

我不知道我怎么做.我现在手动做

scripting perl

1
推荐指数
1
解决办法
2669
查看次数

标签 统计

python ×3

apache-spark ×1

arrays ×1

conventions ×1

count ×1

naming ×1

perl ×1

regex ×1

scripting ×1