小编mom*_*ind的帖子

Windows中的轻量级VHDL模拟器

我尝试过Vivado和Quartus,但是它们都很重,并且这些工具对于初学者来说非常复杂.对于正在学习VHDL的初学者,是否有轻量级的免费IDE +模拟器？

vhdl

mom*_*ind

2014 08-15

5
推荐指数

2
解决办法

2万
查看次数

在大型PySpark数据框的每一行中应用函数？

我有一个大的数据框（约3000万行）。我有一个功能f。要做的事情f是遍历每一行，检查一些逻辑并将输出馈送到字典中。该功能需要逐行执行。

我试过了：

dic = dict() for row in df.rdd.collect(): f(row, dic)

但是我总是遇到错误OOM。我将Docker的内存设置为8GB。

如何有效开展业务？

非常感谢

large-scale pyspark

mom*_*ind

lucky-day

5
推荐指数

2
解决办法

5831
查看次数

pyspark：删除所有行中具有相同值的列

相关问题：如何通过熊猫或火花数据框删除所有行中具有相同值的列？

所以我有一个 pyspark 数据框，我想删除所有行中所有值都相同的列，同时保持其他列不变。

然而，上述问题的答案仅适用于熊猫。pyspark 数据框有解决方案吗？

谢谢

pyspark

mom*_*ind

lucky-day

4
推荐指数

1
解决办法

1541
查看次数

使用 pyspark VectorAssembler 的正确方法是什么？

我正在尝试将所有功能列合并为一个

所以：

assembler = VectorAssembler(
    inputCols=feature_list,
    outputCol='features')

Run Code Online (Sandbox Code Playgroud)

其中：

feature_list是一个包含所有特征列名称的Python列表

然后

trainingData = assembler.transform(df)

但是当我这样做时：

使用 VectorAssembler 的正确方法是什么？

非常感谢

pyspark

mom*_*ind

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

悬停情节

我正在绘制 3D 散点图：

d = {'x':[1,2,3,4], 'y':[2,3,1,5], 'z':[3,2,3,2], 't':[4,1,2,3], 'score':[2,3,1,2]}
df = pd.DataFrame (d)

xtitle = 'x'
ytitle = 'y'
ztitle = 'z'

trace1 = go.Scatter3d(x=df[xtitle], 
                        y= df[ytitle], 
                          z = df[ztitle],
                                       marker=dict(color=df['score'],
                                                   showscale=True,
                                                  colorbar=dict(
                                                    title='score)'
                                                )),                       
                                       mode='markers')

layout = go.Layout (
        scene = Scene(
            xaxis = dict (title = xtitle),
            yaxis = dict (title = ytitle),
            zaxis = dict (title = ztitle)
        )
    )
fig = go.Figure(data=[trace1], layout = layout)
plotly.offline.iplot(fig)

Run Code Online (Sandbox Code Playgroud)

当我将鼠标悬停在一个点上时，它会显示 x、y 和 z 值。

在数据框中，df我有另一列名为t …

python python-3.x plotly

mom*_*ind

2018 07-10

3
推荐指数

1
解决办法

3375
查看次数

根据条件转换熊猫数据框列

我有一个值从 0.0 到 1.0 的 pandas 列。

我想根据阈值将此列转换为二进制列（0 或 1），即，如果值 <= 阈值，否则它将变为 0 和 1。

python pandas

mom*_*ind

lucky-day

3
推荐指数

1
解决办法

1191
查看次数

matplotlib：如何返回matplotlib对象然后将其绘制为子图？

我检查了这个Matplotlib返回一个绘图对象，但它确实不适合我的问题。

我想做的是：

def func1():
   fig1 =  plt.plot (np.arange(0.0, 5.0, 0.1))
   return fig1

def func2()
   return plt.plot (np.arange(0.0, 5.0, 0.02))


fig1 = func1()
fig2 = func2()
plt.figure()
plt.add_subplot(fig1)
plt.add_subplot(fig2)
plt.show()

Run Code Online (Sandbox Code Playgroud)

上面的代码只是一个主要思想。你能建议我怎么做吗？

谢谢

python matplotlib python-3.x

mom*_*ind

lucky-day

3
推荐指数

1
解决办法

1063
查看次数

调用返回FloatType（）的UDF时，“构造ClassDict的预期零参数（对于numpy.dtype）”

我相信它与此有关：火花错误：构造ClassDict预期使用零参数（对于numpy.core.multiarray._reconstruct）

我有一个数据框

id col_1 col_2
1 [1,2] [1,3]
2 [2,1] [3,4]

Run Code Online (Sandbox Code Playgroud)

我想创建另一个列，该列是和cosine之间的距离。col_1col_2

from scipy.spatial.distance import cosine

def cosine_distance(a,b):
    try:
        return cosine(a, b)
    except Exception as e:
        return 0.0 # in case division by zero

Run Code Online (Sandbox Code Playgroud)

我定义了一个udf：

cosine_distance_udf = udf (cosine_distance, FloatType())

最后：

new_df = df.withColumn('cosine_distance', cosine_distance_udf('col_1', 'col_2'))

我有错误： PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)

我做错什么了？

python dataframe pyspark pyspark-sql

mom*_*ind

2018 12-16

3
推荐指数

1
解决办法

1334
查看次数

在 conda 环境中找不到命令“python”

我在 MS Windows 10 上使用 Ubuntu 20.04 WSL。我从主页（https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh）安装了 anaconda 并尝试创建一个新环境，如下所示图像。

正如你所看到的，我只是创建了一个新环境并切换到该环境，但我没有发现Python命令。

我做了echo $PATH并且得到了

/home/my_username/anaconda3/envs/test/bin:/home/my_username/anaconda3/condabin:

已经在 PATH 的开头了。

我该如何解决这个问题？谢谢

anaconda windows-subsystem-for-linux

mom*_*ind

lucky-day

3
推荐指数

1
解决办法

2808
查看次数

pandas：将具有相同值的连续行分组为一组

假设我有一个购买的 pandas 数据框，没有这样的发票 ID

item_id customer_id
1 A
2 A
1 B
3 C
4 C
1 A
5 A

Run Code Online (Sandbox Code Playgroud)

因此，我的假设是，如果客户连续订单购买了多个商品，则它们属于一组。所以我想创建一个 order_id 列：

item_id customer_id order_id
1 A 1
2 A 1
1 B 2
3 C 3
4 C 3
1 A 4
5 A 4

Run Code Online (Sandbox Code Playgroud)

order_id 应自动创建且增量。我应该如何处理熊猫呢？

非常感谢

python numpy list dataframe pandas

mom*_*ind

2021 06-30

2
推荐指数

1
解决办法

312
查看次数

标签统计

python ×5

pyspark ×4

dataframe ×2

pandas ×2

python-3.x ×2

anaconda ×1

large-scale ×1

list ×1

matplotlib ×1

numpy ×1

plotly ×1

pyspark-sql ×1

vhdl ×1

windows-subsystem-for-linux ×1

标签 统计

小编mom_ind的帖子

标签统计