小编mom*_*ind的帖子

Windows中的轻量级VHDL模拟器

我尝试过Vivado和Quartus,但是它们都很重,并且这些工具对于初学者来说非常复杂.对于正在学习VHDL的初学者,是否有轻量级的免费IDE +模拟器?

vhdl

5
推荐指数
2
解决办法
2万
查看次数

在大型PySpark数据框的每一行中应用函数?

我有一个大的数据框(约3000万行)。我有一个功能f。要做的事情f是遍历每一行,检查一些逻辑并将输出馈送到字典中。该功能需要逐行执行。

我试过了:

dic = dict() for row in df.rdd.collect(): f(row, dic)

但是我总是遇到错误OOM。我将Docker的内存设置为8GB。

如何有效开展业务?

非常感谢

large-scale pyspark

5
推荐指数
2
解决办法
5831
查看次数

pyspark:删除所有行中具有相同值的列

相关问题:如何通过熊猫或火花数据框删除所有行中具有相同值的列?

所以我有一个 pyspark 数据框,我想删除所有行中所有值都相同的列,同时保持其他列不变。

然而,上述问题的答案仅适用于熊猫。pyspark 数据框有解决方案吗?

谢谢

pyspark

4
推荐指数
1
解决办法
1541
查看次数

使用 pyspark VectorAssembler 的正确方法是什么?

我正在尝试将所有功能列合并为一个

所以:

assembler = VectorAssembler(
    inputCols=feature_list,
    outputCol='features')
Run Code Online (Sandbox Code Playgroud)

其中:

feature_list是一个包含所有特征列名称的Python列表

然后

trainingData = assembler.transform(df)

但是当我这样做时:

在此输入图像描述

使用 VectorAssembler 的正确方法是什么?

非常感谢

pyspark

4
推荐指数
1
解决办法
1万
查看次数

悬停情节

我正在绘制 3D 散点图:

d = {'x':[1,2,3,4], 'y':[2,3,1,5], 'z':[3,2,3,2], 't':[4,1,2,3], 'score':[2,3,1,2]}
df = pd.DataFrame (d)

xtitle = 'x'
ytitle = 'y'
ztitle = 'z'

trace1 = go.Scatter3d(x=df[xtitle], 
                        y= df[ytitle], 
                          z = df[ztitle],
                                       marker=dict(color=df['score'],
                                                   showscale=True,
                                                  colorbar=dict(
                                                    title='score)'
                                                )),                       
                                       mode='markers')

layout = go.Layout (
        scene = Scene(
            xaxis = dict (title = xtitle),
            yaxis = dict (title = ytitle),
            zaxis = dict (title = ztitle)
        )
    )
fig = go.Figure(data=[trace1], layout = layout)
plotly.offline.iplot(fig)
Run Code Online (Sandbox Code Playgroud)

当我将鼠标悬停在一个点上时,它会显示 x、y 和 z 值。

在此处输入图片说明

在数据框中,df我有另一列名为t …

python python-3.x plotly

3
推荐指数
1
解决办法
3375
查看次数

根据条件转换熊猫数据框列

我有一个值从 0.0 到 1.0 的 pandas 列。

我想根据阈值将此列转换为二进制列(0 或 1),即,如果值 <= 阈值,否则它将变为 0 和 1。

python pandas

3
推荐指数
1
解决办法
1191
查看次数

matplotlib:如何返回matplotlib对象然后将其绘制为子图?

我检查了这个Matplotlib返回一个绘图对象,但它确实不适合我的问题。

我想做的是:

def func1():
   fig1 =  plt.plot (np.arange(0.0, 5.0, 0.1))
   return fig1

def func2()
   return plt.plot (np.arange(0.0, 5.0, 0.02))


fig1 = func1()
fig2 = func2()
plt.figure()
plt.add_subplot(fig1)
plt.add_subplot(fig2)
plt.show()
Run Code Online (Sandbox Code Playgroud)

上面的代码只是一个主要思想。你能建议我怎么做吗?

谢谢

python matplotlib python-3.x

3
推荐指数
1
解决办法
1063
查看次数

调用返回FloatType()的UDF时,“构造ClassDict的预期零参数(对于numpy.dtype)”

我相信它与此有关:火花错误:构造ClassDict预期使用零参数(对于numpy.core.multiarray._reconstruct)

我有一个数据框

id col_1 col_2
1 [1,2] [1,3]
2 [2,1] [3,4]
Run Code Online (Sandbox Code Playgroud)

我想创建另一个列,该列是和cosine之间的距离。col_1col_2

from scipy.spatial.distance import cosine

def cosine_distance(a,b):
    try:
        return cosine(a, b)
    except Exception as e:
        return 0.0 # in case division by zero
Run Code Online (Sandbox Code Playgroud)

我定义了一个udf

cosine_distance_udf = udf (cosine_distance, FloatType())

最后:

new_df = df.withColumn('cosine_distance', cosine_distance_udf('col_1', 'col_2'))

我有错误: PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)

我做错什么了?

python dataframe pyspark pyspark-sql

3
推荐指数
1
解决办法
1334
查看次数

在 conda 环境中找不到命令“python”

我在 MS Windows 10 上使用 Ubuntu 20.04 WSL。我从主页(https://repo.anaconda.com/archive/Anaconda3-2021.05-Linux-x86_64.sh)安装了 anaconda 并尝试创建一个新环境,如下所示图像。

在此输入图像描述

正如你所看到的,我只是创建了一个新环境并切换到该环境,但我没有发现Python命令。

我做了echo $PATH并且得到了

/home/my_username/anaconda3/envs/test/bin:/home/my_username/anaconda3/condabin:

已经在 PATH 的开头了。

我该如何解决这个问题?谢谢

anaconda windows-subsystem-for-linux

3
推荐指数
1
解决办法
2808
查看次数

pandas:将具有相同值的连续行分组为一组

假设我有一个购买的 pandas 数据框,没有这样的发票 ID

item_id customer_id
1 A
2 A
1 B
3 C
4 C
1 A
5 A
Run Code Online (Sandbox Code Playgroud)

因此,我的假设是,如果客户连续订单购买了多个商品,则它们属于一组。所以我想创建一个 order_id 列:

item_id customer_id order_id
1 A 1
2 A 1
1 B 2
3 C 3
4 C 3
1 A 4
5 A 4
Run Code Online (Sandbox Code Playgroud)

order_id 应自动创建且增量。我应该如何处理熊猫呢?

非常感谢

python numpy list dataframe pandas

2
推荐指数
1
解决办法
312
查看次数