小编kww*_*kww的帖子

Pyspark数据帧如何在所有列中删除带空值的行？

对于数据框,在它之前:

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|null|null|
|null|   B|  X1|
+----+----+----+

Run Code Online (Sandbox Code Playgroud)

在我希望它之后:

+----+----+----+
|  ID|TYPE|CODE|
+----+----+----+
|   1|   B|  X1|
|null|   B|  X1|
+----+----+----+

Run Code Online (Sandbox Code Playgroud)

我更喜欢一种通用的方法,以便它可以在df.columns很长时间内应用.谢谢!

python apache-spark apache-spark-sql pyspark pyspark-sql

kww*_*kww

2019 01-16

9
推荐指数

2
解决办法

6422
查看次数

PySpark：如何判断数据框的列类型

假设我们有一个名为df. 我知道有一种使用df.dtypes. 但是我更喜欢类似的东西

type(123) == int # note here the int is not a string

我想知道是否有类似的东西：

type(df.select(<column_name>).collect()[0][1]) == IntegerType

基本上我想知道如何直接IntegerType, StringType从dataframe中获取类的对象然后进行判断。

谢谢！

python apache-spark apache-spark-sql pyspark pyspark-sql

kww*_*kww

2018 01-26

7
推荐指数

1
解决办法

6977
查看次数

C++11 std::thread std::move 抱怨尝试使用已删除的函数

我正在学习 C++11 线程并尝试编写一个更改共享内存的线程。我分别用了std::ref和std::move。我使用以下命令运行代码g++ eg3.cpp -std=c++11 -pthread：但我发现std::move在我的 mac 上不起作用。我收到这样的错误：

In file included from eg3.cpp:1: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/thread:337:5: error: 
      attempt to use a deleted function
    __invoke(_VSTD::move(_VSTD::get<0>(__t)), _VSTD::move(_VSTD::get<_Indices>(__t))...);
    ^
...

Run Code Online (Sandbox Code Playgroud)

我的代码如下：

#include<thread>
#include<iostream>
#include<mutex>
#include<condition_variable>
#include<string>
#include<functional>
#include<utility>
using namespace std;
int main(){
  string s = "Hello!";
  cout << "Main before: " << s << endl;
  // thread t([](string& s){cout << s << endl; s = "Ni hao!";}, ref(s)); //// This works!
  // thread t([](string& s){cout << …

Run Code Online (Sandbox Code Playgroud)

c++ multithreading c++11

kww*_*kww

2016 12-20

5
推荐指数

1
解决办法

3454
查看次数

PySpark：如何获取数据帧中列的最大绝对值？

假设我有

+----+---+
|  v1| v2|
+----+---+
|-1.0|  0|
| 0.0|  1|
| 1.0|  2|
|-2.0|  3|
+----+---+

Run Code Online (Sandbox Code Playgroud)

我想获得列的最大绝对值v1，这是2.0。谢谢！

pyspark pyspark-sql

kww*_*kww

lucky-day

5
推荐指数

1
解决办法

3023
查看次数

如何在pyspark中获得每个PCA组件的解释差异

据我所知,pyspark提供PCA API,如:

from pyspark.ml.feature import PCA
pca = PCA(k=3, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(data_frame)

Run Code Online (Sandbox Code Playgroud)

但实际上,我发现解释的方差比被更广泛地使用.例如,在sklearn中:

from sklearn.decomposition import PCA
pca_fitter = PCA(n_components=0.85)

Run Code Online (Sandbox Code Playgroud)

有谁知道如何在pyspark中实现解释的方差比？谢谢!

pca pyspark apache-spark-ml

kww*_*kww

2018 08-19

3
推荐指数

1
解决办法

1383
查看次数

标签统计

pyspark ×4

pyspark-sql ×3

apache-spark ×2

apache-spark-sql ×2

python ×2

apache-spark-ml ×1

c++ ×1

c++11 ×1

multithreading ×1

pca ×1

Pyspark数据帧如何在所有列中删除带空值的行？

PySpark：如何判断数据框的列类型

C++11 std::thread std::move 抱怨尝试使用已删除的函数

PySpark：如何获取数据帧中列的最大绝对值？

如何在pyspark中获得每个PCA组件的解释差异

标签 统计

小编kww_kww的帖子

标签统计