小编Bob*_*Bob的帖子

Null类型的表达式不适用于隐式转换

这样做时:

  def myfunction(line: String): (Int, Option[DateTime], Option[Int]) = {
    // do some stuff
    (5, Option(null), Option(null))
  }
Run Code Online (Sandbox Code Playgroud)

我得到以下内容:

Null类型的表达式不适用于隐式转换

我不确定如何解决它.

null scala

11
推荐指数
1
解决办法
6746
查看次数

Scala中数组的元素总和

如何计算数组的元素和?

val a = new Array[Int](5)
val b = new Array[Int](5)
// assign values
// desired output: Array -> [a(0)+b(0), a(1)+b(1), a(2)+b(2), a(3)+b(3), a(4)+b(4)]

a.zip(b).flatMap(_._1+_._2)
Run Code Online (Sandbox Code Playgroud)

缺少扩展函数的参数类型

arrays scala

6
推荐指数
2
解决办法
8691
查看次数

Apache Spark中的spark.storage.memoryFraction设置

根据Spark文档

spark.storage.memoryFraction:用于Spark的内存缓存的Java堆的分数.这不应该大于JVM中的"旧"对象生成,默认情况下会给出0.6的堆,但如果配置自己的旧生成大小,则可以增加它.

我找到了几个博客和文章,建议在纱线模式下将其设置为零.为什么这比设置接近1更好?一般来说,它的合理价值是什么?

python java hadoop-yarn apache-spark

5
推荐指数
1
解决办法
3839
查看次数

如何对一个pandas数据帧的一列进行单热编码?

我正在尝试对数据帧的一列进行单热编码.

enc = OneHotEncoder()
minitable = enc.fit_transform(df["ids"])
Run Code Online (Sandbox Code Playgroud)

但我得到了

弃用警告:传递1d数组作为数据在0.17中被弃用,并且在0.19中将ValueError用于表示.

这有解决方法吗?

python pandas scikit-learn

4
推荐指数
1
解决办法
3136
查看次数

数据在 scikit-learn 转换器中不持久

我想将额外的数据传递给 scikit-learn 中的转换器:

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.ensemble import RandomForestClassifier

from sklearn.pipeline import Pipeline
import numpy as np
from sklearn.model_selection import GridSearchCV

class myTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, my_np_array):
        self.data = my_np_array
        print self.data

    def transform(self, X):
        return X

    def fit(self, X, y=None):
        return self

data = np.random.rand(20,20)
data2 = np.random.rand(6,6)
y = np.array([1, 2, 3, 1, 2, 3, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 3, 3, 3, 3])

pipe = Pipeline(steps=[('myt', myTransformer(data2)), ('randforest', RandomForestClassifier())]) …
Run Code Online (Sandbox Code Playgroud)

python machine-learning scikit-learn

3
推荐指数
1
解决办法
727
查看次数

在没有双 for 循环的情况下展平 numpy 数组

我有一个二维矩阵。出于本示例的目的,假设它是一个随机矩阵

>>> a = np.random.randn(5, 7)
>>> a
array([[-0.37279322,  0.28619523, -0.05309901,  0.26010327,  0.1846693 , 0.33112176,  0.75814911],
       [ 1.57001151, -0.86831693, -0.20576395,  1.46450855, -0.01631132, 3.02790403, -0.65313017],
       [ 0.2362675 , -1.52190536,  0.04687194,  2.01618876,  0.03780218, -0.53041096, -0.30104844],
       [-0.5504834 ,  1.04286156,  1.12863785,  0.89583492,  0.28607363, 1.42858007,  0.28582572],
       [-0.768464  ,  0.31952554,  0.81129581,  0.26239668, -0.23242878, -1.01584339,  0.39573906]])
Run Code Online (Sandbox Code Playgroud)

和两个标签向量:

label_y = np.array([23, 984, 123, 9321, 121238])
label_x = np.array([121, 31312, 9123131, 1111, 1231441, 1929313, 192312312361])
Run Code Online (Sandbox Code Playgroud)

我想展平 a 的元素并输出它们的标签索引和值。例如:

23,121,-0.37279322 
23,31312,0.28619523 
23,9123131,-0.05309901 
23,1111,0.26010327
23,1231441,0.1846693
23,1929313,0.33112176
23,192312312361,0.75814911 
984,121,...
...
Run Code Online (Sandbox Code Playgroud)

有没有一种简单的方法可以在没有 for …

python numpy

1
推荐指数
1
解决办法
343
查看次数

使用 sed 删除前导和尾随空格

我有一个如下所示的文件:

   2 1 word
  78 3 other words
   2 some other words here
  54 bla bla
Run Code Online (Sandbox Code Playgroud)

我想删除空格并在值和休息之间添加逗号。输出应该是这样的

2,1 word
78,3 other words
2,some other words here
54,bla bla
Run Code Online (Sandbox Code Playgroud)

命令

sed -e 's/\s*([0-9])+\s.+/&/'
Run Code Online (Sandbox Code Playgroud)

没有改变任何东西

macos sed

0
推荐指数
1
解决办法
3043
查看次数