小编Kri*_*yan的帖子

基于时间戳的HBase扫描？

对于hbase表'test_table'的示例,插入的值为:

Row1 - Val1 => t
Row1 - Val2 => t + 3
Row1 - Val3 => t + 5

Row2 - Val1 => t
Row2 - Val2 => t + 3
Row2 - Val3 => t + 5

Run Code Online (Sandbox Code Playgroud)

扫描'test_table'时应返回version = t + 4

Row1 - Val1 => t + 3
Row2 - Val2 => t + 3

Run Code Online (Sandbox Code Playgroud)

如何在HBase中实现基于时间戳的扫描(基于最新可用值小于或等于时间戳)？

hadoop hbase

Kri*_*yan

lucky-day

15
推荐指数

1
解决办法

3万
查看次数

如何从sklearn中的不平衡数据集中获得平衡的类样本？

我有一个带有二进制类标签的数据集。我想从我的数据集中提取具有平衡类的样本。我在下面写的代码给了我不平衡的数据集。

sss = StratifiedShuffleSplit(train_size=5000, n_splits=1, test_size=50000, random_state=0)
for train_index, test_index in sss.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        print(itemfreq(y_train))

Run Code Online (Sandbox Code Playgroud)

如您所见，该类0有 2438 个样本，而该类1有 2562 个。

[[  0.00000000e+00   2.43800000e+03]
 [  1.00000000e+00   2.56200000e+03]]

Run Code Online (Sandbox Code Playgroud)

我应该如何继续在课堂上获得 2500 个样本，1并且0每个样本都在我的训练集中。（测试集也有 25000）

scikit-learn

Kri*_*yan

2017 03-10

8
推荐指数

1
解决办法

8128
查看次数

最小化 cvxpy 中的日志函数

我正在尝试使用 CVXPY 模拟精确线搜索实验。

objective = cvx.Minimize(func(x+s*grad(x))) 
s = cvx.Variable()
constraints = [ s >= 0]
prob = cvx.Problem(objective, constraints)
obj = cvx.Minimize(prob)

Run Code Online (Sandbox Code Playgroud)

（cvxbook byod pg472）

上面的方程是我的输入目标函数。

def func(x):
np.random.seed(1235813)
A = np.asmatrix(np.random.randint(-1,1, size=(n, m)))
b = np.asmatrix(np.random.randint(50,100,size=(m,1)))
c = np.asmatrix(np.random.randint(1,50,size=(n,1)))
fx = c.transpose()*x - sum(np.log((b - A.transpose()* x)))
return fx

Run Code Online (Sandbox Code Playgroud)

梯度函数

def grad(x):
np.random.seed(1235813)
A = np.asmatrix(np.random.randint(-1,1, size=(n, m)))
b = np.asmatrix(np.random.randint(50,100,size=(m,1)))
c = np.asmatrix(np.random.randint(1,50,size=(n,1)))
gradient = A * (1.0/(b - A.transpose()*x)) + c
return gradient

Run Code Online (Sandbox Code Playgroud)

使用此方法通过最小化目标函数来查找 t“步长”会导致错误“AddExpression”对象没有属性“log”。

我是 CVXPY …

convex-optimization cvxpy

Kri*_*yan

2016 08-13

3
推荐指数

1
解决办法

2877
查看次数

将Scipy稀疏矩阵转换为元组

我有一个稀疏矩阵让我们说A.

哪里

type(A) 
scipy.sparse.csr.csr_matrix

Run Code Online (Sandbox Code Playgroud)

和A

<100x100 sparse matrix of type '<class 'numpy.int64'>'
with 198 stored elements in Compressed Sparse Row format>

Run Code Online (Sandbox Code Playgroud)

获得以下内容

(0, 1)  1
(0, 0)  1
(0, 2)  1
(0, 3)  1
(0, 4)  1
(0, 5)  1
(0, 6)  1
....

Run Code Online (Sandbox Code Playgroud)

它代表矩阵A中的非零元素.(下面的代码)

for a in A:
  print(a)

Run Code Online (Sandbox Code Playgroud)

如何将其转换为如下所示的数据结构:

[(0,1),
(0,0),
(0,2),
....]

Run Code Online (Sandbox Code Playgroud)

python scipy

Kri*_*yan

2016 04-27

2
推荐指数

1
解决办法

1357
查看次数

Azure ML Studio无法在R中加载已安装的软件包

我正在尝试使用以下命令在azure ML studio中安装软件包.

install.packages("src/DMwR.zip", lib = ".", repos = NULL, verbose = TRUE)
library(DMwR, lib.loc=".", verbose=TRUE)

Run Code Online (Sandbox Code Playgroud)

DMwR.zip作为天蓝色的数据集上传.我得到的错误如下.

Error 0063: The following error occurred during evaluation of R script:
---------- Start of error message from R ----------
zip file 'src/DMwR.zip' not found

Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题？

r azure azure-machine-learning-studio

Kri*_*yan

2016 11-16

2
推荐指数

1
解决办法

498
查看次数