小编Shi*_*e_R的帖子

当文件添加到指向目录时,外部配置单元表是否会自行刷新

我在 HDFS 中有一个目录,每天都会将一个已处理的文件放置在该目录中,文件名中包含 DateTimeStamp,如果我在该目录位置上创建外部表,当每天的文件到达并驻留在该目录中时,外部表是否会自行刷新? ?

hadoop hive bigdata hdfs hiveql

5
推荐指数
1
解决办法
5338
查看次数

如何删除pandas数据透视表中的多级索引

我有一个给定的数据帧:

df = {'TYPE' : pd.Series(['Advisory','Advisory1','Advisory2','Advisory3']),
 'CNTRY' : pd.Series(['IND','FRN','IND','FRN']),
 'VALUE' : pd.Series([1., 2., 3., 4.])}
df = pd.DataFrame(df)
df = pd.pivot_table(df,index=["CNTRY"],columns=["TYPE"]).reset_index()
Run Code Online (Sandbox Code Playgroud)

在旋转之后,我如何获得具有列的数据框并且df如下所示; 删除多级索引,VALUE

Type|CNTRY|Advisory|Advisory1|Advisory2|Advisory3
0     FRN     NaN      2.0      NaN     4.0 
1     IND     1.0      NaN      3.0     NaN 
Run Code Online (Sandbox Code Playgroud)

python pivot pivot-table pandas

4
推荐指数
1
解决办法
1万
查看次数

查找 R 矩阵内的最大值

我有一个矩阵数据。我怎样才能找到给定矩阵中的最大值。

 > data
         [,1]  
   [1,] "1714.12"  
   [2,] Character,2

 > data[2,1]
   [1] "14777.15" "1421.45"
 > class(data)
   [1] "matrix"
Run Code Online (Sandbox Code Playgroud)

我怎样才能找到上面矩阵中的最大值data,Whish是14777.15?

数据:

data <- structure(list("1714.12", c("14777.15", "1421.45")), .Dim = c(2L, 1L))
Run Code Online (Sandbox Code Playgroud)

r max matrix

3
推荐指数
1
解决办法
9078
查看次数

R 中字符串中的数字总和由竖线分隔

我有一个字符串,其值如下所示,由竖线分隔。

String1 <- "5|10|25|25|10|10|10|5"
String2 <- "5|10|25|25"
Run Code Online (Sandbox Code Playgroud)

是否有任何直接函数来获取 string 中数字的总和,在这种情况下,Srting1 应该是 100,string2 应该是 65,我有一个这样的字符向量。

>chk
                chk
1 5|10|25|25|10|10|10|5
2       5|55|20|5|5|5|5
3                     6
4        Not Available
> sum(scan(text=gsub("\\Not Available\\b", "NA", chk$chk), sep="|", what = numeric(), quiet=TRUE), na.rm = TRUE)
[1] 206
Run Code Online (Sandbox Code Playgroud)

理应如此

 [1]100 100 6 NA
Run Code Online (Sandbox Code Playgroud)

regex r sum

2
推荐指数
1
解决办法
971
查看次数

从数据框中删除N/A.

数据框就像 在此输入图像描述

我必须删除任何数据帧列中至少有一个N/A的行.

试过这些

   frame1 <- na.omit(frame1)
   is.null(frame1)
   [1] FALSE
Run Code Online (Sandbox Code Playgroud)

猜猜NA和N/A之间有什么区别如何按照说明删除行

r na

1
推荐指数
1
解决办法
3万
查看次数

多项式逻辑回归中的权重过多并且代码运行了几个小时

我有一个 DF(train_market) 有 8523 行和 12 列,如图所示在此输入图像描述

我正在做多项逻辑回归模型来获取 test_data 上的 ITem_Outlet_Sales。但是运行模型的代码一起运行了几个小时

 model <- nnet(Item_Outlet_Sales~.,train_market,family="multinomial",size = 5574900,softmax=TRUE)
Run Code Online (Sandbox Code Playgroud)

我尝试了下面显示的其他两个,但仍然运行了几个小时,我应该做哪些更改才能完成它

 model <- multinom(Item_Outlet_Sales~.,train_market,family="multinomial")
 model <- nnet(Item_Outlet_Sales~.,train_market,family="multinomial",size = 5574900,softmax=TRUE)
Run Code Online (Sandbox Code Playgroud)

我得到第二个代码的错误

Error in nnet.default(X, Y, w, mask = mask, size = 0, skip = TRUE, softmax = TRUE,  : 
 too many (5574828) weights
Run Code Online (Sandbox Code Playgroud)

所以将 size =5574900 保留在第三个并尝试,这有帮助。

r machine-learning neural-network nnet

1
推荐指数
1
解决办法
6434
查看次数

pandas,根据其他列替换数据框中的值

我有一个如下所示的数据框,

df = pd.Dataframe({'Col1' : pd.Series(['Abc','Cde','Efg','Abc'], index=['a', 'b', 'c','d']),
 'Col2' : pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']),
 'Col3' : pd.Series([1, 2., 3., 4.], index=['a', 'b', 'c', 'd'])})
Run Code Online (Sandbox Code Playgroud)

根据Col1中列值的值,我想用Col2替换Col3值,

在这种情况下,Col1 值是“Abc”,我想用 Col2 值更新 Col3 值,期望输出如下

pd.Dataframe({'Col1' : pd.Series(['Abc','Cde','Efg','Abc'], index=['a', 'b', 'c','d']),
 'Col2' : pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']),
 'Col3' : pd.Series([10, 2., 3., 40], index=['a', 'b', 'c', 'd'])})
Run Code Online (Sandbox Code Playgroud)

通过过滤器尝试过,这不是通用的,所以任何正确的方法都可以做同样的事情!

python dataframe pandas

0
推荐指数
1
解决办法
609
查看次数