我在 HDFS 中有一个目录,每天都会将一个已处理的文件放置在该目录中,文件名中包含 DateTimeStamp,如果我在该目录位置上创建外部表,当每天的文件到达并驻留在该目录中时,外部表是否会自行刷新? ?
我有一个给定的数据帧:
df = {'TYPE' : pd.Series(['Advisory','Advisory1','Advisory2','Advisory3']),
'CNTRY' : pd.Series(['IND','FRN','IND','FRN']),
'VALUE' : pd.Series([1., 2., 3., 4.])}
df = pd.DataFrame(df)
df = pd.pivot_table(df,index=["CNTRY"],columns=["TYPE"]).reset_index()
Run Code Online (Sandbox Code Playgroud)
在旋转之后,我如何获得具有列的数据框并且df如下所示; 删除多级索引,VALUE
Type|CNTRY|Advisory|Advisory1|Advisory2|Advisory3
0 FRN NaN 2.0 NaN 4.0
1 IND 1.0 NaN 3.0 NaN
Run Code Online (Sandbox Code Playgroud) 我有一个矩阵数据。我怎样才能找到给定矩阵中的最大值。
> data
[,1]
[1,] "1714.12"
[2,] Character,2
> data[2,1]
[1] "14777.15" "1421.45"
> class(data)
[1] "matrix"
Run Code Online (Sandbox Code Playgroud)
我怎样才能找到上面矩阵中的最大值data,Whish是14777.15?
数据:
data <- structure(list("1714.12", c("14777.15", "1421.45")), .Dim = c(2L, 1L))
Run Code Online (Sandbox Code Playgroud) 我有一个字符串,其值如下所示,由竖线分隔。
String1 <- "5|10|25|25|10|10|10|5"
String2 <- "5|10|25|25"
Run Code Online (Sandbox Code Playgroud)
是否有任何直接函数来获取 string 中数字的总和,在这种情况下,Srting1 应该是 100,string2 应该是 65,我有一个这样的字符向量。
>chk
chk
1 5|10|25|25|10|10|10|5
2 5|55|20|5|5|5|5
3 6
4 Not Available
> sum(scan(text=gsub("\\Not Available\\b", "NA", chk$chk), sep="|", what = numeric(), quiet=TRUE), na.rm = TRUE)
[1] 206
Run Code Online (Sandbox Code Playgroud)
理应如此
[1]100 100 6 NA
Run Code Online (Sandbox Code Playgroud) 我必须删除任何数据帧列中至少有一个N/A的行.
试过这些
frame1 <- na.omit(frame1)
is.null(frame1)
[1] FALSE
Run Code Online (Sandbox Code Playgroud)
猜猜NA和N/A之间有什么区别如何按照说明删除行
我有一个 DF(train_market) 有 8523 行和 12 列,如图所示
我正在做多项逻辑回归模型来获取 test_data 上的 ITem_Outlet_Sales。但是运行模型的代码一起运行了几个小时
model <- nnet(Item_Outlet_Sales~.,train_market,family="multinomial",size = 5574900,softmax=TRUE)
Run Code Online (Sandbox Code Playgroud)
我尝试了下面显示的其他两个,但仍然运行了几个小时,我应该做哪些更改才能完成它
model <- multinom(Item_Outlet_Sales~.,train_market,family="multinomial")
model <- nnet(Item_Outlet_Sales~.,train_market,family="multinomial",size = 5574900,softmax=TRUE)
Run Code Online (Sandbox Code Playgroud)
我得到第二个代码的错误
Error in nnet.default(X, Y, w, mask = mask, size = 0, skip = TRUE, softmax = TRUE, :
too many (5574828) weights
Run Code Online (Sandbox Code Playgroud)
所以将 size =5574900 保留在第三个并尝试,这有帮助。
我有一个如下所示的数据框,
df = pd.Dataframe({'Col1' : pd.Series(['Abc','Cde','Efg','Abc'], index=['a', 'b', 'c','d']),
'Col2' : pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']),
'Col3' : pd.Series([1, 2., 3., 4.], index=['a', 'b', 'c', 'd'])})
Run Code Online (Sandbox Code Playgroud)
根据Col1中列值的值,我想用Col2替换Col3值,
在这种情况下,Col1 值是“Abc”,我想用 Col2 值更新 Col3 值,期望输出如下
pd.Dataframe({'Col1' : pd.Series(['Abc','Cde','Efg','Abc'], index=['a', 'b', 'c','d']),
'Col2' : pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd']),
'Col3' : pd.Series([10, 2., 3., 40], index=['a', 'b', 'c', 'd'])})
Run Code Online (Sandbox Code Playgroud)
通过过滤器尝试过,这不是通用的,所以任何正确的方法都可以做同样的事情!