小编Sco*_*vis的帖子

识别data.frame中仅包含R中的NA值的行

我有data.frame34个序数和NA变量的15,000个观测值.我正在为市场细分研究执行聚类,并且需要仅NAs删除的行.取出userID后,我收到一条错误消息,说明只NAs在集群之前省略了2099行.

我找到了一个删除所有NA值的行的链接,但我需要确定2099行中的哪一行具有所有NA值.这里讨论的链接删除了包含所有NA值的:在data.frame中删除带有NA的行

以下是六个变量中前五个观测值的样本:

> head(Store2df, n=5)
  RowNo      Age Gender HouseholdIncome MaritalStatus PresenceofChildren
1     1     <NA>   Male            <NA>          <NA>               <NA>
2     2    45-54 Female            <NA>          <NA>               <NA>
3     3     <NA>   <NA>            <NA>          <NA>               <NA>
4     4     <NA>   <NA>            <NA>          <NA>               <NA>
5     5    45-54 Female        75k-100k       Married                Yes
#Making a vector
> Vector1 <- Store2df$RowNo 
#Taking out RowNo column
> Store2df$RowNo <- NULL
Run Code Online (Sandbox Code Playgroud)

编辑:我把结果放在一个对象,但发现代码创建了一个额外的列.单击RStudio的环境,创建了一个名为row.names的额外列,用原始行名称标记每一行.删除了几千行,新列标记了具有旧行号的新行.但是当看到新对象的头部时,我没有看到行标签.为什么row.names标签在环境中显示,但在我查看头部时却不显示?

#Remove …
Run Code Online (Sandbox Code Playgroud)

r missing-data

10
推荐指数
1
解决办法
2万
查看次数

RShiny ui.r参数丢失时出错

尝试使用以下功能创建用于绘制逻辑回归的ui.r文件:

选择输入(y变量:分解,x变量:温度,湿度,小时)和可变范围滑块.

我收到以下错误: Error in tag("div", list(...)) : argument is missing, with no default

require(shiny)    
shinyUI(pageWithSidebar(
  headerPanel("Home Automation Data Model - TV"),      
  sidebarPanel(
    wellPanel(
      selectInput(
        inputId = "x_var",
        label = "X variable",
        choices = c(
          "Temperature (Celcius)" = "Temp",
          "Humidity (Percentage)" = "Hum",
          "Hours" = "Hrs"
        ),
        selected = "Temperature"
      ),

      uiOutput("x_range_slider")
    ),      

    wellPanel(
      selectInput(
        inputId = "y_var",
        label = "Y variable",
        choices = c("Breakdowns (Yes/No)" = "y"),
      ),

      uiOutput("y_range_slider")
    ),        

    wellPanel(
      p(strong("Model predictions")),
      checkboxInput(inputId = "mod_logistic",    label = "Logistic …
Run Code Online (Sandbox Code Playgroud)

r shiny

9
推荐指数
1
解决办法
2万
查看次数

R中的聚类算法用于缺失分类和数值

我想在R中缺少分类和数值的数据集上执行市场细分聚类.由于缺少值,我无法执行k均值聚类.

R版本3.1.0(2014-04-10)

平台:x86_64-apple-darwin13.1.0(64位)

Mac OSX 10.9.3 4GB硬盘

R中是否有可用于支持部分填充率的聚类算法包?在研究缺失值的学术文章时,研究人员为特殊用例创建了一种新算法,并且R中没有包.例如,k-means有软约束,k-means聚类有部分距离策略.

我有36个变量,但这里是前5个的描述:

head(df)

  user_id    Age   Gender Household.Income Marital.Status
1   12945           Male                                
2   12947           Male                                
3   12990                                                  
4   13160   25-34   Male   100k-125k         Single
5   13195           Male    75k-100k         Single
6   13286                                               
Run Code Online (Sandbox Code Playgroud)

如果我能提供更多信息,请告诉我.

r cluster-analysis machine-learning missing-data

8
推荐指数
1
解决办法
1196
查看次数

str.replace 函数创建 NaN 数据

我正在尝试替换 Pandas 列中的某些字符串,但正在替换某些NaN行。该列是一种对象数据类型。

我希望'n'将字符串中的所有行替换为'N'和 并将字符串中的所有行's'替换为'S'. 换句话说,我试图在出现时将字符串大写。

但是,我正在获取NaN没有'n''s'在字符串中的行的值。我怎么能代替'n''s'没有得到NaN为其他值?

这是我的数据框的头部:

data_frame['column_name'].head(10)
0      1n
1      1n
2      1n
3      1n
4      2n
5      2s
6       3
7       3
8      4s
9      4s
Run Code Online (Sandbox Code Playgroud)

替换后,字符串'3'现在是NaN

data_frame['column_name'] = data_frame['column_name'].str.replace('n', 'N')
data_frame['column_name'] = data_frame['column_name'].str.replace('s', 'S')

data_frame['column_name'].head(10)
Out[87]: 
0     1N
1     1N
2     1N
3     1N
4     2N
5     2S
6 …
Run Code Online (Sandbox Code Playgroud)

pandas

8
推荐指数
1
解决办法
4637
查看次数

.C 不支持 R 群集包错误 Daisy() 函数长向量(参数 11)

尝试data.frame使用R 中包中的daisy函数将具有数字、名义和 NA 值的 a 转换为相异矩阵cluster。我的目的涉及在应用 k 均值聚类进行客户细分之前创建相异矩阵。将data.frame有133153行和36列。这是我的机器。

sessionInfo()
R version 3.1.0 (2014-04-10)
Platform x86_64-w64-mingw32/x64 (64-bit) 
Run Code Online (Sandbox Code Playgroud)

如何修复雏菊警告?

由于 Windows 计算机有 3 Gb RAM,我将虚拟内存增加到 100GB,希望这足以创建矩阵 - 它不起作用。我仍然有一些关于内存的错误。我研究了其他 R 包来解决内存问题,但它们不起作用。我不能bigmemorybiganalytics包一起使用,因为它只接受数字矩阵。在claraff包也只接受数字矩阵。

CRAN 的cluster包建议在应用 k 均值之前将高尔相似系数作为距离度量。高尔系数采用数字、名义和 NA 值。

Store1 <- read.csv("/Users/scdavis6/Documents/Work/Client1.csv", head=FALSE)
df <- as.data.frame(Store1)
save(df, file="df.Rda")
library(cluster)
daisy1 <- daisy(df, metric = "gower", type = list(ordratio = c(1:35)))
#Error in daisy(df, metric = "gower", type …
Run Code Online (Sandbox Code Playgroud)

csv r cluster-analysis amazon-ec2 r-daisy

5
推荐指数
1
解决办法
4594
查看次数

将因子转换为没有 NA 的日期对象 R

问题:如何factordate不获取NA值的情况下将 a 转换为对象。

这是一个类似的帖子:Convert Factor to Date/Time in R

在那个帖子中,用户characterdate. 在函数内部使用NA转换为character对象时,我正在获取值。as.characteras.Date

我在数据框中有一列,日期为因子格式,出现次数不同。这是 data.frame 中包含的信息。

> head(fraud, 5)
  TRANSACTION.DATE TRANSACTION.AMOUNT AIR.TRAVEL.DATE POSTING.DATE
1 2/27/14                  25.00                 <NA>          2/28/14
2 2/28/14                  25.00                 <NA>          2/28/14
3 2/27/14                  25.00                 <NA>          2/28/14
4 2/27/14                  20.00              2/27/14          2/28/14
5 2/27/14                  12.13                 <NA>          2/28/14

> str(fraud$TRANSACTION.DATE)
 Factor w/ 519 levels "1/1/14","1/1/15",..: 228 230 228 228 228 230 226 228 230 …
Run Code Online (Sandbox Code Playgroud)

r date time-series

3
推荐指数
1
解决办法
2万
查看次数

在R中将一列数据转换为三列

在一列中有三个标记为"User-ID","ISBN"和"Book-Rating"的变量,但更喜欢三个.

行:1,149,903

我读了关于将一到两个转换为二的帖子,但在第一行代码中遇到了错误.

第一行:

 User-ID <- df[seq(from = 1, to =nrow(df), by = 3), 1]
Run Code Online (Sandbox Code Playgroud)

错误信息:

 Error in seq.default(from = 1, to = nrow(df), by = 3) : 
 'to' must be of length 1
Run Code Online (Sandbox Code Playgroud)

我使用以下命令将.csv文件保存为data.frame:

as.data.frame.matrix(BX.Book.Ratings)
Run Code Online (Sandbox Code Playgroud)

下面显示截图.如果我能提供更多信息,请告诉我.

谢谢

截图

r

2
推荐指数
1
解决办法
148
查看次数

错误1452 MySQL

将数据插入空表,但得到错误1452.我不确定为什么MySQL在错误中提到NameInfo表.

CREATE TABLE NameInfo (
Language VARCHAR(7) NOT NULL,
Status VARCHAR(13) NOT NULL, 
Standard VARCHAR(13) NOT NULL, 
Name VARCHAR(13) NOT NULL, 
Name_ID INT(4) NOT NULL, 
Place_ID INT(9) NOT NULL, 
Supplier_ID INT(4) NOT NULL, 
Date_Supplied DATE NOT NULL, 
PRIMARY KEY (Name_ID),
FOREIGN KEY (Supplier_ID) REFERENCES Supplier(Supplier_ID),
FOREIGN KEY (Place_ID) REFERENCES Place(Place_ID) 
);


CREATE TABLE Departments ( 
Dept_ID INT(6) NOT NULL,
Dept_NAME VARCHAR(25) NOT NULL, 
DeptHead_ID INT(6) NOT NULL,
DeptAA VARCHAR(20) NOT NULL, 
ParentDept_ID INT(4) NOT NULL,
Location VARCHAR(10) NOT NULL, 
DeptType …
Run Code Online (Sandbox Code Playgroud)

mysql foreign-keys

2
推荐指数
1
解决办法
9640
查看次数

Sklearn中的PCA - ValueError:数组不能包含infs或NaN

我正在尝试使用网格搜索来选择数据的主成分数量,然后再进行线性回归.我很困惑如何制作我想要的主要组件数量的字典.我把我的列表放在param_grid参数中的字典格式中,但我认为我做错了.到目前为止,我已经收到有关包含infs或NaN的数组的警告.

我遵循将线性回归流水线化为PCA的说明:http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html

ValueError:数组不能包含infs或NaN

我能够在可重现的示例中得到相同的错误,我的真实数据集更大:

import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

df2 = pd.DataFrame({ 'C' : pd.Series(1, index = list(range(8)),dtype = 'float32'),
                     'D' : np.array([3] * 8,dtype = 'int32'),
                     'E' : pd.Categorical(["test", "train", "test", "train",
                     "test", "train", "test", "train"])})

df3 = pd.get_dummies(df2)

lm = LinearRegression()

pipe = [('pca',PCA(whiten=True)),
         ('clf' ,lm)]

pipe = Pipeline(pipe)


param_grid = {
    'pca__n_components': np.arange(2,4)}

X = …
Run Code Online (Sandbox Code Playgroud)

python pca scikit-learn

0
推荐指数
1
解决办法
1968
查看次数