我有data.frame34个序数和NA变量的15,000个观测值.我正在为市场细分研究执行聚类,并且需要仅NAs删除的行.取出userID后,我收到一条错误消息,说明只NAs在集群之前省略了2099行.
我找到了一个删除所有NA值的行的链接,但我需要确定2099行中的哪一行具有所有NA值.这里讨论的链接删除了包含所有NA值的行:在data.frame中删除带有NA的行
以下是六个变量中前五个观测值的样本:
> head(Store2df, n=5)
RowNo Age Gender HouseholdIncome MaritalStatus PresenceofChildren
1 1 <NA> Male <NA> <NA> <NA>
2 2 45-54 Female <NA> <NA> <NA>
3 3 <NA> <NA> <NA> <NA> <NA>
4 4 <NA> <NA> <NA> <NA> <NA>
5 5 45-54 Female 75k-100k Married Yes
#Making a vector
> Vector1 <- Store2df$RowNo
#Taking out RowNo column
> Store2df$RowNo <- NULL
Run Code Online (Sandbox Code Playgroud)
编辑:我把结果放在一个对象,但发现代码创建了一个额外的列.单击RStudio的环境,创建了一个名为row.names的额外列,用原始行名称标记每一行.删除了几千行,新列标记了具有旧行号的新行.但是当看到新对象的头部时,我没有看到行标签.为什么row.names标签在环境中显示,但在我查看头部时却不显示?
#Remove …Run Code Online (Sandbox Code Playgroud) 尝试使用以下功能创建用于绘制逻辑回归的ui.r文件:
选择输入(y变量:分解,x变量:温度,湿度,小时)和可变范围滑块.
我收到以下错误: Error in tag("div", list(...)) : argument is missing, with no default
require(shiny)
shinyUI(pageWithSidebar(
headerPanel("Home Automation Data Model - TV"),
sidebarPanel(
wellPanel(
selectInput(
inputId = "x_var",
label = "X variable",
choices = c(
"Temperature (Celcius)" = "Temp",
"Humidity (Percentage)" = "Hum",
"Hours" = "Hrs"
),
selected = "Temperature"
),
uiOutput("x_range_slider")
),
wellPanel(
selectInput(
inputId = "y_var",
label = "Y variable",
choices = c("Breakdowns (Yes/No)" = "y"),
),
uiOutput("y_range_slider")
),
wellPanel(
p(strong("Model predictions")),
checkboxInput(inputId = "mod_logistic", label = "Logistic …Run Code Online (Sandbox Code Playgroud) 我想在R中缺少分类和数值的数据集上执行市场细分聚类.由于缺少值,我无法执行k均值聚类.
R版本3.1.0(2014-04-10)
平台:x86_64-apple-darwin13.1.0(64位)
Mac OSX 10.9.3 4GB硬盘
R中是否有可用于支持部分填充率的聚类算法包?在研究缺失值的学术文章时,研究人员为特殊用例创建了一种新算法,并且R中没有包.例如,k-means有软约束,k-means聚类有部分距离策略.
我有36个变量,但这里是前5个的描述:
head(df)
user_id Age Gender Household.Income Marital.Status
1 12945 Male
2 12947 Male
3 12990
4 13160 25-34 Male 100k-125k Single
5 13195 Male 75k-100k Single
6 13286
Run Code Online (Sandbox Code Playgroud)
如果我能提供更多信息,请告诉我.
我正在尝试替换 Pandas 列中的某些字符串,但正在替换某些NaN行。该列是一种对象数据类型。
我希望'n'将字符串中的所有行替换为'N'和 并将字符串中的所有行's'替换为'S'. 换句话说,我试图在出现时将字符串大写。
但是,我正在获取NaN没有'n'或's'在字符串中的行的值。我怎么能代替'n'并's'没有得到NaN为其他值?
这是我的数据框的头部:
data_frame['column_name'].head(10)
0 1n
1 1n
2 1n
3 1n
4 2n
5 2s
6 3
7 3
8 4s
9 4s
Run Code Online (Sandbox Code Playgroud)
替换后,字符串'3'现在是NaN:
data_frame['column_name'] = data_frame['column_name'].str.replace('n', 'N')
data_frame['column_name'] = data_frame['column_name'].str.replace('s', 'S')
data_frame['column_name'].head(10)
Out[87]:
0 1N
1 1N
2 1N
3 1N
4 2N
5 2S
6 …Run Code Online (Sandbox Code Playgroud) 尝试data.frame使用R 中包中的daisy函数将具有数字、名义和 NA 值的 a 转换为相异矩阵cluster。我的目的涉及在应用 k 均值聚类进行客户细分之前创建相异矩阵。将data.frame有133153行和36列。这是我的机器。
sessionInfo()
R version 3.1.0 (2014-04-10)
Platform x86_64-w64-mingw32/x64 (64-bit)
Run Code Online (Sandbox Code Playgroud)
如何修复雏菊警告?
由于 Windows 计算机有 3 Gb RAM,我将虚拟内存增加到 100GB,希望这足以创建矩阵 - 它不起作用。我仍然有一些关于内存的错误。我研究了其他 R 包来解决内存问题,但它们不起作用。我不能bigmemory与biganalytics包一起使用,因为它只接受数字矩阵。在clara和ff包也只接受数字矩阵。
CRAN 的cluster包建议在应用 k 均值之前将高尔相似系数作为距离度量。高尔系数采用数字、名义和 NA 值。
Store1 <- read.csv("/Users/scdavis6/Documents/Work/Client1.csv", head=FALSE)
df <- as.data.frame(Store1)
save(df, file="df.Rda")
library(cluster)
daisy1 <- daisy(df, metric = "gower", type = list(ordratio = c(1:35)))
#Error in daisy(df, metric = "gower", type …Run Code Online (Sandbox Code Playgroud) 问题:如何factor在date不获取NA值的情况下将 a 转换为对象。
这是一个类似的帖子:Convert Factor to Date/Time in R
在那个帖子中,用户character在date. 在函数内部使用NA转换为character对象时,我正在获取值。as.characteras.Date
我在数据框中有一列,日期为因子格式,出现次数不同。这是 data.frame 中包含的信息。
> head(fraud, 5)
TRANSACTION.DATE TRANSACTION.AMOUNT AIR.TRAVEL.DATE POSTING.DATE
1 2/27/14 25.00 <NA> 2/28/14
2 2/28/14 25.00 <NA> 2/28/14
3 2/27/14 25.00 <NA> 2/28/14
4 2/27/14 20.00 2/27/14 2/28/14
5 2/27/14 12.13 <NA> 2/28/14
> str(fraud$TRANSACTION.DATE)
Factor w/ 519 levels "1/1/14","1/1/15",..: 228 230 228 228 228 230 226 228 230 …Run Code Online (Sandbox Code Playgroud) 在一列中有三个标记为"User-ID","ISBN"和"Book-Rating"的变量,但更喜欢三个.
行:1,149,903
我读了关于将一到两个转换为二的帖子,但在第一行代码中遇到了错误.
第一行:
User-ID <- df[seq(from = 1, to =nrow(df), by = 3), 1]
Run Code Online (Sandbox Code Playgroud)
错误信息:
Error in seq.default(from = 1, to = nrow(df), by = 3) :
'to' must be of length 1
Run Code Online (Sandbox Code Playgroud)
我使用以下命令将.csv文件保存为data.frame:
as.data.frame.matrix(BX.Book.Ratings)
Run Code Online (Sandbox Code Playgroud)
下面显示截图.如果我能提供更多信息,请告诉我.
谢谢

将数据插入空表,但得到错误1452.我不确定为什么MySQL在错误中提到NameInfo表.
CREATE TABLE NameInfo (
Language VARCHAR(7) NOT NULL,
Status VARCHAR(13) NOT NULL,
Standard VARCHAR(13) NOT NULL,
Name VARCHAR(13) NOT NULL,
Name_ID INT(4) NOT NULL,
Place_ID INT(9) NOT NULL,
Supplier_ID INT(4) NOT NULL,
Date_Supplied DATE NOT NULL,
PRIMARY KEY (Name_ID),
FOREIGN KEY (Supplier_ID) REFERENCES Supplier(Supplier_ID),
FOREIGN KEY (Place_ID) REFERENCES Place(Place_ID)
);
CREATE TABLE Departments (
Dept_ID INT(6) NOT NULL,
Dept_NAME VARCHAR(25) NOT NULL,
DeptHead_ID INT(6) NOT NULL,
DeptAA VARCHAR(20) NOT NULL,
ParentDept_ID INT(4) NOT NULL,
Location VARCHAR(10) NOT NULL,
DeptType …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用网格搜索来选择数据的主成分数量,然后再进行线性回归.我很困惑如何制作我想要的主要组件数量的字典.我把我的列表放在param_grid参数中的字典格式中,但我认为我做错了.到目前为止,我已经收到有关包含infs或NaN的数组的警告.
我遵循将线性回归流水线化为PCA的说明:http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html
ValueError:数组不能包含infs或NaN
我能够在可重现的示例中得到相同的错误,我的真实数据集更大:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
df2 = pd.DataFrame({ 'C' : pd.Series(1, index = list(range(8)),dtype = 'float32'),
'D' : np.array([3] * 8,dtype = 'int32'),
'E' : pd.Categorical(["test", "train", "test", "train",
"test", "train", "test", "train"])})
df3 = pd.get_dummies(df2)
lm = LinearRegression()
pipe = [('pca',PCA(whiten=True)),
('clf' ,lm)]
pipe = Pipeline(pipe)
param_grid = {
'pca__n_components': np.arange(2,4)}
X = …Run Code Online (Sandbox Code Playgroud) r ×6
missing-data ×2
amazon-ec2 ×1
csv ×1
date ×1
foreign-keys ×1
mysql ×1
pandas ×1
pca ×1
python ×1
r-daisy ×1
scikit-learn ×1
shiny ×1
time-series ×1