我在做文字处理.我需要PyEnchant库来验证文本中的特定单词是否是有效的英语单词.但是,它仅适用于32位的Python安装.我需要64位Python来处理大文本文件的内存问题.
有没有办法可以为64位Python安装PyEnchant?如果没有,我可以用什么其他库来完成类似的任务?我查看了NLTK的wordnet但是读到它的功能不如PyEnchant.
无论如何将字符串作为列引用传递给dplyr过程?
下面是一个示例 - 使用分组数据集和一个简单函数,我尝试将字符串作为引用传递给列.谢谢!
machines <- data.frame(Date=c("1/31/2014", "1/31/2014", "2/28/2014", "2/28/2014", "3/31/2014", "3/31/2014"),
Model.Num=c("123", "456", "123", "456", "123", "456"),
Cost=c(200, 300, 250, 350, 300, 400))
my.fun <- function(data, colname){
mutate(data, position=cumsum(as.name(colname)))
}
machines <- machines %>% group_by(Date, Model.Num)
machines <- my.fun(machines, "Cost")
Run Code Online (Sandbox Code Playgroud) 我想从DB2中检索与DB1表中的标识符匹配的记录列表,如常规SAS子查询.如何使用SAS传递SQL执行此操作?
使用常规SAS SQL在db1上执行(长而复杂)SQL太慢了,这就是我使用传递SQL的原因.
我试过以下但没有运气:
proc sql;
connect to db1 as A (user=&userid. password=&userpw. database=MY_DB);
connect to db2 as B (user=&userid. password=&userpw. database=MY_DB);
create table test as
select * from connection to B (
select * from schema.table
Where ID_NUM =
(select * from connection to A
(select ID_NUM from schema2.table2)
);
);
disconnect from A;
disconnect from B;
quit;
Run Code Online (Sandbox Code Playgroud) 我按班级R学生每周津贴数据集,如下所示:
Year ID Class Allowance
2013 123 Freshman 100
2013 234 Freshman 110
2013 345 Sophomore 150
2013 456 Sophomore 200
2013 567 Junior 250
2014 678 Junior 100
2014 789 Junior 230
2014 890 Freshman 110
2014 891 Freshman 250
2014 892 Sophomore 220
Run Code Online (Sandbox Code Playgroud)
如何按组(年/班)汇总结果以获得总和和%(按组)?获得总和似乎很容易,ddply因为无法获得%by group part.
它适用于sum:
summary <- ddply(my_data, .(Year, Class), summarize, Sum_Allow=sum(Allowance))
Run Code Online (Sandbox Code Playgroud)
但它不适用于按部分分组的百分比:
summary <- ddply(my_data, .(Year, Class), summarize, Sum_Allow=sum(Allowance),
Allow_Pct=Allowance/sum(Allowance))
Run Code Online (Sandbox Code Playgroud)
理想的结果应如下所示:
Year Class Sum_Allow Allow_Pct
2013 Freshman 210 26%
2013 Junior …Run Code Online (Sandbox Code Playgroud) 我在ggplot 2中创建了一些堆积条形图,并想知道如果它们小于定义的总数百分比(例如10%),我可以有条件地隐藏某些数据标签.
从下面的代码生成的图中可以看出,一些标签相对于条的厚度变得太大.所以我想隐藏那些低于定义的阈值.我怎样才能修改下面的ggplot代码来实现呢?谢谢!
library(ggplot2)
library(dplyr)
#Creating the dataset
my.data <- data.frame(dates = c("1/1/2014", "1/1/2014", "1/1/2014", "1/1/2014", "1/1/2014", "2/1/2014", "2/1/2014", "2/1/2014", "2/1/2014", "2/1/2014"),
fruits=c("apple", "orange", "pear", "berries", "watermelon", "apple", "orange", "pear", "berries", "watermelon"),
count=c(20, 30, 40, 2, 2, 30, 40, 50, 1, 1))
#Creating a positon for the data labels
my.data <-
my.data %>%
group_by(dates) %>%
mutate(pos=cumsum(count)-0.5*count)
#Plotting the data
ggplot(data=my.data, aes(x=dates, y=count, fill=fruits))+
geom_bar(stat="identity")+
geom_text(aes(y=pos, label=count), size=4)
Run Code Online (Sandbox Code Playgroud) 有人质疑Python中的内存错误,但我想问一下我的具体情况.我是编程和Python的新手.
在解析大文本文件(~8GB)时,该行
mylist = [line.strip('\n').split('|') for line in f]
Run Code Online (Sandbox Code Playgroud)
导致"MemoryError".
我在Windows XP 64位上运行64位Python [MSC v.1500 64位(AMD64)],内存为12GB.除了安装更多内存以外,如何处理此内存错误?