小编use*_*897的帖子

Python:PyEnchant和64位Python

我在做文字处理.我需要PyEnchant库来验证文本中的特定单词是否是有效的英语单词.但是,它仅适用于32位的Python安装.我需要64位Python来处理大文本文件的内存问题.

有没有办法可以为64位Python安装PyEnchant?如果没有,我可以用什么其他库来完成类似的任务?我查看了NLTK的wordnet但是读到它的功能不如PyEnchant.

python text-processing pyenchant

9
推荐指数
1
解决办法
2694
查看次数

dplyr字符串作为列引用

无论如何将字符串作为列引用传递给dplyr过程?

下面是一个示例 - 使用分组数据集和一个简单函数,我尝试将字符串作为引用传递给列.谢谢!

machines <- data.frame(Date=c("1/31/2014", "1/31/2014", "2/28/2014", "2/28/2014", "3/31/2014", "3/31/2014"), 
            Model.Num=c("123", "456", "123", "456", "123", "456"), 
            Cost=c(200, 300, 250, 350, 300, 400))

my.fun <- function(data, colname){
    mutate(data, position=cumsum(as.name(colname)))
}

machines <- machines %>% group_by(Date, Model.Num)     
machines <- my.fun(machines, "Cost")
Run Code Online (Sandbox Code Playgroud)

r dplyr

7
推荐指数
1
解决办法
4199
查看次数

SAS传递SQL - 多个DB

我想从DB2中检索与DB1表中的标识符匹配的记录列表,如常规SAS子查询.如何使用SAS传递SQL执行此操作?

使用常规SAS SQL在db1上执行(长而复杂)SQL太慢了,这就是我使用传递SQL的原因.

我试过以下但没有运气:

proc sql;
    connect to db1 as A (user=&userid. password=&userpw.  database=MY_DB);
    connect to db2 as B (user=&userid. password=&userpw.  database=MY_DB);

    create table test as
    select * from connection to B (
        select * from schema.table
            Where ID_NUM =
                (select * from connection to A
                      (select ID_NUM from schema2.table2)
                );
        );
   disconnect from A;
   disconnect from B;
quit;
Run Code Online (Sandbox Code Playgroud)

sql sas pass-through

6
推荐指数
1
解决办法
3305
查看次数

按组计算的聚合和百分比

我按班级R学生每周津贴数据集,如下所示:

Year    ID  Class       Allowance
2013    123 Freshman    100
2013    234 Freshman    110
2013    345 Sophomore   150
2013    456 Sophomore   200
2013    567 Junior      250
2014    678 Junior      100
2014    789 Junior      230
2014    890 Freshman    110
2014    891 Freshman    250
2014    892 Sophomore   220
Run Code Online (Sandbox Code Playgroud)

如何按组(年/班)汇总结果以获得总和和%(按组)?获得总和似乎很容易,ddply因为无法获得%by group part.

它适用于sum:

summary <- ddply(my_data, .(Year, Class), summarize, Sum_Allow=sum(Allowance))
Run Code Online (Sandbox Code Playgroud)

但它不适用于按部分分组的百分比:

summary <- ddply(my_data, .(Year, Class), summarize, Sum_Allow=sum(Allowance),
                 Allow_Pct=Allowance/sum(Allowance))
Run Code Online (Sandbox Code Playgroud)

理想的结果应如下所示:

 Year     Class Sum_Allow Allow_Pct
 2013  Freshman       210       26%
 2013    Junior …
Run Code Online (Sandbox Code Playgroud)

r aggregation plyr

5
推荐指数
2
解决办法
5672
查看次数

有条理地隐藏ggplot2图中的数据标签

我在ggplot 2中创建了一些堆积条形图,并想知道如果它们小于定义的总数百分比(例如10%),我可以有条件地隐藏某些数据标签.

从下面的代码生成的图中可以看出,一些标签相对于条的厚度变得太大.所以我想隐藏那些低于定义的阈值.我怎样才能修改下面的ggplot代码来实现呢?谢谢!

library(ggplot2)
library(dplyr)

#Creating the dataset
my.data <- data.frame(dates = c("1/1/2014", "1/1/2014", "1/1/2014", "1/1/2014", "1/1/2014", "2/1/2014", "2/1/2014", "2/1/2014", "2/1/2014", "2/1/2014"),
                      fruits=c("apple", "orange", "pear", "berries", "watermelon", "apple", "orange", "pear", "berries", "watermelon"), 
                      count=c(20, 30, 40, 2, 2, 30, 40, 50, 1, 1))

#Creating a positon for the data labels
my.data <- 
      my.data %>%
      group_by(dates) %>%
      mutate(pos=cumsum(count)-0.5*count)

#Plotting the data
ggplot(data=my.data, aes(x=dates, y=count, fill=fruits))+      
      geom_bar(stat="identity")+
      geom_text(aes(y=pos, label=count), size=4)
Run Code Online (Sandbox Code Playgroud)

r ggplot2

3
推荐指数
1
解决办法
3739
查看次数

解析大文件时的内存错误 - Python

有人质疑Python中的内存错误,但我想问一下我的具体情况.我是编程和Python的新手.

在解析大文本文件(~8GB)时,该行

mylist = [line.strip('\n').split('|') for line in f]
Run Code Online (Sandbox Code Playgroud)

导致"MemoryError".

我在Windows XP 64位上运行64位Python [MSC v.1500 64位(AMD64)],内存为12GB.除了安装更多内存以外,如何处理此内存错误?

python memory list

0
推荐指数
1
解决办法
3542
查看次数

标签 统计

r ×3

python ×2

aggregation ×1

dplyr ×1

ggplot2 ×1

list ×1

memory ×1

pass-through ×1

plyr ×1

pyenchant ×1

sas ×1

sql ×1

text-processing ×1