小编reg*_*ter的帖子

是否可以使用sklearn在大数据文件上应用在线算法?

我想在大文本语料库中应用快速在线降维技术,如(在线/小批量)字典学习.我的输入数据自然不适合内存(这就是我想使用在线算法的原因)所以我正在寻找一种可以迭代文件而不是将所有内容加载到内存中的实现.是否可以使用sklearn执行此操作?有替代品吗?

谢谢注册

large-data online-algorithm scikit-learn

23
推荐指数
2
解决办法
4468
查看次数

如何在Python中替换字符串中的标点符号?

我想用Python中的字符串中的"" 替换(而不是删除)所有标点字符.

是否有以下口味的效果?

text = text.translate(string.maketrans("",""), string.punctuation)
Run Code Online (Sandbox Code Playgroud)

python string replace

17
推荐指数
2
解决办法
3万
查看次数

由于teamcity,pycharm调试控制台不可读

由于几天我的pycharm调试控制台被teamcity信息系统地污染,例如当我想打印出变量值时,将显示以下内容:

>>> df
##teamcity[testStdOut timestamp='2017-11-02T15:55:00.670' flowId='test_pricing_36_weight_provider.TestPricing36WeightProvider.test_add_weights' locati...
Run Code Online (Sandbox Code Playgroud)

有什么提示如何停用这个团队城市的事情?

console teamcity pycharm

8
推荐指数
2
解决办法
384
查看次数

具有多个输出列的熊猫聚合函数

我正在尝试定义一个具有多个 OUTPUT 列的聚合函数,我想使用如下

df.groupby(by=...).agg(my_aggregation_function_with_multiple_columns)
Run Code Online (Sandbox Code Playgroud)

知道怎么做吗?

我试过这样的事情

def my_aggregation_function_with_multiple_columns(slice_values):
    return {'col_1': -1,'col_2': 1}
Run Code Online (Sandbox Code Playgroud)

但这将在逻辑上在单个列中输出字典 {'col_1': -1,'col_2': 1} ...

python aggregate-functions pandas

6
推荐指数
1
解决办法
2065
查看次数