小编Kil*_*ail的帖子

应用正则表达式替换值的pandas

我已经将一些定价数据读入了pandas数据框,其值显示为:

$40,000*
$40000 conditions attached
Run Code Online (Sandbox Code Playgroud)

我想将其剥离为数值.我知道我可以循环并应用正则表达式

[0-9]+
Run Code Online (Sandbox Code Playgroud)

到每个字段然后将结果列表重新加入,但是有一种不循环的方式吗?

谢谢

python regex pandas

42
推荐指数
4
解决办法
6万
查看次数

将scipy稀疏csr变换为pandas?

我用过了

sklearn.preprocessing.OneHotEncoder
Run Code Online (Sandbox Code Playgroud)

转换一些数据输出是scipy.sparse.csr.csr_matrix 如何将其与其他列合并回原始数据框?

我试着用pd.concat但是得到了

TypeError: cannot concatenate a non-NDFrame object
Run Code Online (Sandbox Code Playgroud)

谢谢

python machine-learning scipy pandas scikit-learn

23
推荐指数
2
解决办法
3万
查看次数

R从str_split获取最后一个元素

我有一个R字符串列表,我想得到每个字符串的最后一个元素

require(stringr)

string_thing <- "I_AM_STRING"
Split <- str_split(string_thing, "_")
Split[[1]][length(Split[[1]])]
Run Code Online (Sandbox Code Playgroud)

但我怎么能用字符串列表呢?

require(stringr)

string_thing <- c("I_AM_STRING", "I_AM_ALSO_STRING_THING")
Split <- str_split(string_thing, "_")

#desired result
answer <- c("STRING", "THING")
Run Code Online (Sandbox Code Playgroud)

谢谢

regex r stringr

9
推荐指数
2
解决办法
7585
查看次数

点子没有SSL证书检查?

是否有旧版本的pip不检查SSL证书?

我的公司代理将pypi中的证书替换为导致pip中止安装的公司.

我可以手动下载软件包并在本地.tar.gz文件上使用pip,但这只是一种痛苦,特别是对于复杂的依赖项.

python ssl pip

5
推荐指数
1
解决办法
3350
查看次数

忽略R httr连接中的SSL错误

更新:

我正在尝试使用以下方法访问公司内部的Web API:

require(httr)
url = 'https://my_server/api/search/query?q=stuff'
httr::set_config( config(ssl_verifypeer = 0L) )
data <- httr::GET( url, use_proxy(url = "ipaddress:port"), verbose() )
Run Code Online (Sandbox Code Playgroud)

我得到:

-> CONNECT my_server:port HTTP/1.1
-> Host: my_server:port
-> User-Agent: libcurl/7.47.1 r-curl/0.9.7 httr/1.1.0
-> Proxy-Connection: Keep-Alive
-> 
<- HTTP/1.1 200 Connection established
<- 
Error in curl::curl_fetch_memory(url, handle = handle) : 
  SSL connect error    
Run Code Online (Sandbox Code Playgroud)

我用过,ssl_verifypeer因为服务器的CA证书有问题。是什么引起了问题SSL connect error

我该如何绕过并获取数据?--insecure如果您在linux命令行中运行,有没有办法取消存在的选项?注意我虽然在Windows上运行R。

https curl r httr

5
推荐指数
1
解决办法
4694
查看次数

如何使用sklearn FeatureHasher?

我有这样的数据帧:

import pandas as pd
test = pd.DataFrame({'type': ['a', 'b', 'a', 'c', 'b'], 'model': ['bab', 'ba', 'ba', 'ce', 'bw']})
Run Code Online (Sandbox Code Playgroud)

我该如何使用sklearn FeatureHasher 它呢?

我试过了:

from sklearn.feature_extraction import FeatureHasher 
FH = FeatureHasher()
train = FH.transform(test.type)
Run Code Online (Sandbox Code Playgroud)

但它不喜欢它?它似乎想要一个字符串或一个列表,所以我尝试

FH.transform(test.to_dict(orient='list'))
Run Code Online (Sandbox Code Playgroud)

但这也不起作用?我明白了:

AttributeError: 'str' object has no attribute 'items'
Run Code Online (Sandbox Code Playgroud)

谢谢

python pandas scikit-learn

5
推荐指数
1
解决办法
5345
查看次数

pip安装语法以允许不安全

我试着跑

$pip install --upgrade --allow-insecure setuptools
Run Code Online (Sandbox Code Playgroud)

但这似乎行不通吗?我的语法错误吗?

这是在ubuntu 13.10上,我需要--allow-secure,因为我还无法获得公司代理SSL证书,因此我总是得到证书验证失败的错误。

我收到此错误:

You must give at least one requirement to install (see "pip help install")
Run Code Online (Sandbox Code Playgroud)

python pip

4
推荐指数
2
解决办法
7284
查看次数

在python luigi中使用参数

我正在触发Luigi通过

luigi.run(["--local-scheduler"], main_task_cls=Test(Server = ActiveServer, Database = DB))   
Run Code Online (Sandbox Code Playgroud)

在我的班上,我有:

class Test(luigi.Task):

    Database = luigi.Parameter()
    Server = luigi.Parameter()
Run Code Online (Sandbox Code Playgroud)

但任务测试似乎无法解析我正在喂它的参数?

我正进入(状态:

MissingParameterException: No value for 'Server' (--Server) submitted and no default value has been assigned.
Run Code Online (Sandbox Code Playgroud)

python luigi

4
推荐指数
1
解决办法
2012
查看次数

Docker入口点启动脚本执行错误

我有一个运行的 docker 文件:

一个简单的启动脚本来创建 jinja2 文件,它在 ENTRYPOINT 中调用

ENTRYPOINT ["./docker-entrypoint.sh"]
CMD ["python test.py", "--config", "config.json"]
Run Code Online (Sandbox Code Playgroud)

脚本是:

#!/bin/bash
jinja2 config.json.j2 > config.json
exec "$@"
Run Code Online (Sandbox Code Playgroud)

但是当我使用此命令执行 docker run 时。

docker run test -env tagname="Foo" -env value=300
Run Code Online (Sandbox Code Playgroud)

我得到:

./docker-entrypoint.sh: line 3: exec: -e: invalid option
exec: usage: exec [-cl] [-a name] [command [arguments ...]] [redirection ...]
Run Code Online (Sandbox Code Playgroud)

有什么想法吗?

python bash docker

4
推荐指数
1
解决办法
6427
查看次数

删除R中列的最后一个下划线后的所有内容

我有一个数据框,对于特定的列,我想删除最后一个下划线后的所有内容.

所以:

test <- data.frame(label=c('test_test_test', 'test_tom_cat', 'tset_eat_food', 'tisk - tisk'), 
                   stuff=c('blah', 'blag', 'gah', 'nah') , 
                   numbers=c(1,2,3, 4))
Run Code Online (Sandbox Code Playgroud)

应该成为

result <- data.frame(label=c('test_test', 'test_tom', 'tset_eat', 'tisk - tisk'), 
                   stuff=c('blah', 'blag', 'gah', 'nah') , 
                   numbers=c(1,2,3, 4))
Run Code Online (Sandbox Code Playgroud)

我有:

require(dplyr)
test %>%
  mutate(label = gsub('_.*','',label))
Run Code Online (Sandbox Code Playgroud)

但这会从第一个下划线中删除所有内容并给予我

 wrong_result <- data.frame(label=c('test', 'test', 'tset', 'tisk - tisk'), 
                   stuff=c('blah', 'blag', 'gah', 'nah') , 
                   numbers=c(1,2,3, 4))
Run Code Online (Sandbox Code Playgroud)

regex r dplyr

3
推荐指数
2
解决办法
5202
查看次数

标签 统计

python ×7

pandas ×3

r ×3

regex ×3

pip ×2

scikit-learn ×2

bash ×1

curl ×1

docker ×1

dplyr ×1

https ×1

httr ×1

luigi ×1

machine-learning ×1

scipy ×1

ssl ×1

stringr ×1