小编Moh*_*OUI的帖子

如何逃避odata过滤器uri中的单引号？

我用这种方式在JS中准备查询时试图逃避单引号:

_value.replace(/'/g,'%27')

Run Code Online (Sandbox Code Playgroud)

这样:

_value.replace(/\'/g,'\\\'');

Run Code Online (Sandbox Code Playgroud)

两者似乎都不起作用

你可以在这里看到一个例子:http: //services.odata.org/V3/Northwind/Northwind.svc/Orders？$ select = Freight,CustomerID&$ filter = ShipName + eq +'B'%20Beverages'&$ format = json

有谁知道如何逃避单引号？

谢谢

javascript escaping odata quote

Moh*_*OUI

lucky-day

7
推荐指数

1
解决办法

4912
查看次数

Sklearn错误:predict(x,y)取2个位置参数,但给出3个

我正在开发一个关于sklearn的多元回归分析,我仔细查看了文档.当我运行该predict()函数时,我得到错误: predict()取2个位置参数,但给出3个

X是数据帧,y是列; 我试图将数据帧转换为数组/矩阵但仍然得到错误.

添加了一个显示x和y数组的片段.

reg.coef_
reg.predict(x,y)

x_train=train.drop('y-variable',axis =1)
y_train=train['y-variable']

x_test=test.drop('y-variable',axis =1)
y_test=test['y-variable']


x=x_test.as_matrix()
y=y_test.as_matrix()

reg = linear_model.LinearRegression()
reg.fit(x_train,y_train)

reg.predict(x,y)

Run Code Online (Sandbox Code Playgroud)

scikit-learn sklearn-pandas

GD_*_*D_N

2017 10-09

7
推荐指数

1
解决办法

6200
查看次数

将数据帧写入 csv 文件时解决错误“分隔符必须是 1 个字符的字符串”

使用这个问题：Pandas 将数据帧写入 CSV 文件作为模型，我编写了以下代码来制作 csv 文件：

df.to_csv('/Users/Lab/Desktop/filteredwithheading.txt', sep='\s+', header=True)

Run Code Online (Sandbox Code Playgroud)

但它返回以下错误：

TypeError: "delimiter" must be an 1-character string

Run Code Online (Sandbox Code Playgroud)

我在这里查找了相关文档http://pandas.pydata.org/pandas-docs/stable/ generated/pandas.DataFrame.to_csv.html 但我无法弄清楚我缺少什么，或者错误是什么方法。我也尝试在代码中使用 (sep='\s') ，但得到了相同的错误。

delimiter pandas

Jul*_*lia

2019 04-10

6
推荐指数

2
解决办法

3万
查看次数

Pyspark rdd.toLocalIterator不会遍历所有数据分区

我有一些zip文件,有数百个zip文件:

 Parent_1.zip: [child1.zip, ..., childM.zip]
 Parent_..zip: [child1.zip, ..., childN.zip]
 Parent_P.zip: [child1.zip, ..., childL.zip]

Run Code Online (Sandbox Code Playgroud)

我通过将二进制文件加载到rdd中解压缩它们,然后使用flatmap应用一个函数来提取csv文件作为字符串foreach child.zip块.

zips = sc.binaryFiles(data_files)
files_data = zips.flatMap(zip_extract_stores)

Run Code Online (Sandbox Code Playgroud)

一旦提取了所有的zip块,我总共获得了748个块.

print(files_data.count()) #  => 748 chunks

Run Code Online (Sandbox Code Playgroud)

现在,我正在尝试将files_datardd中的csv字符串转换为单个数据帧.但我面临的问题很少.

这是我尝试过的.

尝试1:

应用collect()在内存中提取名单如下:files_data = zips.flatMap(zip_extract_stores).collect()
然后将块转换为数据帧列表 dataframes = [get_dataframe(data) for data in files_data]
然后将数据帧合并为一个数据帧: merge_list_of_dataframes(dataframes)

这在local模式下运行时工作正常,但cluster由于内存问题导致模式失败.

尝试2:

给那个, files_data = zips.flatMap(zip_extract_stores)

我尝试files_data使用rdd迭代toLocalIterator()

for idx, data in enumerate(files_data.toLocalIterator()):
    if idx % 100 == 0:
        print("Loaded {} dataframes".format(idx))
    dataframes.append(get_dataframe(data))

Run Code Online (Sandbox Code Playgroud)

然后将数据框合并为一个 merge_list_of_dataframes(dataframes)

这在 …

python apache-spark rdd pyspark

Moh*_*OUI

2018 11-16

6
推荐指数

0
解决办法

689
查看次数

将数据文件随机分组并分成训练和测试集

我正在尝试将数据文件混乱并使用pandas和numpy将数据文件拆分为训练集和测试集,因此我执行了以下操作:

import pandas as pd
import numpy as np 

data_path = "/path_to_data_file/"

train = pd.read_csv(data_path+"product.txt", header=0, delimiter="|")
ts =  train.shape 
#print "data dimension", ts
#print "product attributes \n", train.columns.values 


#shuffle data set, and split to train and test set. 
df = pd.DataFrame(train)
new_train = df.reindex(np.random.permutation(df.index))

indice_90_percent = int((ts[0]/100.0)* 90)

print "90% indice", indice_90_percent

#write train products to csv 
#new_train.to_csv(sep="|")

with open('train_products.txt', 'w') as f:
    for i in new_train[:indice_90_percent]:
        f.write(i+'\n')


with open('test_products.txt', 'w') as f:
    for i in new_train[indice_90_percent:]:
        f.write(i+'\n')

Run Code Online (Sandbox Code Playgroud)

但是,我没有获得包含数据行的训练和测试文件,而是获得了两个包含列名称的文件.我错过了什么？

python numpy pandas

Moh*_*OUI

2015 06-29

5
推荐指数

1
解决办法

2630
查看次数

获取列的[0,x]元素的最小值

我需要计算一个列,其中值是对其他列的向量化操作的结果:

df["new_col"] = df["col1"] - min(0,df["col2"])

Run Code Online (Sandbox Code Playgroud)

然而,事实证明,我不能像上面的语法那样使用min.那么,什么是在零和pandas列的给定值之间获得最小值的正确方法是什么？

python pandas

Moh*_*OUI

2015 08-14

5
推荐指数

1
解决办法

1531
查看次数

如何为新的ML算法添加sklearn包装器

我想在sklearn中集成分解机器.我检查了sklearn文档和Web以了解如何包装新算法,但这个要求似乎没有很好地记录.

所以,我想询问是否有关于如何向sklearn添加新算法包装器的文档(除了阅读源代码)？

python scikit-learn

Moh*_*OUI

lucky-day

5
推荐指数

1
解决办法

1868
查看次数

按python中列的值拆分大csv文件

我有一个csv大文件,我无法在内存中使用python处理.在使用以下逻辑对特定列的值进行分组后,我将其拆分为多个块:

def splitDataFile(self, data_file):

    self.list_of_chunk_names = []
    csv_reader = csv.reader(open(data_file, "rb"), delimiter="|")
    columns = csv_reader.next()

    for key,rows in groupby(csv_reader, lambda row: (row[1])):
        file_name = "data_chunk"+str(key)+".csv"
        self.list_of_chunk_names.append(file_name)

        with open(file_name, "w") as output:
            output.write("|".join(columns)+"\n")
            for row in rows:
                output.write("|".join(row)+"\n")

    print "message: list of chunks ", self.list_of_chunk_names

    return

Run Code Online (Sandbox Code Playgroud)

逻辑正在运行,但速度很慢.我想知道如何优化这个？比如熊猫？

编辑

进一步的解释:我不是在寻找一个简单的分割到相同大小的块(比如每个有1000行),我想用列的值进行拆分,这就是我使用groupby的原因.

python pandas

Moh*_*OUI

2015 11-09

5
推荐指数

1
解决办法

5632
查看次数

如何查找用于selnium网格上的节点的chrome驱动程序版本

有没有办法远程检查特定节点上使用的chrome驱动程序版本？

我知道chromedriver.exe -v直接在节点上运行会报告驱动程序版本.但有没有办法通过selenium grid api查询？

我在这里查看了有用的信息,但我看不到这样做的方法:https://github.com/nicegraham/selenium-grid2-api

或者理想情况下,我希望在每个节点的selenium网格控制台的配置选项卡上看到这一点.

也许有一种方法可以将此作为一个额外的属性显示我添加到配置中,从capture the output of chromedriver.exe -v连接节点到网格之前捕获运行的输出？

selenium selenium-grid selenium-chromedriver

Chr*_*s R

2019 03-16

5
推荐指数

1
解决办法

2万
查看次数

不和谐 <@!userid> 与 <@userid>

所以我正在使用 Node.JS/Discord.JS 创建一个机器人，我有一个问题。

在某些服务器上，当您提到用户时，它会在控制台中<@!userid>返回为，而在其他服务器上则返回为<@userid>。我的机器人有一个简单的积分/等级系统，它保存在一个 JSON 文件中<@!userid>，所以在一些服务器上，当试图通过提及用户积分来查看用户积分时，它们会起作用，而在其他服务器上则不会。

有谁知道如何解决这个问题？我已经多次尝试找到答案，但我不想保存两次，一次<@!userid>然后<@userid>。如果这是解决它的唯一方法，那么我理解。

谢谢你的帮助！

userid points node.js discord

a p*_*son

2017 07-24

5
推荐指数

1
解决办法

1万
查看次数