小编use*_*622的帖子

如何处理多个包含斜杠的参数?

我有一个 Flask 应用程序,需要向其传递几个包含斜杠的参数。例如,我有 parameter1 = "Clothes/Bottoms"parameter2 = "Pants/Jeans"。我尝试这样做:

在我的 HTML/JS 中:

par1 = encodeURIComponent(parameter1);
par2 = encodeURIComponent(parameter2);
console.log("Par1 = ",par1," par2 = ",par2);
$.ajax({
     type:'post',
     url:'/get_data'+'/'+par1+'/'+par2,
     ....
});
Run Code Online (Sandbox Code Playgroud)

在我的app.py

 @app.route('/get_data/<path:par1>/<path:par2>/',methods=['GET','POST'])
 def get_data(par1, par2):
     print("In get_data with par1 ",par1," and par2 ",par2)
     ....
Run Code Online (Sandbox Code Playgroud)

我可以从 Javascript 打印输出中看到,这两个参数在编码后看起来都很好,但 Python 打印输出是:

 In get_data with par1 Clothes and par2 Bottoms/Pants/Jeans
Run Code Online (Sandbox Code Playgroud)

par1因此,它以某种方式将s中的斜杠误"Clothes/Bottoms"认为是 URL 的一部分,并转换"Bottoms"par2.

有没有比仅添加更好的方法来处理带有斜杠的多个参数path:

python flask

11
推荐指数
1
解决办法
9959
查看次数

lambda = 0 时 pyLDAvis 条形宽度的含义

不确定这是否是正确的论坛,但我想知道是否有人理解当 lambda = 0 时如何解释 pyLDAvis 图右侧红条与蓝条的宽度(请参阅http://www.kennyshirley)。 com/LDAvis/#topic=0&lambda=0.01&term=用于演示,用于示例)。据我所知,当 lambda = 1 时,红色条代表给定主题中术语的计数,灰色条代表语料库中总体相同术语的计数。我不明白当 lambda = 0 时显示的内容以及为什么条形图似乎不再以任何方式排序。你能帮忙吗?

python lda topic-modeling

7
推荐指数
2
解决办法
3885
查看次数

如何修复pyspark中的“方案没有文件系统:gs”?

我正在尝试将 json 文件从 google 存储桶读取到本地 Spark 机器上的 pyspark 数据帧中。这是代码:

import pandas as pd
import numpy as np

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession, SQLContext

conf = SparkConf().setAll([('spark.executor.memory', '16g'),
                        ('spark.executor.cores','4'),
                         ('spark.cores.max','4')]).setMaster('local[*]')


spark = (SparkSession.
              builder.
              config(conf=conf).
              getOrCreate())


sc = spark.sparkContext

import glob
import bz2
import json
import pickle


bucket_path = "gs://<SOME_PATH>/"
client = storage.Client(project='<SOME_PROJECT>')
bucket = client.get_bucket ('<SOME_PATH>')
blobs = bucket.list_blobs()

theframes = []

for blob in blobs:
    print(blob.name)        
    testspark = spark.read.json(bucket_path + blob.name).cache()
    theframes.append(testspark) 
Run Code Online (Sandbox Code Playgroud)

它正在从存储桶中读取文件(我可以看到 blob.name 的打印结果),但随后崩溃如下: …

google-cloud-storage apache-spark google-cloud-platform pyspark

4
推荐指数
1
解决办法
4282
查看次数

如何使用 cross_val_predict 来预测新数据集的概率?

我正在使用 sklearn 的 cross_val_predict 进行训练,如下所示:

  myprobs_train = cross_val_predict(LogisticRegression(),X = x_old, y=y_old, method='predict_proba', cv=10)
Run Code Online (Sandbox Code Playgroud)

我对返回的概率感到满意,现在想对一个全新的数据集进行评分。我试过:

  myprobs_test = cross_val_predict(LogisticRegression(), X =x_new, y= None, method='predict_proba',cv=10)
Run Code Online (Sandbox Code Playgroud)

但这不起作用,它抱怨 y 形状为零。这是否意味着无法将来自 cross_val_predict 的经过训练和交叉验证的模型应用于新数据?还是我只是用错了?

谢谢!

scikit-learn

2
推荐指数
1
解决办法
1463
查看次数

pyspark:用于定义NaN或Null的用户定义函数不起作用

我试图在pyspark中编写一个用户定义的函数,用于确定数据框中的给定条目是否为坏(Null或NaN).我似乎无法弄清楚我在这个函数中做错了什么:

from pyspark.sql.functions import UserDefinedFunction
from pyspark.sql.types import *

def is_bad(value):
   if (value != value | (value.isNull())):
       return True
   else:
       return False

isBadEntry = UserDefinedFunction(lambda x: is_bad(x),BooleanType())

df_test = sql.createDataFrame([(1,1,None ), (1,2, 5), (1,3, None), (1,4, None), (1,5, 10), (1,6,None )], ('session',"timestamp", "id"))
df_test =df_test.withColumn("testing", isBadEntry(df_test.id)).show()
Run Code Online (Sandbox Code Playgroud)

这是一个神秘的错误:

Py4JJavaErrorTraceback (most recent call last)
<ipython-input-379-b4109047ba40> in <module>()
  1 df_test = sql.createDataFrame([(1,1,None ), (1,2, 5), (1,3, None), (1,4, None), (1,5, 10), (1,6,None )], ('session',"timestamp", "id"))
  2 #df_test.show()
----> 3 df_test =df_test.withColumn("testing", isBadEntry(df_test.id)).show()

/usr/local/spark/python/pyspark/sql/dataframe.py …
Run Code Online (Sandbox Code Playgroud)

null nan pyspark

1
推荐指数
1
解决办法
3743
查看次数