因此,我使用API提取了一些json数据,它最初看起来像这样:
{
"result": {
"elements": [
{
"id": "SV_3s0FmbrNancSmsB",
"name": "Test Survey",
"ownerId": "sdfsdfasdf",
"lastModified": "2016-08-09T21:33:27Z",
"isActive": false
},
{
"id": "SV_dgJOVyJvwZR0593",
"name": "Test Survey",
"ownerId": "sdfdsfsdfs",
"lastModified": "2016-08-04T17:53:37Z",
"isActive": true
}
],
"nextPage": null
},
"meta": {
"httpStatus": "200 - OK"
}
}
Run Code Online (Sandbox Code Playgroud)
因此,我想使用Python在此JSON中提取所有ID,这是我的代码:
url = "random.com"
headers = {
'x-api-token': "dsfsdagdfa"
}
response = requests.get(url, headers=headers)
data = json.loads(response.text)
id_0 = data['result']['elements'][0]['id']
print(id_0)
Run Code Online (Sandbox Code Playgroud)
这基本上将只打印创建的数组中的第一个ID。我将如何获取所有ID?
所以基本上对于类我们使用if else,其中用户输入一个字符串,如果该字符串是正确的,我们为特定变量赋值.我的代码似乎很好,但出于某种原因,当我运行它并使用完全字符串测试程序运行if并转到else,并打印else,即使我们的if是真的.这是我的代码:(我在开始时初始化了所有变量,但这里没有包含它们.
value = Console.ReadLine();
if (value == "ATX")
{
number1 = 3;
}
if (value == "XTS")
{
number1 = 34;
}
if (value == "CTS")
{
number1 = 2;
}
else
{
number1 = 0;
}
Console.WriteLine(number1);
Run Code Online (Sandbox Code Playgroud)
所以基本上如果我输入ATX或XTS我得到number1 = 0,但是如果我做了CTS那么number1 = 2.这里出了什么问题?
所以我有json数据看起来像这样:
"responses":[
{
"ResponseID" : "R_1mhpDCQzIOlVfPT",
"ResponseSet" : "Default Response Set",
"IPAddress" : "",
"StartDate" : "2016-08-04 11:52:36",
"EndDate" : "2016-08-04 11:52:53",
"RecipientLastName" : "",
"RecipientFirstName" : "",
"RecipientEmail" : "",
"ExternalDataReference" : "",
"Finished" : "1",
"Status" : "1",
"Q5" : "",
"Q6" : "",
"Q7" : "",
"Q8" : "",
"Q9" : "",
"Q10" : "",
"Q11" : "",
"Q12" : "",
"LocationLatitude" : "33.414794921875",
"LocationLongitude" : "-111.90930175781",
"LocationAccuracy" : "-1"
},
Run Code Online (Sandbox Code Playgroud)
我基本上想要把所有的Q都放在json中的Questions数组中.输出应该如下所示:
"responses":[
{
"ResponseID" : "R_1mhpDCQzIOlVfPT", …Run Code Online (Sandbox Code Playgroud) 假设我有一个包含 1,000,000 个 ID 的数据集。我将如何按范围对 100 个分区进行分区。我在 Scala 中看到了 RangePartitioner 类,但它似乎在 PySpark API 中不可用。
我有一个非常大的数据集,目前正在按唯一 ID 进行分区,但这会创建太多分区。我想知道 PySpark 中范围分区的最佳实践
df.write.partitionBy('unique_id').mode('overwrite').csv(file://test/)
Run Code Online (Sandbox Code Playgroud)
这会将每个 id 放在自己的分区中。
我似乎在 PySpark 中找不到任何关于范围分区的文档。