我正在尝试通过以下方式从Amazon S3存储桶加载一些数据:
SparkConf sparkConf = new SparkConf().setAppName("Importer");
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
HiveContext sqlContext = new HiveContext(ctx.sc());
DataFrame magento = sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json");
Run Code Online (Sandbox Code Playgroud)
然而,最后一行会引发错误:
Exception in thread "main" java.io.IOException: No FileSystem for scheme: https
Run Code Online (Sandbox Code Playgroud)
同一条线已经在另一个项目中工作,我错过了什么?我在Hortonworks CentOS VM上运行Spark.
我面临以下问题.我正在尝试并行化一个更新文件的函数,但我无法启动Pool()因为一个OSError: [Errno 12] Cannot allocate memory.我开始在服务器上四处看看,这并不像我使用旧的,弱的/实际内存.见htop:
此外,free -m显示除了大约7GB的交换内存外,我还有足够的RAM:
而我正在尝试使用的文件也不是那么大.我将粘贴我的代码(和堆栈跟踪),其中,大小如下:
使用的predictionmatrix数据框占用大约.根据pandasdataframe.memory_usage()
文件geo.geojson为80MB 是2MB
我该如何调试呢?我可以检查什么以及如何检查?感谢您的任何提示/技巧!
码:
def parallelUpdateJSON(paramMatch, predictionmatrix, data):
for feature in data['features']:
currentfeature = predictionmatrix[(predictionmatrix['SId']==feature['properties']['cellId']) & paramMatch]
if (len(currentfeature) > 0):
feature['properties'].update({"style": {"opacity": currentfeature.AllActivity.item()}})
else:
feature['properties'].update({"style": {"opacity": 0}})
def writeGeoJSON(weekdaytopredict, hourtopredict, predictionmatrix):
with open('geo.geojson') as f:
data = json.load(f)
paramMatch = (predictionmatrix['Hour']==hourtopredict) & (predictionmatrix['Weekday']==weekdaytopredict)
pool = Pool()
func = partial(parallelUpdateJSON, paramMatch, predictionmatrix)
pool.map(func, data)
pool.close()
pool.join()
with …Run Code Online (Sandbox Code Playgroud) 我在输入字段下生成一堆按钮,当输入正确的数字时,这些按钮会倒计时到 0。我想在“ns left”显示旁边(水平旁边)添加一个进度微调器。我目前有:
<mat-card class="card mat-elevation-z5">
<mat-form-field>
<mat-label>Username</mat-label>
<input id="nameInput" matInput>
<p matSuffix>{{timeLeft}}s left</p>
<mat-spinner [diameter]="40"></mat-spinner>
</mat-form-field>
<mat-button-toggle
*ngFor="let button of buttonsFromApi"
id="{{button.id}}">
{{button.displayName}}
</mat-button-toggle>
</mat-card>
Run Code Online (Sandbox Code Playgroud)
我的问题是,无论我如何尝试,微调器最终都会在文本下方,而不是在它旁边。我尝试了 flexboxes、附加 div、不同布局的组合,但它从未奏效......我如何确保输入字段居中并与所有按钮(在一列中)一致,同时旁边有一个微调器到倒计时?例如我有:
而且我要:
CSS:
.card {
min-width: 50%;
display: flex;
flex-flow: column wrap;
}
mat-form-field {
font-size: 2em;
min-width: 50%;
}
Run Code Online (Sandbox Code Playgroud) 我正在尝试让一个具有 React/NodeJS 前端和 Flask 后端的应用程序在本地运行以用于开发目的。过去一个小时我一直在 StackOverflow 上搜索,但我似乎无法解决 CORS 问题。我有:
import json
from flask import Flask, request
from flask_cors import CORS, cross_origin
app = Flask(__name__)
# Enable cors requests
CORS(app)
# Initiate model
@app.route("/query", methods=["POST"])
@cross_origin(origin="*", headers=["Content-Type"])
def query():
"""Endpoint for receiving bot response"""
print(request)
query = request.json
bot_answer = blablagetanswer() ... #filling the json
return json.dumps({"botResponse": bot_answer})
if __name__ == "__main__":
app.run(
host="0.0.0.0", port=80, debug=True,
)
Run Code Online (Sandbox Code Playgroud)
我已经阅读了多个答案,并尝试了 Flask 中 CORS 处理的许多变体(尝试使用和不使用@cross_origin()装饰器,添加@cross_origin(origin="*")甚至@cross_origin(origin="*", headers=["Content-Type"])在 下@app.route() …
这是一个总的noob问题,对不起.在Spark中,我可以使用select作为:
df.select("*"); //to select everything
df.select(df.col("colname")[, df.col("colname")]); //to select one or more columns
df.select(df.col("colname"), df.col("colname").plus(1)) //to select a column and a calculated column
Run Code Online (Sandbox Code Playgroud)
但.如何选择所有列加上计算的列?显然
select("*", df.col("colname").plus(1))不起作用(编译错误).如何在JAVA下完成?谢谢!
我正在尝试从pandas数据帧中提取一个单元格到一个简单的浮点数.我尝试着
prediction = pd.to_numeric(baseline.ix[(baseline['Weekday']==5) & (baseline['Hour'] == 8)]['SmsOut'])
Run Code Online (Sandbox Code Playgroud)
但是,这会回来
128 -0.001405
Name: SmsOut, dtype: float64
Run Code Online (Sandbox Code Playgroud)
我希望它只返回一个simle Python float:-0.001405
我该怎么做?
我有以下pandas结构:
col1 col2 col3 text
1 1 0 meaningful text
5 9 7 trees
7 8 2 text
Run Code Online (Sandbox Code Playgroud)
我想用tfidf矢量化矢量化它.然而,这会返回一个解析矩阵,我实际上可以将其转换为密集矩阵mysparsematrix).toarray().但是,如何将此信息与标签一起添加到原始df中?所以目标看起来像:
col1 col2 col3 meaningful text trees
1 1 0 1 1 0
5 9 7 0 0 1
7 8 2 0 1 0
Run Code Online (Sandbox Code Playgroud)
更新:
即使重命名原始列,解决方案也会使连接错误:
删除至少有一个NaN的列只会产生7行,即使我fillna(0)在开始使用它之前使用它.
我想用格式将 Pandas 数据框写入 Excel。为此,我正在使用xlsxwriter. 我的问题是双重的:
首先,如何将条件格式应用于整列?在示例中,他们使用特定的单元格范围格式(例如worksheet1.conditional_format('B3:K12', ...)),有没有办法可以引用整列?
其次,如果 B 列与 C 列的差异超过 15%,我想用红色标记 B 列。什么是正确的公式?
我目前正在尝试下面的代码,但它不起作用(我不知道如何引用列)。
writer = pd.ExcelWriter('pacing.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Last year vs. current state')
#worksheet.set_column('B:B', 18, format1)
workbook = writer.book
worksheet = writer.sheets['Last year vs. current state']
format_missed = workbook.add_format({'bg_color': '#ff0000'})
format_ok = workbook.add_format({'bg_color': '#008000'})
worksheet.conditional_format('C:C', {'type': 'formula',
'criteria': '=ABS((B-C)/C) > 15',
'format': format_missed})
writer.save()
Run Code Online (Sandbox Code Playgroud)
另外,我在 Mac 上运行 Excel,不确定它是否有任何区别,但我注意到 Windows 版本使用的地方,,Mac 版本需要;公式。不知道这有什么影响xlsxwriter。
我在模板中有一个瓷砖,我希望它显示一个日期:
<template>
<px-tile
description=[[date]]
</px-tile>
</template>
Run Code Online (Sandbox Code Playgroud)
date元素的属性在哪里:
date: {
type: Date,
}
Run Code Online (Sandbox Code Playgroud)
然而,这将显示整个日期和时间,我只想要日期.所以我想做:
<template>
<px-tile
description=[[date.toLocaleDateString("en-US")]]
</px-tile>
</template>
Run Code Online (Sandbox Code Playgroud)
但这不起作用.如何在此设置中格式化日期?
我正在学习 Tensorflow 教程,并且遇到了快速傅立叶变换:
fft = tf.signal.rfft(df['T (degC)'])
f_per_dataset = np.arange(0, len(fft))
n_samples_h = len(df['T (degC)'])
hours_per_year = 24*365.2524
years_per_dataset = n_samples_h/(hours_per_year)
f_per_year = f_per_dataset/years_per_dataset
plt.step(f_per_year, np.abs(fft))
plt.xscale('log')
plt.ylim(0, 400000)
plt.xlim([0.1, max(plt.xlim())])
plt.xticks([1, 365.2524], labels=['1/Year', '1/day'])
_ = plt.xlabel('Frequency (log scale)')
Run Code Online (Sandbox Code Playgroud)
该数据集包含每小时的温度测量值。代码对此执行 FFT,以查看哪些组件有很大影响,基本上是在数据中找到周期性。这产生了以下情节:
虽然我不太了解X轴。我确实看到它是一个对数刻度,但是,我看到“1”对应于一年,“365.2524”代表每日周期。这是否意味着比例尺是“一年的第 n”,所以一年的第 1 是一年,一年的 365.2524 是一天,同样的逻辑 4 是一个季度,2 是半年之类的?如果是这样,最左边的值 (0) 是什么意思?在一年的第 0 日也有一些周期性——这在直觉上意味着什么?
这里还有一个。有一些关键的区别。这次的数据集是亚马逊股票的每日交易量(因此数据集不再是每小时,而是每天)。此外,该数据集仅包含 WEEKDAY 数据,因此将一年中的天数标记为 252(此数据集一年中的平均天数)。
fft = tf.signal.rfft(df['Volume'])
f_per_dataset = np.arange(0, len(fft))
n_samples_d = len(df['Volume'])
days_per_year = 252
years_per_dataset = n_samples_d/(days_per_year)
f_per_year = f_per_dataset/years_per_dataset …Run Code Online (Sandbox Code Playgroud) python ×6
apache-spark ×2
java ×2
pandas ×2
alignment ×1
amazon-s3 ×1
angular ×1
cors ×1
css ×1
dataframe ×1
date ×1
fetch ×1
fft ×1
flask ×1
formatting ×1
javascript ×1
linux ×1
polymer ×1
polymer-2.x ×1
reactjs ×1
tf-idf ×1
time-series ×1
xlsxwriter ×1