小编lte*_*e__的帖子

Spark - 没有用于方案的FileSystem:https,无法从Amazon S3加载文件

我正在尝试通过以下方式从Amazon S3存储桶加载一些数据:

SparkConf sparkConf = new SparkConf().setAppName("Importer");
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
HiveContext sqlContext = new HiveContext(ctx.sc());

DataFrame magento = sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json");
Run Code Online (Sandbox Code Playgroud)

然而,最后一行会引发错误:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: https
Run Code Online (Sandbox Code Playgroud)

同一条线已经在另一个项目中工作,我错过了什么?我在Hortonworks CentOS VM上运行Spark.

java amazon-s3 apache-spark

7
推荐指数
1
解决办法
4639
查看次数

Python多处理 - 调试OSError:[Errno 12]无法分配内存

我面临以下问题.我正在尝试并行化一个更新文件的函数,但我无法启动Pool()因为一个OSError: [Errno 12] Cannot allocate memory.我开始在服务器上四处看看,这并不像我使用旧的,弱的/实际内存.见htop: 在此输入图像描述 此外,free -m显示除了大约7GB的交换内存外,我还有足够的RAM: 在此输入图像描述 而我正在尝试使用的文件也不是那么大.我将粘贴我的代码(和堆栈跟踪),其中,大小如下:

使用的predictionmatrix数据框占用大约.根据pandasdataframe.memory_usage() 文件geo.geojson为80MB 是2MB

我该如何调试呢?我可以检查什么以及如何检查?感谢您的任何提示/技巧!

码:

def parallelUpdateJSON(paramMatch, predictionmatrix, data):
    for feature in data['features']: 
        currentfeature = predictionmatrix[(predictionmatrix['SId']==feature['properties']['cellId']) & paramMatch]
        if (len(currentfeature) > 0):
            feature['properties'].update({"style": {"opacity": currentfeature.AllActivity.item()}})
        else:
            feature['properties'].update({"style": {"opacity": 0}})

def writeGeoJSON(weekdaytopredict, hourtopredict, predictionmatrix):
    with open('geo.geojson') as f:
        data = json.load(f)
    paramMatch = (predictionmatrix['Hour']==hourtopredict) & (predictionmatrix['Weekday']==weekdaytopredict)
    pool = Pool()
    func = partial(parallelUpdateJSON, paramMatch, predictionmatrix)
    pool.map(func, data)
    pool.close()
    pool.join()

    with …
Run Code Online (Sandbox Code Playgroud)

python linux out-of-memory python-multiprocessing

6
推荐指数
2
解决办法
8026
查看次数

与输入字段内联的 Angular Material 微调器

我在输入字段下生成一堆按钮,当输入正确的数字时,这些按钮会倒计时到 0。我想在“ns left”显示旁边(水平旁边)添加一个进度微调器。我目前有:

  <mat-card class="card mat-elevation-z5">
      <mat-form-field>
        <mat-label>Username</mat-label>
        <input id="nameInput" matInput>
        <p matSuffix>{{timeLeft}}s left</p>
        <mat-spinner [diameter]="40"></mat-spinner>
      </mat-form-field>  
     <mat-button-toggle 
        *ngFor="let button of buttonsFromApi" 
        id="{{button.id}}">
        {{button.displayName}}
      </mat-button-toggle>
</mat-card>
Run Code Online (Sandbox Code Playgroud)

我的问题是,无论我如何尝试,微调器最终都会在文本下方,而不是在它旁边。我尝试了 flexboxes、附加 div、不同布局的组合,但它从未奏效......我如何确保输入字段居中并与所有按钮(在一列中)一致,同时旁边有一个微调器到倒计时?例如我有:

在此处输入图片说明

而且我要:

在此处输入图片说明

CSS:

.card {
    min-width: 50%;
    display: flex;  
    flex-flow: column wrap;
  }
mat-form-field {
    font-size: 2em;   
    min-width: 50%;
}
Run Code Online (Sandbox Code Playgroud)

css alignment angular-material angular

6
推荐指数
1
解决办法
4045
查看次数

无法让 React 和 Flask-CORS 在本地工作

我正在尝试让一个具有 React/NodeJS 前端和 Flask 后端的应用程序在本地运行以用于开发目的。过去一个小时我一直在 StackOverflow 上搜索,但我似乎无法解决 CORS 问题。我有:

import json
 
from flask import Flask, request
from flask_cors import CORS, cross_origin

app = Flask(__name__)

# Enable cors requests
CORS(app)

# Initiate model

@app.route("/query", methods=["POST"])
@cross_origin(origin="*", headers=["Content-Type"])
def query():
    """Endpoint for receiving bot response"""
    print(request)
    query = request.json
    bot_answer = blablagetanswer() ... #filling the json 
    return json.dumps({"botResponse": bot_answer})


if __name__ == "__main__":
    app.run(
        host="0.0.0.0", port=80, debug=True,
    )
Run Code Online (Sandbox Code Playgroud)

我已经阅读了多个答案,并尝试了 Flask 中 CORS 处理的许多变体(尝试使用和不使用@cross_origin()装饰器,添加@cross_origin(origin="*")甚至@cross_origin(origin="*", headers=["Content-Type"])在 下@app.route() …

python fetch cors flask reactjs

6
推荐指数
1
解决办法
3182
查看次数

Spark SQL - 选择所有AND计算列?

这是一个总的noob问题,对不起.在Spark中,我可以使用select作为:

df.select("*"); //to select everything
df.select(df.col("colname")[, df.col("colname")]); //to select one or more columns
df.select(df.col("colname"), df.col("colname").plus(1)) //to select a column and a calculated column
Run Code Online (Sandbox Code Playgroud)

但.如何选择所有列加上计算的列?显然 select("*", df.col("colname").plus(1))不起作用(编译错误).如何在JAVA下完成?谢谢!

java apache-spark apache-spark-sql

5
推荐指数
1
解决办法
2万
查看次数

Pandas - 将值提取到基本的python float

我正在尝试从pandas数据帧中提取一个单元格到一个简单的浮点数.我尝试着

prediction = pd.to_numeric(baseline.ix[(baseline['Weekday']==5) & (baseline['Hour'] == 8)]['SmsOut'])
Run Code Online (Sandbox Code Playgroud)

但是,这会回来

128   -0.001405
Name: SmsOut, dtype: float64
Run Code Online (Sandbox Code Playgroud)

我希望它只返回一个simle Python float:-0.001405 我该怎么做?

python pandas

5
推荐指数
1
解决办法
1312
查看次数

将tfidf附加到pandas数据帧

我有以下pandas结构:

col1 col2 col3 text
1    1    0    meaningful text
5    9    7    trees
7    8    2    text
Run Code Online (Sandbox Code Playgroud)

我想用tfidf矢量化矢量化它.然而,这会返回一个解析矩阵,我实际上可以将其转换为密集矩阵mysparsematrix).toarray().但是,如何将此信息与标签一起添加到原始df中?所以目标看起来像:

col1 col2 col3 meaningful text trees
1    1    0    1          1    0
5    9    7    0          0    1
7    8    2    0          1    0
Run Code Online (Sandbox Code Playgroud)

更新:

即使重命名原始列,解决方案也会使连接错误: 在此输入图像描述 删除至少有一个NaN的列只会产生7行,即使我fillna(0)在开始使用它之前使用它.

python tf-idf dataframe sklearn-pandas

5
推荐指数
1
解决办法
4727
查看次数

Pandas to Excel 条件格式整列

我想用格式将 Pandas 数据框写入 Excel。为此,我正在使用xlsxwriter. 我的问题是双重的:

  • 首先,如何将条件格式应用于整列?在示例中,他们使用特定的单元格范围格式(例如worksheet1.conditional_format('B3:K12', ...)),有没有办法可以引用整列?

  • 其次,如果 B 列与 C 列的差异超过 15%,我想用红色标记 B 列。什么是正确的公式?

我目前正在尝试下面的代码,但它不起作用(我不知道如何引用列)。

writer = pd.ExcelWriter('pacing.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Last year vs. current state')
#worksheet.set_column('B:B', 18, format1)
workbook  = writer.book
worksheet = writer.sheets['Last year vs. current state']
format_missed = workbook.add_format({'bg_color': '#ff0000'})
format_ok = workbook.add_format({'bg_color': '#008000'})

worksheet.conditional_format('C:C', {'type':     'formula',
                                        'criteria': '=ABS((B-C)/C) > 15',
                                        'format':   format_missed})
writer.save() 
Run Code Online (Sandbox Code Playgroud)

另外,我在 Mac 上运行 Excel,不确定它是否有任何区别,但我注意到 Windows 版本使用的地方,,Mac 版本需要;公式。不知道这有什么影响xlsxwriter

python pandas xlsxwriter

5
推荐指数
1
解决办法
6791
查看次数

聚合物 - 以绑定值格式化日期

我在模板中有一个瓷砖,我希望它显示一个日期:

  <template>
    <px-tile
        description=[[date]]
    </px-tile>
  </template>
Run Code Online (Sandbox Code Playgroud)

date元素的属性在哪里:

  date: {
    type: Date,
  }
Run Code Online (Sandbox Code Playgroud)

然而,这将显示整个日期和时间,我只想要日期.所以我想做:

  <template>
    <px-tile
        description=[[date.toLocaleDateString("en-US")]]
    </px-tile>
  </template>
Run Code Online (Sandbox Code Playgroud)

但这不起作用.如何在此设置中格式化日期?

javascript formatting date polymer polymer-2.x

5
推荐指数
0
解决办法
377
查看次数

了解时间序列数据上的傅立叶变换分量

我正在学习 Tensorflow 教程,并且遇到了快速傅立叶变换:

fft = tf.signal.rfft(df['T (degC)'])
f_per_dataset = np.arange(0, len(fft))

n_samples_h = len(df['T (degC)'])
hours_per_year = 24*365.2524
years_per_dataset = n_samples_h/(hours_per_year)

f_per_year = f_per_dataset/years_per_dataset
plt.step(f_per_year, np.abs(fft))
plt.xscale('log')
plt.ylim(0, 400000)
plt.xlim([0.1, max(plt.xlim())])
plt.xticks([1, 365.2524], labels=['1/Year', '1/day'])
_ = plt.xlabel('Frequency (log scale)')
Run Code Online (Sandbox Code Playgroud)

该数据集包含每小时的温度测量值。代码对此执行 FFT,以查看哪些组件有很大影响,基本上是在数据中找到周期性。这产生了以下情节:

在此处输入图片说明

虽然我不太了解X轴。我确实看到它是一个对数刻度,但是,我看到“1”对应于一年,“365.2524”代表每日周期。这是否意味着比例尺是“一年的第 n”,所以一年的第 1 是一年,一年的 365.2524 是一天,同样的逻辑 4 是一个季度,2 是半年之类的?如果是这样,最左边的值 (0) 是什么意思?在一年的第 0 日也有一些周期性——这在直觉上意味着什么?

这里还有一个。有一些关键的区别。这次的数据集是亚马逊股票的每日交易量(因此数据集不再是每小时,而是每天)。此外,该数据集仅包含 WEEKDAY 数据,因此将一年中的天数标记为 252(此数据集一年中的平均天数)。

fft = tf.signal.rfft(df['Volume'])
f_per_dataset = np.arange(0, len(fft))

n_samples_d = len(df['Volume'])
days_per_year = 252
years_per_dataset = n_samples_d/(days_per_year)

f_per_year = f_per_dataset/years_per_dataset …
Run Code Online (Sandbox Code Playgroud)

python fft time-series

5
推荐指数
0
解决办法
389
查看次数