小编lte*_*e__的帖子

Spark - 没有用于方案的FileSystem:https,无法从Amazon S3加载文件

我正在尝试通过以下方式从Amazon S3存储桶加载一些数据:

SparkConf sparkConf = new SparkConf().setAppName("Importer");
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
HiveContext sqlContext = new HiveContext(ctx.sc());

DataFrame magento = sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json");

Run Code Online (Sandbox Code Playgroud)

然而,最后一行会引发错误:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: https

Run Code Online (Sandbox Code Playgroud)

同一条线已经在另一个项目中工作,我错过了什么？我在Hortonworks CentOS VM上运行Spark.

java amazon-s3 apache-spark

lte*_*e__

lucky-day

7
推荐指数

1
解决办法

4639
查看次数

Python多处理 - 调试OSError:[Errno 12]无法分配内存

我面临以下问题.我正在尝试并行化一个更新文件的函数,但我无法启动Pool()因为一个OSError: [Errno 12] Cannot allocate memory.我开始在服务器上四处看看,这并不像我使用旧的,弱的/实际内存.见htop: 此外,free -m显示除了大约7GB的交换内存外,我还有足够的RAM: 而我正在尝试使用的文件也不是那么大.我将粘贴我的代码(和堆栈跟踪),其中,大小如下:

使用的predictionmatrix数据框占用大约.根据pandasdataframe.memory_usage() 文件geo.geojson为80MB 是2MB

我该如何调试呢？我可以检查什么以及如何检查？感谢您的任何提示/技巧!

码:

def parallelUpdateJSON(paramMatch, predictionmatrix, data):
    for feature in data['features']: 
        currentfeature = predictionmatrix[(predictionmatrix['SId']==feature['properties']['cellId']) & paramMatch]
        if (len(currentfeature) > 0):
            feature['properties'].update({"style": {"opacity": currentfeature.AllActivity.item()}})
        else:
            feature['properties'].update({"style": {"opacity": 0}})

def writeGeoJSON(weekdaytopredict, hourtopredict, predictionmatrix):
    with open('geo.geojson') as f:
        data = json.load(f)
    paramMatch = (predictionmatrix['Hour']==hourtopredict) & (predictionmatrix['Weekday']==weekdaytopredict)
    pool = Pool()
    func = partial(parallelUpdateJSON, paramMatch, predictionmatrix)
    pool.map(func, data)
    pool.close()
    pool.join()

    with …

Run Code Online (Sandbox Code Playgroud)

python linux out-of-memory python-multiprocessing

lte*_*e__

2017 03-04

6
推荐指数

2
解决办法

8026
查看次数

与输入字段内联的 Angular Material 微调器

我在输入字段下生成一堆按钮，当输入正确的数字时，这些按钮会倒计时到 0。我想在“ns left”显示旁边（水平旁边）添加一个进度微调器。我目前有：

  <mat-card class="card mat-elevation-z5">
      <mat-form-field>
        <mat-label>Username</mat-label>
        <input id="nameInput" matInput>
        <p matSuffix>{{timeLeft}}s left</p>
        <mat-spinner [diameter]="40"></mat-spinner>
      </mat-form-field>  
     <mat-button-toggle 
        *ngFor="let button of buttonsFromApi" 
        id="{{button.id}}">
        {{button.displayName}}
      </mat-button-toggle>
</mat-card>

Run Code Online (Sandbox Code Playgroud)

我的问题是，无论我如何尝试，微调器最终都会在文本下方，而不是在它旁边。我尝试了 flexboxes、附加 div、不同布局的组合，但它从未奏效......我如何确保输入字段居中并与所有按钮（在一列中）一致，同时旁边有一个微调器到倒计时？例如我有：

而且我要：

CSS：

.card {
    min-width: 50%;
    display: flex;  
    flex-flow: column wrap;
  }
mat-form-field {
    font-size: 2em;   
    min-width: 50%;
}

Run Code Online (Sandbox Code Playgroud)

css alignment angular-material angular

lte*_*e__

2019 09-11

6
推荐指数

1
解决办法

4045
查看次数

无法让 React 和 Flask-CORS 在本地工作

我正在尝试让一个具有 React/NodeJS 前端和 Flask 后端的应用程序在本地运行以用于开发目的。过去一个小时我一直在 StackOverflow 上搜索，但我似乎无法解决 CORS 问题。我有：

import json
 
from flask import Flask, request
from flask_cors import CORS, cross_origin

app = Flask(__name__)

# Enable cors requests
CORS(app)

# Initiate model

@app.route("/query", methods=["POST"])
@cross_origin(origin="*", headers=["Content-Type"])
def query():
    """Endpoint for receiving bot response"""
    print(request)
    query = request.json
    bot_answer = blablagetanswer() ... #filling the json 
    return json.dumps({"botResponse": bot_answer})


if __name__ == "__main__":
    app.run(
        host="0.0.0.0", port=80, debug=True,
    )

Run Code Online (Sandbox Code Playgroud)

我已经阅读了多个答案，并尝试了 Flask 中 CORS 处理的许多变体（尝试使用和不使用@cross_origin()装饰器，添加@cross_origin(origin="*")甚至@cross_origin(origin="*", headers=["Content-Type"])在下@app.route() …

python fetch cors flask reactjs

lte*_*e__

2022 04-14

6
推荐指数

1
解决办法

3182
查看次数

Spark SQL - 选择所有AND计算列？

这是一个总的noob问题,对不起.在Spark中,我可以使用select作为:

df.select("*"); //to select everything
df.select(df.col("colname")[, df.col("colname")]); //to select one or more columns
df.select(df.col("colname"), df.col("colname").plus(1)) //to select a column and a calculated column

Run Code Online (Sandbox Code Playgroud)

但.如何选择所有列加上计算的列？显然 select("*", df.col("colname").plus(1))不起作用(编译错误).如何在JAVA下完成？谢谢!

java apache-spark apache-spark-sql

lte*_*e__

lucky-day

5
推荐指数

1
解决办法

2万
查看次数

Pandas - 将值提取到基本的python float

我正在尝试从pandas数据帧中提取一个单元格到一个简单的浮点数.我尝试着

prediction = pd.to_numeric(baseline.ix[(baseline['Weekday']==5) & (baseline['Hour'] == 8)]['SmsOut'])

Run Code Online (Sandbox Code Playgroud)

但是,这会回来

128   -0.001405
Name: SmsOut, dtype: float64

Run Code Online (Sandbox Code Playgroud)

我希望它只返回一个simle Python float:-0.001405 我该怎么做？

python pandas

lte*_*e__

lucky-day

5
推荐指数

1
解决办法

1312
查看次数

将tfidf附加到pandas数据帧

我有以下pandas结构:

col1 col2 col3 text
1    1    0    meaningful text
5    9    7    trees
7    8    2    text

Run Code Online (Sandbox Code Playgroud)

我想用tfidf矢量化矢量化它.然而,这会返回一个解析矩阵,我实际上可以将其转换为密集矩阵mysparsematrix).toarray().但是,如何将此信息与标签一起添加到原始df中？所以目标看起来像:

col1 col2 col3 meaningful text trees
1    1    0    1          1    0
5    9    7    0          0    1
7    8    2    0          1    0

Run Code Online (Sandbox Code Playgroud)

更新:

即使重命名原始列,解决方案也会使连接错误: 删除至少有一个NaN的列只会产生7行,即使我fillna(0)在开始使用它之前使用它.

python tf-idf dataframe sklearn-pandas

lte*_*e__

2017 08-30

5
推荐指数

1
解决办法

4727
查看次数

Pandas to Excel 条件格式整列

我想用格式将 Pandas 数据框写入 Excel。为此，我正在使用xlsxwriter. 我的问题是双重的：

首先，如何将条件格式应用于整列？在示例中，他们使用特定的单元格范围格式（例如worksheet1.conditional_format('B3:K12', ...)），有没有办法可以引用整列？
其次，如果 B 列与 C 列的差异超过 15%，我想用红色标记 B 列。什么是正确的公式？

我目前正在尝试下面的代码，但它不起作用（我不知道如何引用列）。

writer = pd.ExcelWriter('pacing.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Last year vs. current state')
#worksheet.set_column('B:B', 18, format1)
workbook  = writer.book
worksheet = writer.sheets['Last year vs. current state']
format_missed = workbook.add_format({'bg_color': '#ff0000'})
format_ok = workbook.add_format({'bg_color': '#008000'})

worksheet.conditional_format('C:C', {'type':     'formula',
                                        'criteria': '=ABS((B-C)/C) > 15',
                                        'format':   format_missed})
writer.save()

Run Code Online (Sandbox Code Playgroud)

另外，我在 Mac 上运行 Excel，不确定它是否有任何区别，但我注意到 Windows 版本使用的地方,，Mac 版本需要;公式。不知道这有什么影响xlsxwriter。

python pandas xlsxwriter

lte*_*e__

2018 03-26

5
推荐指数

1
解决办法

6791
查看次数

聚合物 - 以绑定值格式化日期

我在模板中有一个瓷砖,我希望它显示一个日期:

  <template>
    <px-tile
        description=[[date]]
    </px-tile>
  </template>

Run Code Online (Sandbox Code Playgroud)

date元素的属性在哪里:

  date: {
    type: Date,
  }

Run Code Online (Sandbox Code Playgroud)

然而,这将显示整个日期和时间,我只想要日期.所以我想做:

  <template>
    <px-tile
        description=[[date.toLocaleDateString("en-US")]]
    </px-tile>
  </template>

Run Code Online (Sandbox Code Playgroud)

但这不起作用.如何在此设置中格式化日期？

javascript formatting date polymer polymer-2.x

lte*_*e__

lucky-day

5
推荐指数

0
解决办法

377
查看次数

了解时间序列数据上的傅立叶变换分量

我正在学习 Tensorflow 教程，并且遇到了快速傅立叶变换：

fft = tf.signal.rfft(df['T (degC)'])
f_per_dataset = np.arange(0, len(fft))

n_samples_h = len(df['T (degC)'])
hours_per_year = 24*365.2524
years_per_dataset = n_samples_h/(hours_per_year)

f_per_year = f_per_dataset/years_per_dataset
plt.step(f_per_year, np.abs(fft))
plt.xscale('log')
plt.ylim(0, 400000)
plt.xlim([0.1, max(plt.xlim())])
plt.xticks([1, 365.2524], labels=['1/Year', '1/day'])
_ = plt.xlabel('Frequency (log scale)')

Run Code Online (Sandbox Code Playgroud)

该数据集包含每小时的温度测量值。代码对此执行 FFT，以查看哪些组件有很大影响，基本上是在数据中找到周期性。这产生了以下情节：

虽然我不太了解X轴。我确实看到它是一个对数刻度，但是，我看到“1”对应于一年，“365.2524”代表每日周期。这是否意味着比例尺是“一年的第 n”，所以一年的第 1 是一年，一年的 365.2524 是一天，同样的逻辑 4 是一个季度，2 是半年之类的？如果是这样，最左边的值 (0) 是什么意思？在一年的第 0 日也有一些周期性——这在直觉上意味着什么？

这里还有一个。有一些关键的区别。这次的数据集是亚马逊股票的每日交易量（因此数据集不再是每小时，而是每天）。此外，该数据集仅包含 WEEKDAY 数据，因此将一年中的天数标记为 252（此数据集一年中的平均天数）。

fft = tf.signal.rfft(df['Volume'])
f_per_dataset = np.arange(0, len(fft))

n_samples_d = len(df['Volume'])
days_per_year = 252
years_per_dataset = n_samples_d/(days_per_year)

f_per_year = f_per_dataset/years_per_dataset …

Run Code Online (Sandbox Code Playgroud)

python fft time-series

lte*_*e__

2020 11-24

5
推荐指数

0
解决办法

389
查看次数