小编use*_*577的帖子

在Spark / Python中向前填充缺少的值

我试图用以前的非空值（如果存在）填充我的Spark数据框中的缺失值。我已经在Python / Pandas中完成了这类工作，但是我的数据对于Pandas（在一个小型集群上）来说太大了，我是Spark noob。这是Spark可以做的吗？可以为多列使用吗？如果是这样，怎么办？如果没有，在谁的Hadoop工具套件中对替代方法有何建议？

谢谢！

hadoop apache-spark pyspark spark-dataframe apache-spark-mllib

use*_*577

2016 07-01

6
推荐指数

1
解决办法

2762
查看次数

未授权 Twitter 溢价

我尝试运行下面的代码并收到一条错误消息：HTTP 错误代码：403：禁止：身份验证成功但帐户无权访问此资源。

from searchtweets import ResultStream, gen_rule_payload, load_credentials, collect_results

import requests

premium_search_args = load_credentials("/home/dirname/twitter_keys.yaml",
                                       yaml_key="search_tweets_premium",
                                       env_overwrite=False)


rule = gen_rule_payload("basketball", results_per_call=100) # testing with a sandbox account
print(rule)

from searchtweets import collect_results

tweets = collect_results(rule, 
                         max_results=100, 
                         result_stream_args=premium_search_args)


# print(tweets.all_text)

[print(tweet.all_text, end='\n\n') for tweet in tweets[0:10]];

Run Code Online (Sandbox Code Playgroud)

我的 YAML 文件如下所示：

search_tweets_premium:
  account_type: premium
  endpoint: https://api.twitter.com/1.1/tweets/search/fullarchive/dev.json
  consumer_key: AAAAAAAAAAAAAAAAAAAAA
  consumer_secret: BBBBBBBBBBBBBBBBBBBBBBBBBBB

Run Code Online (Sandbox Code Playgroud)

唯一需要注意的是，我正在使用免费/沙盒服务。

如果我在代码、YAML 和/或我的 Twitter 开发人员帐户中做错了什么，有什么想法吗？

python twitter twitter-oauth

use*_*577

lucky-day

5
推荐指数

1
解决办法

3054
查看次数

文本分类的随机森林模型

我有文本数据集,我在其中手动将每个记录分类为两个可能的类之一.我在语料库上创建了一个TFIDF,没有英语停用词,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库.到目前为止一切都很好,但是如何更多地了解我的模型,即如何找出哪些单词对模型"重要"？

python nltk python-2.7 scikit-learn

use*_*577

lucky-day

3
推荐指数

1
解决办法

323
查看次数

获取作为 Spark 数据帧中一列的数组中项目的索引

通过执行以下操作，我能够根据数组字段中是否存在特定值来过滤 Spark 数据帧（在 PySpark 中）：

from pyspark.sql.functions import array_contains
spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show()

Run Code Online (Sandbox Code Playgroud)

有没有办法获取在数组中找到该项目的位置的索引？似乎应该存在，但我没有找到它。谢谢你。

apache-spark pyspark

use*_*577

2018 12-13

3
推荐指数

2
解决办法

9413
查看次数

基于现有列中变量的值的Pandas数据框中的新列

我在创建一个新列时遇到困难，该新列的值基于同一数据框中现有列的值。现有的列是数字，我正尝试根据以下内容为新列提供高，中，低的分类值：

低：<（最大-最小）/ 3

中：（最大-最小）/ 3-（最大-最小）/ 3 * 2

高：>（最大-最小）/ 3 * 2

仍在学习熊猫，因此可以提供任何帮助。谢谢！

编辑：

这是我尝试过的：

df_unit_day_hour['Level_Score'] = pd.cut(df_unit_day_hour['Level_Score'], q=3, labels=['low', 'medium', 'high'])

Run Code Online (Sandbox Code Playgroud)

我认为这几乎是我所需要的，但是出现错误（KeyError）。是因为df_unit_day_hour ['Level_Score']是浮点数吗？

python pandas

use*_*577

2015 06-02

2
推荐指数

1
解决办法

1115
查看次数

2 个列表和/或 1 个二维数组的 udf 声明

我想声明一个返回 2 1D 数组或 1 2D 数组的 udf（两者的示例都很好）。我知道这适用于 1D：

@udf("array<int>")

Run Code Online (Sandbox Code Playgroud)

但是，我尝试了许多变体，例如以下没有运气：

@udf("array<int>,array<int>")
@udf("array<int>","array<int>")
@udf("array<int,int>")
etc.

Run Code Online (Sandbox Code Playgroud)

user-defined-functions apache-spark apache-spark-sql pyspark

use*_*577

2019 01-30

1
推荐指数

1
解决办法

560
查看次数

标签统计

apache-spark ×3

pyspark ×3

python ×3

apache-spark-mllib ×1

apache-spark-sql ×1

hadoop ×1

nltk ×1

pandas ×1

python-2.7 ×1

scikit-learn ×1

spark-dataframe ×1

twitter ×1

twitter-oauth ×1

user-defined-functions ×1

在Spark / Python中向前填充缺少的值

未授权 Twitter 溢价

文本分类的随机森林模型

获取作为 Spark 数据帧中一列的数组中项目的索引

基于现有列中变量的值的Pandas数据框中的新列

2 个列表和/或 1 个二维数组的 udf 声明

标签 统计

小编use_577的帖子

标签统计