小编use*_*577的帖子

在Spark / Python中向前填充缺少的值

我试图用以前的非空值(如果存在)填充我的Spark数据框中的缺失值。我已经在Python / Pandas中完成了这类工作,但是我的数据对于Pandas(在一个小型集群上)来说太大了,我是Spark noob。这是Spark可以做的吗?可以为多列使用吗?如果是这样,怎么办?如果没有,在谁的Hadoop工具套件中对替代方法有何建议?

谢谢!

hadoop apache-spark pyspark spark-dataframe apache-spark-mllib

6
推荐指数
1
解决办法
2762
查看次数

未授权 Twitter 溢价

我尝试运行下面的代码并收到一条错误消息:HTTP 错误代码:403:禁止:身份验证成功但帐户无权访问此资源。

from searchtweets import ResultStream, gen_rule_payload, load_credentials, collect_results

import requests

premium_search_args = load_credentials("/home/dirname/twitter_keys.yaml",
                                       yaml_key="search_tweets_premium",
                                       env_overwrite=False)


rule = gen_rule_payload("basketball", results_per_call=100) # testing with a sandbox account
print(rule)

from searchtweets import collect_results

tweets = collect_results(rule, 
                         max_results=100, 
                         result_stream_args=premium_search_args)


# print(tweets.all_text)

[print(tweet.all_text, end='\n\n') for tweet in tweets[0:10]];
Run Code Online (Sandbox Code Playgroud)

我的 YAML 文件如下所示:

search_tweets_premium:
  account_type: premium
  endpoint: https://api.twitter.com/1.1/tweets/search/fullarchive/dev.json
  consumer_key: AAAAAAAAAAAAAAAAAAAAA
  consumer_secret: BBBBBBBBBBBBBBBBBBBBBBBBBBB
Run Code Online (Sandbox Code Playgroud)

唯一需要注意的是,我正在使用免费/沙盒服务。

如果我在代码、YAML 和/或我的 Twitter 开发人员帐户中做错了什么,有什么想法吗?

python twitter twitter-oauth

5
推荐指数
1
解决办法
3054
查看次数

文本分类的随机森林模型

我有文本数据集,我在其中手动将每个记录分类为两个可能的类之一.我在语料库上创建了一个TFIDF,没有英语停用词,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库.到目前为止一切都很好,但是如何更多地了解我的模型,即如何找出哪些单词对模型"重要"?

python nltk python-2.7 scikit-learn

3
推荐指数
1
解决办法
323
查看次数

获取作为 Spark 数据帧中一列的数组中项目的索引

通过执行以下操作,我能够根据数组字段中是否存在特定值来过滤 Spark 数据帧(在 PySpark 中):

from pyspark.sql.functions import array_contains
spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show() 
Run Code Online (Sandbox Code Playgroud)

有没有办法获取在数组中找到该项目的位置的索引?似乎应该存在,但我没有找到它。谢谢你。

apache-spark pyspark

3
推荐指数
2
解决办法
9413
查看次数

基于现有列中变量的值的Pandas数据框中的新列

我在创建一个新列时遇到困难,该新列的值基于同一数据框中现有列的值。现有的列是数字,我正尝试根据以下内容为新列提供高,中,低的分类值:

低:<(最大-最小)/ 3

中:(最大-最小)/ 3-(最大-最小)/ 3 * 2

高:>(最大-最小)/ 3 * 2

仍在学习熊猫,因此可以提供任何帮助。谢谢!

编辑:

这是我尝试过的:

df_unit_day_hour['Level_Score'] = pd.cut(df_unit_day_hour['Level_Score'], q=3, labels=['low', 'medium', 'high'])
Run Code Online (Sandbox Code Playgroud)

我认为这几乎是我所需要的,但是出现错误(KeyError)。是因为df_unit_day_hour ['Level_Score']是浮点数吗?

python pandas

2
推荐指数
1
解决办法
1115
查看次数

2 个列表和/或 1 个二维数组的 udf 声明

我想声明一个返回 2 1D 数组或 1 2D 数组的 udf(两者的示例都很好)。我知道这适用于 1D:

@udf("array<int>")
Run Code Online (Sandbox Code Playgroud)

但是,我尝试了许多变体,例如以下没有运气:

@udf("array<int>,array<int>")
@udf("array<int>","array<int>")
@udf("array<int,int>")
etc. 
Run Code Online (Sandbox Code Playgroud)

user-defined-functions apache-spark apache-spark-sql pyspark

1
推荐指数
1
解决办法
560
查看次数