我试图用以前的非空值(如果存在)填充我的Spark数据框中的缺失值。我已经在Python / Pandas中完成了这类工作,但是我的数据对于Pandas(在一个小型集群上)来说太大了,我是Spark noob。这是Spark可以做的吗?可以为多列使用吗?如果是这样,怎么办?如果没有,在谁的Hadoop工具套件中对替代方法有何建议?
谢谢!
hadoop apache-spark pyspark spark-dataframe apache-spark-mllib
我尝试运行下面的代码并收到一条错误消息:HTTP 错误代码:403:禁止:身份验证成功但帐户无权访问此资源。
from searchtweets import ResultStream, gen_rule_payload, load_credentials, collect_results
import requests
premium_search_args = load_credentials("/home/dirname/twitter_keys.yaml",
yaml_key="search_tweets_premium",
env_overwrite=False)
rule = gen_rule_payload("basketball", results_per_call=100) # testing with a sandbox account
print(rule)
from searchtweets import collect_results
tweets = collect_results(rule,
max_results=100,
result_stream_args=premium_search_args)
# print(tweets.all_text)
[print(tweet.all_text, end='\n\n') for tweet in tweets[0:10]];
Run Code Online (Sandbox Code Playgroud)
我的 YAML 文件如下所示:
search_tweets_premium:
account_type: premium
endpoint: https://api.twitter.com/1.1/tweets/search/fullarchive/dev.json
consumer_key: AAAAAAAAAAAAAAAAAAAAA
consumer_secret: BBBBBBBBBBBBBBBBBBBBBBBBBBB
Run Code Online (Sandbox Code Playgroud)
唯一需要注意的是,我正在使用免费/沙盒服务。
如果我在代码、YAML 和/或我的 Twitter 开发人员帐户中做错了什么,有什么想法吗?
我有文本数据集,我在其中手动将每个记录分类为两个可能的类之一.我在语料库上创建了一个TFIDF,没有英语停用词,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库.到目前为止一切都很好,但是如何更多地了解我的模型,即如何找出哪些单词对模型"重要"?
通过执行以下操作,我能够根据数组字段中是否存在特定值来过滤 Spark 数据帧(在 PySpark 中):
from pyspark.sql.functions import array_contains
spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show()
Run Code Online (Sandbox Code Playgroud)
有没有办法获取在数组中找到该项目的位置的索引?似乎应该存在,但我没有找到它。谢谢你。
我在创建一个新列时遇到困难,该新列的值基于同一数据框中现有列的值。现有的列是数字,我正尝试根据以下内容为新列提供高,中,低的分类值:
低:<(最大-最小)/ 3
中:(最大-最小)/ 3-(最大-最小)/ 3 * 2
高:>(最大-最小)/ 3 * 2
仍在学习熊猫,因此可以提供任何帮助。谢谢!
编辑:
这是我尝试过的:
df_unit_day_hour['Level_Score'] = pd.cut(df_unit_day_hour['Level_Score'], q=3, labels=['low', 'medium', 'high'])
Run Code Online (Sandbox Code Playgroud)
我认为这几乎是我所需要的,但是出现错误(KeyError)。是因为df_unit_day_hour ['Level_Score']是浮点数吗?
我想声明一个返回 2 1D 数组或 1 2D 数组的 udf(两者的示例都很好)。我知道这适用于 1D:
@udf("array<int>")
Run Code Online (Sandbox Code Playgroud)
但是,我尝试了许多变体,例如以下没有运气:
@udf("array<int>,array<int>")
@udf("array<int>","array<int>")
@udf("array<int,int>")
etc.
Run Code Online (Sandbox Code Playgroud) user-defined-functions apache-spark apache-spark-sql pyspark
apache-spark ×3
pyspark ×3
python ×3
hadoop ×1
nltk ×1
pandas ×1
python-2.7 ×1
scikit-learn ×1
twitter ×1