对于 R 来说还是比较新的。我有一列推文,我正在尝试创建一个包含转发句柄“RT @blahblah”的列,如下所示:
Tweets Retweetfrom
RT @john I had a good day RT @john
RT @josh I had a bad day RT @josh
Run Code Online (Sandbox Code Playgroud)
这是我的代码:
r$Retweetfrom <- str_extract_all(r$Tweets, "^RT[:space:]+@[:graph:]+")
Run Code Online (Sandbox Code Playgroud)
它给了我正确的结果,但新列不是向量,而是列表。当我尝试取消列出它时,它会抛出一个错误:
Error in `$<-.data.frame`(`*tmp*`, "Retweetfrom", value = c("@AlpineITW", "@AllScienceGlobe", : replacement has 1168 rows, data has 2306
Run Code Online (Sandbox Code Playgroud)
有人知道如何处理这个问题吗?多谢。
我在 AWS Data Pipeline 中有一个管道,它运行一个名为 shell.sh 的 shell 脚本:
$ spark-submit transform_json.py
Running command on cluster...
[54.144.10.162] Running command...
[52.206.87.30] Running command...
[54.144.10.162] Command complete.
[52.206.87.30] Command complete.
run_command finished in 0:00:06.
Run Code Online (Sandbox Code Playgroud)
AWS Data Pipeline 控制台显示作业已“完成”,但在 stderr 日志中,我看到作业实际上已中止:
Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxxxx, AWS Error Code: null, AWS Error Message: Not Found...
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 5.0 failed 1 times, most recent …Run Code Online (Sandbox Code Playgroud) 这是我试图转动的数据框,或者更确切地说,重塑:
Value Word list
1 c("cat", "dog")
1 c("apple", "banana")
2 c("cat", "dog")
2 c("peach", "orange")
3 c("cat", "dog")
3 c("berries", "coconut")
Run Code Online (Sandbox Code Playgroud)
这是期望的结果(基本上只是将元素组合在一起Value以获得一个大list的结果Value):
Value Word list
1 c("cat", "dog", "apple", "banana")
2 c("cat", "dog", "peach", "orange")
3 c("cat", "dog", "berries", "coconut")
Run Code Online (Sandbox Code Playgroud)
提前感谢能够提供帮助的任何人(并感谢所有已为我评论/编辑过我糟糕帖子的人).
为了让你知道为什么我在数据框中得到一个列表,我实际上是在做一个词性标注.在使用str_split分解注释列之后,我在数据框中得到了一个列表,因为每个注释的长度各不相同.每个评论都带有一个分数,我需要按分数创建一个单词数据框.
根据您的要求,> str(df1):
'data.frame': 6 obs. of 2 variables:
$ Value : num 1 1 2 2 3 3
$ Wordlist:List of 6
..$ : chr "cat" "dog"
..$ : chr "apple" …Run Code Online (Sandbox Code Playgroud)