小编Lay*_*ang的帖子

str_extract_all 返回一个列表,但我想要一个向量

对于 R 来说还是比较新的。我有一列推文,我正在尝试创建一个包含转发句柄“RT @blahblah”的列,如下所示:

Tweets                            Retweetfrom
RT @john I had a good day         RT @john
RT @josh I had a bad day          RT @josh
Run Code Online (Sandbox Code Playgroud)

这是我的代码:

r$Retweetfrom <- str_extract_all(r$Tweets, "^RT[:space:]+@[:graph:]+")
Run Code Online (Sandbox Code Playgroud)

它给了我正确的结果,但新列不是向量,而是列表。当我尝试取消列出它时,它会抛出一个错误:

Error in `$<-.data.frame`(`*tmp*`, "Retweetfrom", value = c("@AlpineITW", "@AllScienceGlobe",  : replacement has 1168 rows, data has 2306
Run Code Online (Sandbox Code Playgroud)

有人知道如何处理这个问题吗?多谢。

r stringr

5
推荐指数
1
解决办法
3546
查看次数

如何从 shell 脚本中捕获 Spark 错误

我在 AWS Data Pipeline 中有一个管道,它运行一个名为 shell.sh 的 shell 脚本:

$ spark-submit transform_json.py


Running command on cluster...
[54.144.10.162] Running command...
[52.206.87.30] Running command...
[54.144.10.162] Command complete.
[52.206.87.30] Command complete.
run_command finished in 0:00:06.
Run Code Online (Sandbox Code Playgroud)

AWS Data Pipeline 控制台显示作业已“完成”,但在 stderr 日志中,我看到作业实际上已中止:

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxxxx, AWS Error Code: null, AWS Error Message: Not Found...        
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 5.0 failed 1 times, most recent …
Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-data-pipeline apache-spark

2
推荐指数
1
解决办法
775
查看次数

旋转包含列表的数据框

这是我试图转动的数据框,或者更确切地说,重塑:

  Value            Word list
    1        c("cat", "dog")
    1        c("apple", "banana")
    2        c("cat", "dog")
    2        c("peach", "orange")
    3        c("cat", "dog")
    3        c("berries", "coconut")
Run Code Online (Sandbox Code Playgroud)

这是期望的结果(基本上只是将元素组合在一起Value以获得一个大list的结果Value):

    Value            Word list
    1        c("cat", "dog", "apple", "banana")
    2        c("cat", "dog", "peach", "orange")
    3        c("cat", "dog", "berries", "coconut")
Run Code Online (Sandbox Code Playgroud)

提前感谢能够提供帮助的任何人(并感谢所有已为我评论/编辑过我糟糕帖子的人).

为了让你知道为什么我在数据框中得到一个列表,我实际上是在做一个词性标注.在使用str_split分解注释列之后,我在数据框中得到了一个列表,因为每个注释的长度各不相同.每个评论都带有一个分数,我需要按分数创建一个单词数据框.

根据您的要求,> str(df1):

'data.frame':   6 obs. of  2 variables:
 $ Value   : num  1 1 2 2 3 3
 $ Wordlist:List of 6
  ..$ : chr  "cat" "dog"
  ..$ : chr  "apple" …
Run Code Online (Sandbox Code Playgroud)

r

-5
推荐指数
3
解决办法
396
查看次数