小编Lay*_*ang的帖子

str_extract_all 返回一个列表，但我想要一个向量

对于 R 来说还是比较新的。我有一列推文，我正在尝试创建一个包含转发句柄“RT @blahblah”的列，如下所示：

Tweets                            Retweetfrom
RT @john I had a good day         RT @john
RT @josh I had a bad day          RT @josh

Run Code Online (Sandbox Code Playgroud)

这是我的代码：

r$Retweetfrom <- str_extract_all(r$Tweets, "^RT[:space:]+@[:graph:]+")

Run Code Online (Sandbox Code Playgroud)

它给了我正确的结果，但新列不是向量，而是列表。当我尝试取消列出它时，它会抛出一个错误：

Error in `$<-.data.frame`(`*tmp*`, "Retweetfrom", value = c("@AlpineITW", "@AllScienceGlobe",  : replacement has 1168 rows, data has 2306

Run Code Online (Sandbox Code Playgroud)

有人知道如何处理这个问题吗？多谢。

r stringr

Lay*_*ang

lucky-day

5
推荐指数

1
解决办法

3546
查看次数

如何从 shell 脚本中捕获 Spark 错误

我在 AWS Data Pipeline 中有一个管道，它运行一个名为 shell.sh 的 shell 脚本：

$ spark-submit transform_json.py


Running command on cluster...
[54.144.10.162] Running command...
[52.206.87.30] Running command...
[54.144.10.162] Command complete.
[52.206.87.30] Command complete.
run_command finished in 0:00:06.

Run Code Online (Sandbox Code Playgroud)

AWS Data Pipeline 控制台显示作业已“完成”，但在 stderr 日志中，我看到作业实际上已中止：

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxxxx, AWS Error Code: null, AWS Error Message: Not Found...        
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 5.0 failed 1 times, most recent …

Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-data-pipeline apache-spark

Lay*_*ang

2020 05-27

2
推荐指数

1
解决办法

775
查看次数

旋转包含列表的数据框

这是我试图转动的数据框,或者更确切地说,重塑:

  Value            Word list
    1        c("cat", "dog")
    1        c("apple", "banana")
    2        c("cat", "dog")
    2        c("peach", "orange")
    3        c("cat", "dog")
    3        c("berries", "coconut")

Run Code Online (Sandbox Code Playgroud)

这是期望的结果(基本上只是将元素组合在一起Value以获得一个大list的结果Value):

    Value            Word list
    1        c("cat", "dog", "apple", "banana")
    2        c("cat", "dog", "peach", "orange")
    3        c("cat", "dog", "berries", "coconut")

Run Code Online (Sandbox Code Playgroud)

提前感谢能够提供帮助的任何人(并感谢所有已为我评论/编辑过我糟糕帖子的人).

为了让你知道为什么我在数据框中得到一个列表,我实际上是在做一个词性标注.在使用str_split分解注释列之后,我在数据框中得到了一个列表,因为每个注释的长度各不相同.每个评论都带有一个分数,我需要按分数创建一个单词数据框.

根据您的要求,> str(df1):

'data.frame':   6 obs. of  2 variables:
 $ Value   : num  1 1 2 2 3 3
 $ Wordlist:List of 6
  ..$ : chr  "cat" "dog"
  ..$ : chr  "apple" …

Run Code Online (Sandbox Code Playgroud)

Lay*_*ang

2016 02-26

-5
推荐指数

3
解决办法

396
查看次数

标签统计

r ×2

amazon-data-pipeline ×1

amazon-web-services ×1

apache-spark ×1

stringr ×1

str_extract_all 返回一个列表，但我想要一个向量

如何从 shell 脚本中捕获 Spark 错误

旋转包含列表的数据框

标签 统计

小编Lay_ang的帖子

标签统计