标签: gsub

在r中使用gsub函数删除斜杠

假设我有一个包含以下字符的字符串

"\"------------080209060700030309080805\""

Run Code Online (Sandbox Code Playgroud)

现在我想使用r中的gsub函数删除“\和\”部分，只保留以下字符：

"------------080209060700030309080805\"

Run Code Online (Sandbox Code Playgroud)

谁能帮我弄清楚我应该如何正确地做到这一点？

regex r string-substitution gsub

作者

2017 02-15

0
推荐指数

1
解决办法

3705
查看次数

需要帮助从R中的日期中删除时间模式

我想摆脱日期列中的时间戳。

在R中使用gsub。似乎无法弄清楚要使用哪种模式。

"2019-04-03T20:31:47Z"

Run Code Online (Sandbox Code Playgroud)

希望能有所帮助。到目前为止，这没有用：

gsub("T[:digit:]$", "", week0_album$created)

Run Code Online (Sandbox Code Playgroud)

r gsub

tiv*_*voo

lucky-day

0
推荐指数

1
解决办法

54
查看次数

替换 R 中字符串中第一次出现的字符

我正在使用很多字符串。我意识到我可以使用它们来阅读它们read.table()，但我必须事先清理它们。

我有这样的一般结构：

Request(123): \n Element1: 123123 \n Element2: 456456

Run Code Online (Sandbox Code Playgroud)

我只想删除第一次出现的分号:，而不删除其余的分号。

Request(123) \n Element1: 123123 \n Element2: 456456

Run Code Online (Sandbox Code Playgroud)

让第一个字符串存储在中test。阅读了几个线程后，我尝试了.*：

gsub(pattern = ".*:", replacement = "", x = test)

Run Code Online (Sandbox Code Playgroud)

我知道你可以使用问号来使搜索变得“懒惰”，但我无法让它工作。

string r gsub

Art*_*Sbr

lucky-day

0
推荐指数

1
解决办法

2438
查看次数

使用正则表达式从R中的字符串中提取特定长度的数值

看起来像是一个重复的问题，但其他答案对我没有帮助。我正在尝试提取文本中的任何 8 位数字。该数字可以位于文本中的任何位置。它可以单独存在，也可以跟随或跟随字符串。基本上，我需要仅使用正则表达式从 R 中的字符串中提取任何出现的 8 个连续数字字符。

这是我尝试过的，但没有成功：

> my_text <- "the number 5849 and 5555555555 shouldn't turn up. but12345654 and 99119911 should be. let's see if 1234567H also works. It shouldn't. both 12345678JE and RG10293847 should turn up as well."

> ## this doesn't work
    > gsub('(\\d{8})', '\\1', my_text)
    [1] "the number 5849 shouldn't turn up. but12345654 and 99119911 should be. let's see if 1234567H also works. It shouldn't.both 12345678JE and RG10293847 should turn up as well."

Run Code Online (Sandbox Code Playgroud)

我想要的输出应该提取以下数字：

12345654 …

Run Code Online (Sandbox Code Playgroud)

regex r extract string-length gsub

Ank*_*ira

2019 08-21

0
推荐指数

1
解决办法

2213
查看次数

如何从 R 中的字符串中删除方括号和文本

我在 R 语言中遇到一个问题来处理数据框 ( test_dataframe) 列 ( test_column) 值，如下所示：
列中的原始字符串：

test_column
6.77[9]
5.92[10]
2.98[103]

Run Code Online (Sandbox Code Playgroud)

我需要删除方括号和方括号内的任何字符，因此目标值如下：

test_column
6.77
5.92
2.98

Run Code Online (Sandbox Code Playgroud)

我尝试使用gsubR 语言中的函数，但不太幸运地解决它，有人可以帮忙解决吗？

regex string r gsub

Lam*_*ard

lucky-day

0
推荐指数

1
解决办法

3378
查看次数

如何使用 R 拆分没有分隔符的合并/粘合单词

我使用 R 中的 rvest 使用以下代码从本文页面中抓取文本关键字：

#install.packages("xml2") # required for rvest
library("rvest") # for web scraping
library("dplyr") # for data management

#' start with get the link for the web to be scraped
page <- read_html("https://www.sciencedirect.com/science/article/pii/S1877042810004568")
keyW <- page %>% html_nodes("div.Keywords.u-font-serif") %>% html_text() %>% paste(collapse = ",")

Run Code Online (Sandbox Code Playgroud)

它给了我：

> keyW    
[1] "KeywordsPhysics curriculumTurkish education systemfinnish education systemPISAphysics achievement"

Run Code Online (Sandbox Code Playgroud)

使用以下代码行从字符串中删除单词“Keywords”及其之前的所有内容后：

keyW <- gsub(".*Keywords","", keyW)

Run Code Online (Sandbox Code Playgroud)

新的密钥W是：

[1] "Physics curriculumTurkish education systemfinnish education systemPISAphysics achievement"

Run Code Online (Sandbox Code Playgroud)

但是，我想要的输出是这个列表：

[1] "Physics curriculum" "Turkish education system" "finnish education …

Run Code Online (Sandbox Code Playgroud)

r text-mining gsub strsplit rvest

Zaw*_*min

2021 01-29

0
推荐指数

1
解决办法

93
查看次数

带有字符串“+”的 Ruby 方法 gsub

我在红宝石中发现了有趣的事情。有人知道为什么是行为吗？

尝试'+'.gsub!('+', '\+')并预期 "\\+"但得到""（空字符串）

ruby methods gsub

PRD*_*RSD

lucky-day

0
推荐指数

1
解决办法

111
查看次数

awk 仅更改匹配行并打印其余行而不进行修改

所以我有一个如下所示的大文件：

RESOURCETAGMAPPINGLIST  arn:aws:ec2:us-east-1:XXXXXX:instance/i-XXXXXXXXXXXXXXXXX
TAGS    app-name    appname1
RESOURCETAGMAPPINGLIST  arn:aws:ec2:us-east-1:XXXXXX:instance/i-XXXXXXXXXXXXXXXXX
TAGS    app-name    appname2
RESOURCETAGMAPPINGLIST  arn:aws:ec2:us-east-1:XXXXXX:instance/i-XXXXXXXXXXXXXXXXX
TAGS    app-name    appname1
..

Run Code Online (Sandbox Code Playgroud)

我只想修改该行RESOURCETAGMAPPINGLIST并打印其他行而不进行修改。然后我想只打印匹配上的特定字段，如下所示：

arn ec2 us-east-1 XXXXXX
TAGS    app-name    appname1
arn ec2 us-east-1 XXXXXX
TAGS    app-name    appname2
arn ec2 us-east-1 XXXXXX
TAGS    app-name    appname1
..

Run Code Online (Sandbox Code Playgroud)

我正在尝试使用 awk gsub 命令，但确实无法解决该-F:问题。任何帮助将不胜感激，无论是 awk、sed 还是 perl。

perl awk sed gsub

aku*_*ula

2023 01-21

0
推荐指数

1
解决办法

140
查看次数

删除R中长度大于X的单词

在我删除标点符号，数字和非ASCII字符后的R编程中，我保留了许多带有长字符的单词：

ques1<-gsub("[[:digit:]]"," ", ques1,perl=TRUE)
ques1<-gsub("[[:punct:]]"," ", ques1,perl=TRUE)

ques1<-iconv(ques1, "latin1", "ASCII", sub=" ")
ques1<-rm_white(ques1)
ques1

Run Code Online (Sandbox Code Playgroud)

我检查了最长的字符长度是35

max(nchar(strsplit(ques1, " ")[[1]]))
[1] 35

Run Code Online (Sandbox Code Playgroud)

现在，我要删除包含10个以上字符的单词，因为我不希望使用这些单词，例如

wwwhotmailcomlearnbyexample

Run Code Online (Sandbox Code Playgroud)

请帮帮我！

regex r corpus gsub

OmG*_*esh

lucky-day

-1
推荐指数

1
解决办法

1606
查看次数

URL编码回到真实的URL

我有这些网址:

http://www.jobbsafari.se/jobbsoekning?q=trainers.php%253Fid%253D'%2Band''
http://www.jobbsafari.se/jobbsoekning?q=trainers.php?id%253D%2Band'
http://tay-sen.com.ua/trainers.php?id=12%26action=show_photos%26m_lang_id=9'

Run Code Online (Sandbox Code Playgroud)

我需要将它们编码回真正的URL.现在我正在使用:

string = ARGV[0]
string.gsub("%25", '%').gsub("%53", "S").gsub(etc..)

Run Code Online (Sandbox Code Playgroud)

有没有更好的方法来做多个gsubing而不必做.gsub.gsub.gsub？

ruby gsub

13a*_*aal

2016 04-03

-1
推荐指数

1
解决办法

58
查看次数

标签统计

gsub ×10

r ×7

regex ×4

ruby ×2

string ×2

awk ×1

corpus ×1

extract ×1

methods ×1

perl ×1

rvest ×1

sed ×1

string-length ×1

string-substitution ×1

strsplit ×1

text-mining ×1

标签 统计

标签统计