我想用 Google 文档(常规文档而不是电子表格)中的一个回车符和一个制表符 (\n\t) 替换两个回车符 (\n\n)。如果我输入 \n\t 替换为键入的简单文本,则插入,而不是非打印字符。这是 Google Doc 的限制还是有办法绕过它?
我在脚本中使用此函数使用r文本挖掘包(tm)来消除推文中的URL.令我惊讶的是,在清理之后,有一些剩余的"http"单词以及来自URL本身的片段(例如t.co).看起来有些URL被彻底消灭了,而其他一些只是分解成组件.可能是什么原因?注意:我拿了.在t.co网址中.StackOverflow不允许将URL提交到t.co地址.
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "/")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "@")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "\\|")
removeURL <- function(x) gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, removeURL)
Run Code Online (Sandbox Code Playgroud)
清洁前的文字
VOTE TODAY! Go to https://tco/KPQ5EY9VwQ to find your polling location. We are going to Make America Great Again!… https://tco/KPQ5EY9VwQ
清洁后的文字
vote today go https tco mxraxyntjy find polling location going make america great https tco kpqeyvwq