正则表达式删除<>之间的所有内容

TKN*_*TKN 2 regex r gsub web-scraping

我正在学习网络搜索.我掌握了一堆数据但结构凌乱.
我有一个这种形式的字符串向量:
"9,55< U+00A0>x< U+00A0>1016",(现在当我写它时,我认为它是一种特殊的语法,因为我不能在此处粘贴它而不在"U"之前放置一个空格)我在网站上搜索被写成"9,55*10 ^ 16".

从长远来看,我的目标是将此字符串转换为数字变量,即95500000000000000.但首先,我要删除第一个"<"和最后一个">"之间的所有内容.以下是我的尝试.

gsub("<(.*?)>", "", vectorOfStrings)
Run Code Online (Sandbox Code Playgroud)

编辑:字符串最好在R中使用"9,55\U{00A0}x\U{00A0}1016",因为"<"和">"不是字符串中的实际文字.

r2e*_*ans 5

你看到的字符是unicode(UTF-8,我认为),R的表示(当它不是很清楚时)是小于/大于符号.要删除它,一种方法是将文本"转换"为ASCII:

iconv(vectorOfStrings, "utf-8", "ASCII", sub = "")
Run Code Online (Sandbox Code Playgroud)

应该删除任何不可翻译的内容.