我在nltk中有这个简单的分块示例.
我的数据:
data = 'The little yellow dog will then walk to the Starbucks, where he will introduce them to Michael.'
Run Code Online (Sandbox Code Playgroud)
......预处理......
data_tok = nltk.word_tokenize(data) #tokenisation
data_pos = nltk.pos_tag(data_tok) #POS tagging
Run Code Online (Sandbox Code Playgroud)
CHUNKING:
cfg_1 = "CUSTOMCHUNK: {<VB><.*>*?<NNP>}" #should return `walk to the Starbucks`, etc.
chunker = nltk.RegexpParser(cfg_1)
data_chunked = chunker.parse(data_pos)
Run Code Online (Sandbox Code Playgroud)
这返回(除了其他东西):(CUSTOMCHUNK walk/VB to/TO the/DT Starbucks/NNP)所以它做了我想要它做的事情.
现在我的问题是:我想切换到我的项目spacy.如何在spacy中执行此操作?
我来标记它(更粗糙的.pos方法将为我做):
from spacy.en import English
parser = English()
parsed_sent = parser(u'The little yellow dog will then walk to the Starbucks, where') …Run Code Online (Sandbox Code Playgroud) 我有一个数据框,有两列"a"和"b",交替缺失值(NA)
a b
dog <NA>
mouse <NA>
<NA> cat
bird <NA>
Run Code Online (Sandbox Code Playgroud)
我想"合并"/将它们组合到一个看起来像这样的新列c,即NA每行中的非元素被选中:
c
dog
mouse
cat
bird
Run Code Online (Sandbox Code Playgroud)
我试过merge和join,但既不工作,因为我想要的.也许是因为我没有合并的id?对于整数,我只是绕过这个并添加两列,但在我的情况下如何?
我的R输出中有一些标签或空格(我怀疑输出来自的任务中的问题),使它看起来像这样:
[1841] "\t\t\tGreen\n\t\t"
[1842] "Blue"
[1843] "\t\t\tRed\n\t\t"
Run Code Online (Sandbox Code Playgroud)
对于同事,我必须将其读入SPSS,并且在将其作为txt数据读取时会出现一些问题,因此我想删除字符串中的\ t和\n部分:
str_replace(mydata, "([\n])", "")
Run Code Online (Sandbox Code Playgroud)
用\n和\ t或者组合来尝试它,但从来没有完全奏效.
我的错误在哪里?
I have a date that I convert to a numeric value and want to convert back to a date afterwards.
Converting date to numeric:
date1 = as.POSIXct('2017-12-30 15:00:00')
date1_num = as.numeric(date1)
# 1514646000
Run Code Online (Sandbox Code Playgroud)
Reconverting numeric to date:
as.Date(date1_num, origin = '1/1/1970')
# "4146960-12-12"
Run Code Online (Sandbox Code Playgroud)
What am I missing with the reconversion? I'd expect the last command to return my original date1.
我有一个 div“白盒”,它基本上是一个应该覆盖我原来的“刺激”div 的 div。它运行流畅并且看起来不错,但它没有覆盖原始 div,但似乎是透明的,因此我仍然可以通过它看到原始 div。但我希望它被完全覆盖。
显然“不透明度”并不能解决这个问题。
<div id="stimuli"> Just press B and get started... </div>
$("#whitebox").fadeIn("fast").delay(500).fadeOut("fast");
Run Code Online (Sandbox Code Playgroud)
CSS:
#whitebox{
background: #fc3a54;
opacity: 1;
position:absolute;
height: 80%;
width: 70%;
}
Run Code Online (Sandbox Code Playgroud)
是否有一个简单的技巧可以解决我上面的代码的透明度问题,或者任何其他提示?
在我的字符串中(从这个turorial中采用的例子)我希望获得所有内容,直到.通用(year).模式之后的第一个:
str = 'purple alice@google.com, (2002).blah monkey. (1991).@abc.com blah dishwasher'
Run Code Online (Sandbox Code Playgroud)
我想我的代码几乎就在那里但尚未完成:
test = re.findall(r'[\(\d\d\d\d\).-]+([^.]*)', str)
Run Code Online (Sandbox Code Playgroud)
...返回: ['com, (2002)', 'blah monkey', ' (1991)', '@abc', 'com blah dishwasher']
所需的输出是:
['blah monkey', '@abc']
换句话说,我想找到年份模式和下一个点之间的所有内容.
我想在GAE上用socket io运行用节点js编写的p2p聊天.
我的应用程序本地工作正常,但我在与我认为的套接字io相关的GAE服务器上运行时收到错误消息.
以下是本地client.html运行时本地的两个相关脚本标记:
<script src="/socket.io/socket.io.js"></script>
<!-- <script src="https://cdn.socket.io/socket.io-1.2.0.js"></script> -->
<script type="text/javascript">
// our socket.io code goes here
var socketio = io.connect("127.0.0.1:1337");
socketio.on("message_to_client", function (data) {
to_history(data['message']);
});
function send_message() {
var msg = [document.getElementById("text1").value, user1, uuid];
socketio.emit("message_to_server", {
message: msg
});
}
</script>
Run Code Online (Sandbox Code Playgroud)
我见过博客/帖子说,对于部署,我需要在SO上允许防火墙规则(现在已经到位).我还尝试将我已部署的应用程序指向静态外部IP(在我的谷歌云控制台中将其静态化后):
var socketio = io.connect('https://104.197.51.XXX')
Run Code Online (Sandbox Code Playgroud)
或者将其指向我的防火墙规则中指定的端口65080(请参阅Google 在此处提供的文档:
var socketio = io.connect('https://104.197.51.XXX:65080')
Run Code Online (Sandbox Code Playgroud)
这些都不起作用.
我有html加载正常和我有的jQuery部分和CSS也正常加载.这只是套接字的东西,我似乎出错了.我需要改变什么?
如果这是有用的,这里是app.yaml:
runtime: nodejs
vm: true
Run Code Online (Sandbox Code Playgroud)
任何帮助是极大的赞赏.谢谢.
我在 2*4 数组中有 500 个观察值的合成数据:
datax = array(c(120, 181, 50, 43, 41, 33,24,8), dim=c(2,4))
dimnames(datax) = list(gender= c('male', 'female')
, punishment = c('None', 'Community_service', 'Youth_prison', 'Normal_prison'))
Run Code Online (Sandbox Code Playgroud)
我想data.frame从代表频率表“来源”的表中生成一个。
我可以通过“频率”列(as.data.frame(as.table(datax))也在这里)来表示它,但我想生成具有 500 行和 2 列(性别、惩罚)的 data.frame。
我将如何在 R 中做到这一点?
我有一个JavaScript对象,我用它来存储一个用户的数据,如下所示:
output = {
id: "444",
trial: [1, 2, 3, 4, 5, 6, 7, 8, 9],
points: [0, 100, 50, 50, 0, 0, 0, 100, 50]
}
Run Code Online (Sandbox Code Playgroud)
我要的是查询/过滤这些对象,例如,提取所有试验的数字output.trial哪里output.points > 50.
我在另一篇文章中发现了这个,但它并不是我想要的(它返回一个空数组).
var result = $.grep(output, function(v) {
return v.points > 50;
});
Run Code Online (Sandbox Code Playgroud)
换句话说,我想给出一些条件并接收我的对象名称的实例,这是真的(最好是数组).在这个例子中:
result_after_query = [2, 8]
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到这一点?
我在 R 中有一个函数来构造我的原始数据。我创建了一个名为的数据框output,然后想根据函数值创建一个动态变量名称block。
输出对象确实包含我想要的数据帧,并动态重命名它,在函数的末尾我这样做(在函数内):
a = assign(paste("output", block, sep=""), output)
Run Code Online (Sandbox Code Playgroud)
...但在运行该函数后没有对象 output1 (if block= 1)。我根本无法检索输出对象,无论是output动态output1版本还是动态版本。
我当时试过这个:
a =assign(paste("output", block, sep=""), output) return(a)
......但仍然 - 没有成功。如何检索动态输出变量?我的错误在哪里?