小编Uri*_*ren的帖子

在python中识别纯函数

我有一个装饰器@pure,将其注册为纯函数,例如:

@pure
def rectangle_area(a,b):
    return a*b


@pure
def triangle_area(a,b,c):
    return ((a+(b+c))(c-(a-b))(c+(a-b))(a+(b-c)))**0.5/4
Run Code Online (Sandbox Code Playgroud)

接下来,我要确定一个新定义的纯函数

def house_area(a,b,c):
    return rectangle_area(a,b) + triangle_area(a,b,c)
Run Code Online (Sandbox Code Playgroud)

显然house_area是纯函数,因为它仅调用纯函数。

如何自动发现所有纯函数(也许使用ast

python abstract-syntax-tree purely-functional

5
推荐指数
1
解决办法
369
查看次数

识别句子的主语

我一直在探索 NLP 技术,目的是确定调查评论的主题(然后将其与情感分析结合使用)。我想要发表高水平的声明,例如“10% 的调查受访者对客户经理做出了积极评价(+情绪)”。

\n\n

我的方法使用了命名实体识别(NER)。现在,我正在处理真实的数据,我开始了解与识别句子主语相关的一些复杂性和细微差别。以下是主语为客户经理的 5 个句子示例。出于演示目的,我已将命名实体以粗体显示。

\n\n
    \n
  1. 我们的客户经理很棒,他总是加倍努力!
  2. \n
  3. 我们的客户经理史蒂夫很棒,他总是加倍努力!
  4. \n
  5. 我们的客户关系经理史蒂夫很棒,他总是加倍努力!
  6. \n
  7. 史蒂文很棒,他总是加倍努力!
  8. \n
  9. 史蒂夫史密斯很棒,他总是加倍努力!
  10. \n
  11. 我们的业务经理。太棒了,他总是加倍努力!
  12. \n
\n\n

我发现三个挑战增加了我的任务的复杂性

\n\n
    \n
  1. 同义词:客户经理、客户关系经理、业务经理。这在某种程度上是特定领域的,并且往往会随着调查目标受众的不同而变化。
  2. \n
  3. 缩写:Mgr。对阵经理
  4. \n
  5. 歧义 - \xe2\x80\x9cSteven\xe2\x80\x9d 是否为 \xe2\x80\x9cSteve Smith\xe2\x80\x9d & 因此是\n\xe2\x80\x9caccount manager\xe2\x80\x9d。
  6. \n
\n\n

其中同义词问题是最常见的问题,其次是歧义问题。根据我所看到的,缩写问题在我的数据中并不常见。

\n\n

是否有任何 NLP 技术可以帮助以相对较高的置信度处理这些问题?

\n

python nlp text-analysis

5
推荐指数
1
解决办法
1180
查看次数

与pymc3和信念的线性回归

我试图掌握Bayesain统计数据 pymc3

我运行此代码进行简单的线性回归

#Generating data y=a+bx
import pymc3
import numpy as np
N=1000
alpha,beta, sigma = 2.0, 0.5, 1.0
np.random.seed(47)
X = np.linspace(0, 1, N)
Y = alpha + beta*X + np.random.randn(N)*sigma

#Fitting
linear_model = pymc3.Model()
with linear_model:
    alpha = pymc3.Normal('alpha', mu=0, sd=10)
    beta = pymc3.Normal('beta', mu=0, sd=10)
    sigma = pymc3.HalfNormal('sigma', sd=1)
    mu = alpha + beta*X
    Y_obs = pymc3.Normal('Y_obs', mu=mu, sd=sigma, observed=Y)

    start = pymc3.find_MAP(fmin=optimize.fmin_powell)
    step = pymc3.NUTS(scaling=start)
    trace = pymc3.sample(500, step, start=start)
Run Code Online (Sandbox Code Playgroud)

我不明白跟踪代表什么

如果我理解的贝叶斯理论不够好,有应该是一个belief即得功能alpha, …

python bayesian pymc3

4
推荐指数
1
解决办法
502
查看次数

在窗口分类上使用Tensorflow时嵌入向量未更新

我试图用tensorflow实现一个基于窗口的分类器,

单词嵌入矩阵被调用word_vec并随机初始化(我也试过Xavier).

并且ind变量是来自矩阵的词向量的索引的向量.

第一层是config['window_size'](5)连接的单词向量.

word_vecs = tf.Variable(tf.random_uniform([len(words), config['embed_size']], -1.0, 1.0),dtype=tf.float32)
ind = tf.placeholder(tf.int32,  [None, config['window_size']])
x = tf.concat(1,tf.unpack(tf.nn.embedding_lookup(word_vecs, ind),axis=1))
W0 = tf.Variable(tf.random_uniform([config['window_size']*config['embed_size'], config['hidden_layer']]))
b0 = tf.Variable(tf.zeros([config['hidden_layer']]))
W1 = tf.Variable(tf.random_uniform([config['hidden_layer'], out_layer]))
b1 = tf.Variable(tf.zeros([out_layer]))
y0 = tf.nn.tanh(tf.matmul(x, W0) + b0)
y1 = tf.nn.softmax(tf.matmul(y0, W1) + b1)
y_ = tf.placeholder(tf.float32, [None, out_layer])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y1), reduction_indices=[1]))
train_step = tf.train.AdamOptimizer(0.5).minimize(cross_entropy)
Run Code Online (Sandbox Code Playgroud)

这就是我运行图表的方式:

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(config['iterations'] ):
    r = …
Run Code Online (Sandbox Code Playgroud)

python deep-learning tensorflow

3
推荐指数
1
解决办法
568
查看次数

Hadoop流式传输"超出GC开销限制"

我正在运行此命令:

hadoop jar hadoop-streaming.jar -D stream.tmpdir=/tmp -input "<input dir>"  -output "<output dir>" -mapper "grep 20151026" -reducer "wc -l"
Run Code Online (Sandbox Code Playgroud)

哪个<input dir>目录有很多avro文件.

并收到此错误:

线程"main"中的异常java.lang.OutOfMemoryError:在org.apache.hadoop.hdfs.protocol.DatanodeID上的org.apache.hadoop.hdfs.protocol.DatanodeID.updateXferAddrAndInvalidateHashCode(DatanodeID.java:287)中超出了GC开销限制. (DatanodeID.java:91)在org.apache.hadoop.hdfs.protocol.DatanodeInfo.(DatanodeInfo.java:136)在org.apache.hadoop.hdfs.protocol.DatanodeInfo.(DatanodeInfo.java:122)在有机apache.hadoop.hdfs.protocolPB.PBHelper.convert在org.apache.hadoop.hdfs.protocolPB(PBHelper.java:633)在org.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:793). PBHelper.convertLocatedBlock(PBHelper.java:1252)在org.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1270)在org.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java: 1413)在org.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1524)在org.apache.hadoop.hdfs.protocolPB.PBHelper.convert(PBHelper.java:1533)在org.apache.hadoop .hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getL 在sun.reflect.GeneratedMethodAccessor3.invoke(未知来源)的sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java: 601)atg.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:187)位于com.sun.proxy的org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)位于org.apache.hadoop.hdfs.DFSClient.listPaths(DFSClient.java:1969)的org.apache.hadoop.hdfs.DistributedFileSystem $ DirListingIterator.hasNextNoFilter(DistributedFileSystem.java:888)处的$ Proxy15.getListing(未知来源)at org.apache.hadoop.hdfs.DistributedFileSystem $ DirListingIterator.hasNext(DistributedFileSystem.java:863)位于org.apache.hadoop.mapred.FileInputFormat的org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:267). org.apache.hadoop.mapred.FileIn中的listStatus(FileInputFormat.java:228)org.apache.hadoop.mapreduce.JobSubmitter.writeOldSplits(JobSubmitter.java:624)的putFormat.getSplits(FileInputFormat.java:313)org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:616)at org .apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:492)在org.apache.hadoop.mapreduce.Job $ 10.run(Job.java:1296)在org.apache.hadoop.mapreduce.Job $ 10.run (Job.java:1293)位于javax.security.auth.Subject.doAs的java.security.AccessController.doPrivileged(Native Method)(Subject.java:415)

如何解决这个问题?

hadoop out-of-memory hadoop-streaming

2
推荐指数
1
解决办法
3852
查看次数

限制 Spark 上下文中的记录数量

我想减少每个减速器的记录数量,并将结果变量保留为rdd

使用takeSample似乎是显而易见的选择,但是,它返回一个collection而不是一个SparkContext对象。

我想出了这个方法:

rdd = rdd.zipWithIndex().filter(lambda x:x[1]<limit).map(lambda x:x[0])
Run Code Online (Sandbox Code Playgroud)

然而,这种方法非常慢并且效率不高。

有没有更聪明的方法来获取小样本并保持数据结构rdd

python hadoop apache-spark rdd pyspark

2
推荐指数
1
解决办法
9883
查看次数

elm的编译与Java检查的异常有何不同?

elm零运行时例外的主张是其主要卖点之一(见官方网站),

但是,如果你停下来思考它,没有什么可以阻止你除以零或耗尽内存.

什么elm编译器基本上没有,强迫你以涵盖所有可能的路径,可导致异常.

例如:

import String exposing (toInt)
toIntOrZero s = case toInt s of
                          Err e -> 0
                          Ok val -> val
Run Code Online (Sandbox Code Playgroud)

但这与臭名昭着的 "检查例外"功能java有何不同?

public static Integer toIntOrZero(String s) {
    try { return Integer.valueOf(s); }
    catch (NumberFormatException e) { return 0; }
}
Run Code Online (Sandbox Code Playgroud)

我从来没有听说过任何java零运行时异常语言.

java checked-exceptions elm

2
推荐指数
1
解决办法
142
查看次数

在php中将字符串数组转换为整数数组

我有一个数组:

$TaxIds=array(2) { [0]=> string(1) "5" [1]=> string(2) "10" } 
Run Code Online (Sandbox Code Playgroud)

我需要转换为:

$TaxIds=array(2) { [0]=> int(5) [1]=> int(10) } 
Run Code Online (Sandbox Code Playgroud)

简单的方法???

php arrays

1
推荐指数
2
解决办法
1800
查看次数

URL上的PHP str_replace

我想从给定的URL中删除"&start = 2".这是我试过的:

$uri = "http://test.com/test/?q=Marketing&start=2";

$newuri = str_replace("&start=","",$url);

echo $newuri;
Run Code Online (Sandbox Code Playgroud)

php

0
推荐指数
1
解决办法
4609
查看次数

webRTC 上的音频/语音

我正在尝试使用webRTCphp 作为服务器端实现单向语音传输。

查看样本,我无法理解其webRTC机制。

在我看来,流程应该是这样的:

  1. 呼叫者和接收者在服务器上注册
  2. 接收方监听来电
  3. 呼叫者向服务器询问接收者的 IP
  4. 服务器将 IP 发送给呼叫者
  5. 来电者直接连接到接收者

但是示例代码,(在本地机器上运行)

function call() {
  trace('Starting call');
  var servers = null;
  var pcConstraints = {
    'optional': []
  };
  pc1 = new RTCPeerConnection(servers, pcConstraints);
  trace('Created local peer connection object pc1');
  pc1.onicecandidate = iceCallback1;
  pc2 = new RTCPeerConnection(servers, pcConstraints);
  trace('Created remote peer connection object pc2');
  pc2.onicecandidate = iceCallback2;
  pc2.onaddstream = gotRemoteStream;
  trace('Requesting local stream');
  navigator.mediaDevices.getUserMedia({
    audio: true,
    video: false
  })
  .then(gotStream)
  .catch(function(e) { …
Run Code Online (Sandbox Code Playgroud)

javascript audio webrtc

0
推荐指数
1
解决办法
792
查看次数

在`array_map`中使用时,Php函数抛出"未定义的常量"

我得到了一个

注意:使用未定义的常量ord - 假设'ord'

在线

array_map(ord,str_split($string))
Run Code Online (Sandbox Code Playgroud)

这是令人惊讶的,因为ord是一个PHP功能

如果我要将呼叫重写为:

array_map(function ($x) {return ord($x);},str_split($string))
Run Code Online (Sandbox Code Playgroud)

代码无需任何警告/通知即可运行

知道为什么会这样吗?

php

-3
推荐指数
1
解决办法
625
查看次数