小编Nig*_* Ng的帖子

NLP反向标记化(从标记到格式良好的句子)

Python的Spacy包有一个统计标记器,可以智能地将一个句子分成标记.我的问题是,是否有一个允许我倒退的包,即从令牌列表到格式良好的句子？基本上,我想要一个允许我执行以下操作的函数:

>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"

Run Code Online (Sandbox Code Playgroud)

它可能需要某种基于统计/规则的程序来了解间距,大写或收缩应如何在正确的句子中起作用.

python nlp spacy

Nig*_* Ng

lucky-day

7
推荐指数

2
解决办法

2438
查看次数

Pyspark 将 RowMatrix 转换为 DataFrame 或 RDD

我有一个方形的 pyspark RowMatrix，如下所示：

>>> row_mat.numRows()
100
>>> row_mat.numCols()
100
>>> row_mat.rows.first()
SparseVector(100, {0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...})

Run Code Online (Sandbox Code Playgroud)

我想运行pyspark.ml.feature.PCA，但它的fit()方法只接受 a DataFrame。有没有办法将其转换RowMatrix为DataFrame？

或者有更好的方法吗？

python apache-spark apache-spark-sql pyspark apache-spark-ml

Nig*_* Ng

lucky-day

4
推荐指数

1
解决办法

2555
查看次数

Keras嵌入层掩蔽.为什么input_dim需要|词汇| + 2？

在Embedding https://keras.io/layers/embeddings/的Keras文档中,给出的解释mask_zero是

mask_zero:输入值0是否是应该被屏蔽掉的特殊"填充"值.当使用可能需要可变长度输入的循环层时,这很有用.如果这是True,则模型中的所有后续层都需要支持屏蔽,否则将引发异常.如果mask_zero设置为True,那么索引0不能在词汇表中使用(input_dim应该等于|词汇| + 2).

为什么input_dim需要2 + +词汇表中的单词数量？假设0被屏蔽并且无法使用,它不应该只是1 +字数吗？另外一个额外条目是什么？

python nlp deep-learning keras keras-layer

Nig*_* Ng

lucky-day

4
推荐指数

1
解决办法

1195
查看次数

Bigquery：在标准SQL中获取星期几/月的第一天

在Bigquery的旧版 SQL中，我可以使用

SELECT DATE((UTC_USEC_TO_WEEK(TIMESTAMP_TO_USEC(TIMESTAMP('2017-04-13 20:58:06 UTC')), 0)))

Run Code Online (Sandbox Code Playgroud)

返回2017-04-09。

BigQuery的标准 SQL中有没有办法做到这一点？似乎没有要任何等价物UTC_USEC_TO_WEEK和UTC_USEC_TO_MONTH。

google-bigquery

Nig*_* Ng

2017 04-13

4
推荐指数

2
解决办法

7158
查看次数

Keras:用矢量连接模型扁平输出

我有一个Keras模型定义如下:

model = Sequential()
model.add(embedding_layer)
model.add(Conv1D(filters=256, kernel_size=3, activation='relu', padding='same'))
model.add(MaxPooling1D(pool_size=3))
model.add(Flatten())
model.add(Dense(num_classes, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam')

Run Code Online (Sandbox Code Playgroud)

在Flatten()图层之后,我想连接2个附加功能,即如果Flatten()给我一个大小为(1,n)(model.output_shape == (None, n))的向量,我想连接一个单独numpy的大小数组(1,2)model.output_shape == (None, n+2).我该怎么做呢？

我认为这keras.layers.merge.Concatenate是我在这里寻找的,但我不知道如何实现它.在线的例子不多,Keras 2.0也使用了更新的语法.任何帮助,将不胜感激.

python numpy deep-learning keras

Nig*_* Ng

2017 03-25

2
推荐指数

1
解决办法

4278
查看次数