小编Isb*_*ter的帖子

如何用FastText找到类似的单词?

我正在玩FastText,https: //pypi.python.org/pypi/fasttext 非常相似FastText.因为它似乎是一个非常新的库,但还没有很多内置函数.我想知道如何提取形态相似的词,例如:Word2Vec- >狗.但是没有内置的功能.

如果我输入model.similar_word("dog")I只获得向量,那可能用于比较余弦相似度model["dog"].我是否必须进行某种循环并对model.cosine_similarity(model["dog"], model["dogs"]])文本中所有可能的对进行操作?那需要时间......

python nlp word2vec fasttext

8
推荐指数
4
解决办法
9368
查看次数

如何在 cloudbuild.yaml 中指定用于云运行的自定义 service.yaml?

我在 Google Cloud Run 服务上部署了一个 docker 容器。它有一个非常基本的cloudbuild.yaml文件,可以从 git 推送到主分支触发。

\n

我希望将云运行机的内存从512MB自动增加到8GB。我知道可以在 Cloud Run UI 中单击“EDIT @\xc2\xa0DEPLOY NEW REVISION”,然后手动选择 8gb。但我希望自动进行此设置。

\n

您可以通过以下方式从 Cloud Run 获取 .yaml:

\n
gcloud run services describe SERVICE --format export > service.yaml\n
Run Code Online (Sandbox Code Playgroud)\n
gcloud run services describe SERVICE --format export > service.yaml\n
Run Code Online (Sandbox Code Playgroud)\n

您可以将当前的 .yaml 半自动替换为:

\n

gcloud run services replace service.yaml

\n

但是,有什么方法可以让实际的 Cloud Build将部署容器映像service.yaml中的自定义加载到 Cloud Run步骤吗?

\n

cloudbuild.yaml

\n
apiVersion: serving.knative.dev/v1\nkind: Service\nmetadata:\n  annotations:\n    client.knative.dev/user-image: \'gcr.io/project/service:ebbe555\'\n    run.googleapis.com/ingress: all\n    run.googleapis.com/ingress-status: all\n …
Run Code Online (Sandbox Code Playgroud)

google-cloud-platform google-cloud-build google-cloud-run cloudbuild.yaml

6
推荐指数
1
解决办法
6437
查看次数

Project Euler #13 理解(Python)

问题 13:http : //projecteuler.net/problem=13

计算出以下一百个 50 位数字之和的前十位数字。那么,问题总和是 5000 位数字,答案是结果中的前 10 位数字吗?

bignumber = list of the 5000 digits
sum(bignumber) = abcdefghijklmnopqrst...    
answer = abcdefghj
Run Code Online (Sandbox Code Playgroud)

好吧,当我这样做时sum(bignumber) = 22660(甚至不是 10 位数字)...

我误读了这个问题吗?

def foo():
    with open ("bignumber", "r") as myfile:
        data=myfile.read().replace('\n', '')
    data = map(long, data)
    datasum = sum(data)
    return (datasum)
Run Code Online (Sandbox Code Playgroud)

python

5
推荐指数
1
解决办法
5708
查看次数

如何使用tf-idf对新文档进行分类?

如果我使用TfidfVectorizerfrom sklearn生成特征向量为:

features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)

然后,我将如何生成特征向量以对新文档进行分类?由于您无法为单个文档计算tf-idf。

用以下方法提取特征名称是否正确?

feature_names = TfidfVectorizer.get_feature_names()

然后根据feature_names?计算新文档的术语频率。

但是,那么我将不会获得具有单词重要性信息的权重。

python text-analysis text-mining tf-idf scikit-learn

5
推荐指数
1
解决办法
2024
查看次数

具有多输入 KerasClassifier 的 Sklearn cross_val_score

目标是对具有多个输入的 Keras 模型执行交叉验证。这对于只有一个输入的正常顺序模型来说效果很好。然而,当使用函数式 api 并扩展到两个输入时,sklearnscross_val_score似乎没有按预期工作。

def create_model():
    input_text = Input(shape=(1,), dtype=tf.string)
    embedding = Lambda(UniversalEmbedding, output_shape=(512, ))(input_text)
    dense = Dense(256, activation='relu')(embedding)

    input_title = Input(shape=(1,), dtype=tf.string)
    embedding_title = Lambda(UniversalEmbedding, output_shape=(512, ))(input_title)
    dense_title = Dense(256, activation='relu')(embedding_title)

    out = Concatenate()([dense, dense_title])

    pred = Dense(2, activation='softmax')(out)
    model = Model(inputs=[input_text, input_title], outputs=pred)
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    return model
Run Code Online (Sandbox Code Playgroud)

失败的部分

keras_classifier = KerasClassifier(build_fn=create_model, epochs=10, batch_size=10, verbose=1)
cv = StratifiedKFold(n_splits=10, random_state=0)
results = cross_val_score(keras_classifier, [X1, X2], y, cv=cv, scoring='f1_weighted')
Run Code Online (Sandbox Code Playgroud)

错误

Traceback (most recent call last):
  File "func.py", …
Run Code Online (Sandbox Code Playgroud)

scikit-learn keras tensorflow

3
推荐指数
1
解决办法
1911
查看次数

All vs All 点积

我有两个 2D numpy 数组,A并且B具有以下维度(row, cols)

A.shape = (3000, 128)B.shape = (5000, 128)

我希望对 A 的每一行和 B 的每一行取点积。例如;

np.dot(A[0], B[0])
np.dot(A[0], B[1]
np.dot(A[0], B[2]
 .   *  .
 .   *  .  
 .   *  .
np.dot(A[0], B[last]) # last row in B
np.dot(A[1], B[0]) # new row in A
np.dot(A[1], B[1])
np.dot(A[1], B[2])
 .   *  .
 .   *  .  
 .   *  .
np.dot(A[last], B[last]) # last operation
Run Code Online (Sandbox Code Playgroud)

此操作是否有特定名称?

现在我有两个 for 循环,我想这很慢。

all_dots = []
for i …
Run Code Online (Sandbox Code Playgroud)

python arrays numpy linear-algebra

2
推荐指数
1
解决办法
129
查看次数