小编Isb*_*ter的帖子

如何用FastText找到类似的单词？

我正在玩FastText,https: //pypi.python.org/pypi/fasttext 非常相似FastText.因为它似乎是一个非常新的库,但还没有很多内置函数.我想知道如何提取形态相似的词,例如:Word2Vec- >狗.但是没有内置的功能.

如果我输入model.similar_word("dog")I只获得向量,那可能用于比较余弦相似度model["dog"].我是否必须进行某种循环并对model.cosine_similarity(model["dog"], model["dogs"]])文本中所有可能的对进行操作？那需要时间......

python nlp word2vec fasttext

Isb*_*ter

2019 11-12

8
推荐指数

4
解决办法

9368
查看次数

如何在 cloudbuild.yaml 中指定用于云运行的自定义 service.yaml？

我在 Google Cloud Run 服务上部署了一个 docker 容器。它有一个非常基本的cloudbuild.yaml文件，可以从 git 推送到主分支触发。

我希望将云运行机的内存从512MB自动增加到8GB。我知道可以在 Cloud Run UI 中单击“EDIT @\xc2\xa0DEPLOY NEW REVISION”，然后手动选择 8gb。但我希望自动进行此设置。

您可以通过以下方式从 Cloud Run 获取 .yaml：

gcloud run services describe SERVICE --format export > service.yaml\n

Run Code Online (Sandbox Code Playgroud)\n

gcloud run services describe SERVICE --format export > service.yaml\n

Run Code Online (Sandbox Code Playgroud)\n

您可以将当前的 .yaml 半自动替换为：

gcloud run services replace service.yaml

但是，有什么方法可以让实际的 Cloud Build将部署容器映像service.yaml中的自定义加载到 Cloud Run步骤吗？

cloudbuild.yaml

apiVersion: serving.knative.dev/v1\nkind: Service\nmetadata:\n  annotations:\n    client.knative.dev/user-image: \'gcr.io/project/service:ebbe555\'\n    run.googleapis.com/ingress: all\n    run.googleapis.com/ingress-status: all\n …

Run Code Online (Sandbox Code Playgroud)

google-cloud-platform google-cloud-build google-cloud-run cloudbuild.yaml

Isb*_*ter

2022 03-25

6
推荐指数

1
解决办法

6437
查看次数

Project Euler #13 理解（Python）

问题 13：http : //projecteuler.net/problem=13

计算出以下一百个 50 位数字之和的前十位数字。那么，问题总和是 5000 位数字，答案是结果中的前 10 位数字吗？

bignumber = list of the 5000 digits
sum(bignumber) = abcdefghijklmnopqrst...    
answer = abcdefghj

Run Code Online (Sandbox Code Playgroud)

好吧，当我这样做时sum(bignumber) = 22660（甚至不是 10 位数字）...

我误读了这个问题吗？

def foo():
    with open ("bignumber", "r") as myfile:
        data=myfile.read().replace('\n', '')
    data = map(long, data)
    datasum = sum(data)
    return (datasum)

Run Code Online (Sandbox Code Playgroud)

python

Isb*_*ter

2015 01-22

5
推荐指数

1
解决办法

5708
查看次数

如何使用tf-idf对新文档进行分类？

如果我使用TfidfVectorizerfrom sklearn生成特征向量为：

features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)

然后，我将如何生成特征向量以对新文档进行分类？由于您无法为单个文档计算tf-idf。

用以下方法提取特征名称是否正确？

feature_names = TfidfVectorizer.get_feature_names()

然后根据feature_names？计算新文档的术语频率。

但是，那么我将不会获得具有单词重要性信息的权重。

python text-analysis text-mining tf-idf scikit-learn

Isb*_*ter

2018 02-01

5
推荐指数

1
解决办法

2024
查看次数

具有多输入 KerasClassifier 的 Sklearn cross_val_score

目标是对具有多个输入的 Keras 模型执行交叉验证。这对于只有一个输入的正常顺序模型来说效果很好。然而，当使用函数式 api 并扩展到两个输入时，sklearnscross_val_score似乎没有按预期工作。

def create_model():
    input_text = Input(shape=(1,), dtype=tf.string)
    embedding = Lambda(UniversalEmbedding, output_shape=(512, ))(input_text)
    dense = Dense(256, activation='relu')(embedding)

    input_title = Input(shape=(1,), dtype=tf.string)
    embedding_title = Lambda(UniversalEmbedding, output_shape=(512, ))(input_title)
    dense_title = Dense(256, activation='relu')(embedding_title)

    out = Concatenate()([dense, dense_title])

    pred = Dense(2, activation='softmax')(out)
    model = Model(inputs=[input_text, input_title], outputs=pred)
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    return model

Run Code Online (Sandbox Code Playgroud)

失败的部分

keras_classifier = KerasClassifier(build_fn=create_model, epochs=10, batch_size=10, verbose=1)
cv = StratifiedKFold(n_splits=10, random_state=0)
results = cross_val_score(keras_classifier, [X1, X2], y, cv=cv, scoring='f1_weighted')

Run Code Online (Sandbox Code Playgroud)

错误

Traceback (most recent call last):
  File "func.py", …

Run Code Online (Sandbox Code Playgroud)

scikit-learn keras tensorflow

Isb*_*ter

lucky-day

3
推荐指数

1
解决办法

1911
查看次数

All vs All 点积

我有两个 2D numpy 数组，A并且B具有以下维度(row, cols)

A.shape = (3000, 128) 和 B.shape = (5000, 128)

我希望对 A 的每一行和 B 的每一行取点积。例如；

np.dot(A[0], B[0])
np.dot(A[0], B[1]
np.dot(A[0], B[2]
 .   *  .
 .   *  .  
 .   *  .
np.dot(A[0], B[last]) # last row in B
np.dot(A[1], B[0]) # new row in A
np.dot(A[1], B[1])
np.dot(A[1], B[2])
 .   *  .
 .   *  .  
 .   *  .
np.dot(A[last], B[last]) # last operation

Run Code Online (Sandbox Code Playgroud)

此操作是否有特定名称？

现在我有两个 for 循环，我想这很慢。