我完全了解单词嵌入(skip-gram,CBOW)的含义和方法.我知道,谷歌有一个word2vector API,通过获取单词可以生成向量.但我的问题是这样的:我们有一个条款,包括主题,对象,动词......每个单词以前都是由Google API嵌入的,现在是"我们如何将这些向量组合在一起创建一个等于条款?" 例子:条款:V ="狗咬人"在谷歌嵌入后,我们有V1,V2,V3,每个人都映射到狗,咬人,男人.我们知道:V = V1 + V2 + V3我们如何提供V?如果你通过一个真实载体的例子来解释它,我将不胜感激.
nlp information-retrieval google-api-python-client word2vec word-embedding
我用 Python 将数据集量化为 10 个级别,如下所示:
9 9 1 8 9 1
1 9 3 6 1 0
8 3 8 4 4 1
0 2 1 9 9 0
Run Code Online (Sandbox Code Playgroud)
这意味着分量 (9 9 1 8 9) 属于类别 1。我想找到每个特征(列)的熵。我写了下面的代码,但有很多错误:
import pandas as pd
import math
f = open ( 'data1.txt' , 'r')
# Finding the probability
df = pd.DataFrame(pd.read_csv(f, sep='\t', header=None, names=['val1',
'val2', 'val3', 'val4','val5', 'val6', 'val7', 'val8']))
df.loc[:,"val1":"val5"] = df.loc[:,"val1":"val5"].div(df.sum(axis=0),
axis=1)
# Calculating Entropy
def shannon(col):
entropy = - sum([ p …Run Code Online (Sandbox Code Playgroud)