小编Kal*_*pit的帖子

无法加载glove.6B.300d.txt

我正在尝试使用以下代码加载手套向量

en_model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)

Run Code Online (Sandbox Code Playgroud)

我意外收到以下错误。

 File "/home/k/Desktop/Work/Vector explorer/word2vec-explorer/vec_test_loader.py", line 55, in make_model
en_model = KeyedVectors.load_word2vec_format(model_path, binary=is_bin)
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/keyedvectors.py", line 1119, in load_word2vec_format
limit=limit, datatype=datatype)
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/utils_any2vec.py", line 175, in _load_word2vec_format
vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/utils_any2vec.py", line 175, in <genexpr>
vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format

ValueError: invalid literal for int() with base 10: 'the'

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

word2vec

Kal*_*pit

lucky-day

2
推荐指数

1
解决办法

3448
查看次数

Spacy与Word2Vec中的文档相似性

我有一个约有1.2万个文档的利基语料库，并且我想测试具有相似含义的几乎重复的文档-考虑有关不同新闻机构报道的同一事件的文章。

我尝试过gensim的Word2Vec，即使测试文档在语料库中，它也给我带来极好的相似度得分（<0.3），并且我尝试了SpaCy，它给我> 5k相似度> 0.9的文档。我测试了SpaCy最相似的文档，但是它几乎没有用。

这是相关的代码。

tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=40)
doc = preprocess(query)
vec_bow = dictionary.doc2bow(doc)
vec_lsi_tfidf = lsi[tfidf[vec_bow]] # convert the query to LSI space
index = similarities.Similarity(corpus = corpus, num_features = len(dictionary), output_prefix = "pqr")
sims = index[vec_lsi_tfidf] # perform a similarity query against the corpus
most_similar = sorted(list(enumerate(sims)), key = lambda x:x[1])

for mid in most_similar[-100:]:
    print(mid, file_list[mid[0]])

Run Code Online (Sandbox Code Playgroud)

使用gensim，我发现了一种不错的方法，并进行了一些预处理，但是相似性评分仍然很低。有没有人遇到过这样的问题，是否有一些有用的资源或建议？

nlp python-3.x gensim spacy

Kal*_*pit

2018 04-11

1
推荐指数

1
解决办法

3201
查看次数

通过局域网使用 ffmpeg 进行流式传输？

我正在尝试使用以下命令通过 LAN 流式传输 mpegts 文件

ffmpeg -re -i in.ts -vcodec copy -acodec copy -f mpegts "udp://localhost:5000/live/stream"

Run Code Online (Sandbox Code Playgroud)

并尝试通过 LAN（在服务器）在

ffmpeg  -i udp://192.168.xx.xx:5000/live/stream -c copy -f segment -segment_time 10 -strftime 1 "in /%Y-%m-%d_%H-%M-%S.mp4"

Run Code Online (Sandbox Code Playgroud)

这不起作用。我在 VLC 中测试了流，没有什么可玩的。

现在，我怀疑这是一个端口问题，因为 FFMPEG 似乎没有通过指定的 5000 端口来写/听。我用netstat检查过，端口上没有包括ffmpeg的PID。然而，命令

ffmpeg  -i udp://127.0.0.1:5000/live/stream -c copy -f segment -segment_time 10 -strftime 1 "in/%Y-%m-%d_%H-%M-%S.mp4"

Run Code Online (Sandbox Code Playgroud)

在我的机器（本地主机）上生成所需的输出，ffplay 也是如此。任何人都可以帮忙吗？

ffmpeg ubuntu-16.04

Kal*_*pit

lucky-day

1
推荐指数

1
解决办法

6384
查看次数

标签统计

ffmpeg ×1

gensim ×1

nlp ×1

python-3.x ×1

spacy ×1

ubuntu-16.04 ×1

word2vec ×1

无法加载glove.6B.300d.txt

Spacy与Word2Vec中的文档相似性

通过局域网使用 ffmpeg 进行流式传输？

标签 统计

小编Kal_pit的帖子

标签统计