小编Kal*_*pit的帖子

无法加载glove.6B.300d.txt

我正在尝试使用以下代码加载手套向量

en_model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)
Run Code Online (Sandbox Code Playgroud)

我意外收到以下错误。

 File "/home/k/Desktop/Work/Vector explorer/word2vec-explorer/vec_test_loader.py", line 55, in make_model
en_model = KeyedVectors.load_word2vec_format(model_path, binary=is_bin)
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/keyedvectors.py", line 1119, in load_word2vec_format
limit=limit, datatype=datatype)
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/utils_any2vec.py", line 175, in _load_word2vec_format
vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format
 File "/home/k/.local/lib/python3.5/site-packages/gensim/models/utils_any2vec.py", line 175, in <genexpr>
vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format

ValueError: invalid literal for int() with base 10: 'the'
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

word2vec

2
推荐指数
1
解决办法
3448
查看次数

Spacy与Word2Vec中的文档相似性

我有一个约有1.2万个文档的利基语料库,并且我想测试具有相似含义的几乎重复的文档-考虑有关不同新闻机构报道的同一事件的文章。

我尝试过gensim的Word2Vec,即使测试文档语料库中,它也给我带来极好的相似度得分(<0.3),并且我尝试了SpaCy,它给我> 5k相似度> 0.9的文档。我测试了SpaCy最相似的文档,但是它几乎没有用。

这是相关的代码。

tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=40)
doc = preprocess(query)
vec_bow = dictionary.doc2bow(doc)
vec_lsi_tfidf = lsi[tfidf[vec_bow]] # convert the query to LSI space
index = similarities.Similarity(corpus = corpus, num_features = len(dictionary), output_prefix = "pqr")
sims = index[vec_lsi_tfidf] # perform a similarity query against the corpus
most_similar = sorted(list(enumerate(sims)), key = lambda x:x[1])

for mid in most_similar[-100:]:
    print(mid, file_list[mid[0]])
Run Code Online (Sandbox Code Playgroud)

使用gensim,我发现了一种不错的方法,并进行了一些预处理,但是相似性评分仍然很低。有没有人遇到过这样的问题,是否有一些有用的资源或建议?

nlp python-3.x gensim spacy

1
推荐指数
1
解决办法
3201
查看次数

通过局域网使用 ffmpeg 进行流式传输?

我正在尝试使用以下命令通过 LAN 流式传输 mpegts 文件

ffmpeg -re -i in.ts -vcodec copy -acodec copy -f mpegts "udp://localhost:5000/live/stream"
Run Code Online (Sandbox Code Playgroud)

并尝试通过 LAN(在服务器)在

ffmpeg  -i udp://192.168.xx.xx:5000/live/stream -c copy -f segment -segment_time 10 -strftime 1 "in /%Y-%m-%d_%H-%M-%S.mp4"
Run Code Online (Sandbox Code Playgroud)

这不起作用。我在 VLC 中测试了流,没有什么可玩的。

现在,我怀疑这是一个端口问题,因为 FFMPEG 似乎没有通过指定的 5000 端口来写/听。我用netstat检查过,端口上没有包括ffmpeg的PID。然而,命令

ffmpeg  -i udp://127.0.0.1:5000/live/stream -c copy -f segment -segment_time 10 -strftime 1 "in/%Y-%m-%d_%H-%M-%S.mp4"
Run Code Online (Sandbox Code Playgroud)

在我的机器(本地主机)上生成所需的输出,ffplay 也是如此。任何人都可以帮忙吗?

ffmpeg ubuntu-16.04

1
推荐指数
1
解决办法
6384
查看次数

标签 统计

ffmpeg ×1

gensim ×1

nlp ×1

python-3.x ×1

spacy ×1

ubuntu-16.04 ×1

word2vec ×1