小编Mis*_*a S的帖子

提取文本时排除 PDF 文件页面的页眉和页脚内容？

是否可以contents of footers and headers of a page在从中提取文本时从 pdf 文件中排除。因为这些内容是最不重要的并且几乎是多余的。

注意：为了从 .pdf 文件中提取文本，我在 python 版本 = 3.7 上使用 PyPDF2 包。

如何在 PyPDF2 中排除页脚和页眉的内容。任何帮助表示赞赏。

代码片段如下：

import PyPDF2

def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('C:\\Users\\Rocky\\Desktop\\req\\req\\0000 - gamma j.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
           cleanText += myWord …

Run Code Online (Sandbox Code Playgroud)

pdf text nlp pypdf python-3.x

Mis*_*a S

2020 03-04

5
推荐指数

2
解决办法

6989
查看次数

gensim 词嵌入（Word2Vec 和 FastText）模型中的 alpha 值？

我只想知道 alpha 的值在 gensimword2vec和fasttextword-embedding 模型中的作用？我知道 alpha 是initial learning rate，它的默认值是0.075表单 Radim 博客。

如果我将其更改为更高的值，即 0.5 或 0.75 会怎样？它的作用会是什么？是否允许更改相同？但是，我已将其更改为 0.5 并在 D = 200、window = 15、min_count = 5、iter = 10、workers = 4 的大型数据上进行实验，结果对于 word2vec 模型非常有意义。然而，使用 fasttext 模型，结果有点分散，意味着相关性较低和不可预测的高低相似性分数。

为什么对于具有不同精度的两种流行模型，相同数据的结果不精确？的值alpha在模型构建过程中是否起着如此重要的作用？

任何建议表示赞赏。

python-3.x gensim word2vec word-embedding fasttext

Mis*_*a S

2018 12-17

4
推荐指数

1
解决办法

2013
查看次数

根据最大值的长度从python列出的字典中查找项目？

假设我有一个像这样的字典：

dicl = {'amazon': [668, 667, 879], 'flipkart': [678], 'hey': [89,79]}

Run Code Online (Sandbox Code Playgroud)

我想根据项目长度的降序打印字典项目。

我想要的输出：

{'amazon' : 3, 'hey' : 2, 'flipkart' : 1}

Run Code Online (Sandbox Code Playgroud)

但是我按项目的排序顺序获得结果，而我想根据项目的降序显示项目？

我尝试过的

cov_m = {k : len(v) for k, v in sorted(dicl.items())}

Run Code Online (Sandbox Code Playgroud)

电流输出：

{'amazon' : 3, 'flipkart' : 1, 'hey' : 2}

Run Code Online (Sandbox Code Playgroud)

python dictionary list set python-3.x

Mis*_*a S

2019 08-29

3
推荐指数

1
解决办法

84
查看次数

Gensim`most_like`中的弃用警告？

在Python 3.7中实现Word2Vec时，我遇到了与折旧有关的意外情况。我的问题是，word2vec gensim python中关于“ most_like”的折旧警告到底是什么？

目前，我遇到以下问题。

DeprecationWarning：调用已弃用most_similar（方法将在4.0.0中删除，改用self.wv.most_similar（））。model.most_similar（'hamlet'）FutureWarning：不建议将issubdtype的第二个参数从from int转换np.signedinteger为。将来，它将被视为np.int32 == np.dtype(int).type。如果np.issubdtype（vec.dtype，np.int）：

请帮忙解决这个问题？任何帮助表示赞赏。我是python的新手。

我尝试过的代码如下。

import re
from gensim.models import Word2Vec
from nltk.corpus import gutenberg

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   
print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z]+', word)]
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])
model = Word2Vec(sentences=sentences, size = 100, sg = 1, window = 3, min_count = 1, iter …

Run Code Online (Sandbox Code Playgroud)

python python-3.x gensim word2vec

Mis*_*a S

lucky-day

2
推荐指数

1
解决办法

4175
查看次数

计算 2 个不同 Word2Vec 模型中单个单词的余弦相似度

我gensim使用model.save(model_name)两个不同语料库的命令构建了两个词嵌入（word2vec 模型）并将其保存为（word2vec1 和 word2vec2）（这两个语料库有些相似，相似意味着它们像一本书的第 1 部分和第 2 部分一样相关） . 假设，两个语料库的前几个词（就频率或出现次数而言）是同一个词（假设为a）。

cosine-similarity or similarity对于两个 word2vec 模型，如何计算提取的顶级词（例如“a”）的相似度 ( )？是否most_similar()会在这种情况下有效地工作？

我想知道同一个词 (a) 与两个不同的生成模型之间的相似度有多大？

任何想法都深表赞赏。

python-3.x gensim word2vec word-embedding

Mis*_*a S

2018 09-12

1
推荐指数

1
解决办法

2245
查看次数

为嵌套列表的每个元素添加前缀和后缀

假设我有一个列表(列表列表的集合),比如列表定义如下try_list:

  try_list = [['sun', 'Hello' 'star', 'cluster', 'douglas'], 
              ['age', 'estimate', 'scale', 'moon', 'hi'], 
              ['cosmos', 'mystery', 'system', 'graph']]

Run Code Online (Sandbox Code Playgroud)

我想在列表的起点和终点添加一个特殊字符_或#每个单词.

例如,try_list应如下所示:

[['_sun_', '_Hello_', '_star_', '_cluster_', '_douglas_'],
 ['_age_', '_estimate_', '_scale_', '_moon_', '_hi_'],
 ['_cosmos_', '_mystery_', '_system_', '_graph_']]

Run Code Online (Sandbox Code Playgroud)

我所尝试的是为列表顺利工作,如下所示.

try_list = ['sun', 'Hello' 'star', 'cluster', 'douglas', 'age',  'estimate', 'scale', 'moon', 'hi', 'cosmos', 'mystery', 'system', 'graph']
injected_tokens = []
temp = "_"
with open('try_try.txt', 'w', encoding='utf-8') as d2:
   for word in try_list:
       new_list.append(temp+word+temp)
   d2.write(injected_tokens)

Run Code Online (Sandbox Code Playgroud)

上面的代码片段适用于列表而不是列表列表？

如何在列表列表中实现相同的目标？

任何想法都深深感激!

谢谢!

python list python-3.x

Mis*_*a S

2018 12-14

-1
推荐指数

1
解决办法

207
查看次数

如何在python中获取给定输入文件的所有列表的所有标记的长度？

假设我有一个这样的列表(L1):

 L1 = [['1', '0', '0', '0'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '1', '0'], ['1', '0', '0', '0'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['1', '0', '0', '0'],['0', '0', '0', '0']]

Run Code Online (Sandbox Code Playgroud)

如果我使用len(L1),则返回18,这是给定输入的列表总数.

如果我需要计算输入列表的令牌总数怎么办？怎么做到这一点？因为每个列表都有 …

python string file list python-3.x

Mis*_*a S

2018 10-30

-4
推荐指数

1
解决办法

86
查看次数