小编Mis*_*a S的帖子

提取文本时排除 PDF 文件页面的页眉和页脚内容?

是否可以contents of footers and headers of a page在从中提取文本时从 pdf 文件中排除 。因为这些内容是最不重要的并且几乎是多余的。

注意:为了从 .pdf 文件中提取文本,我在 python 版本 = 3.7 上使用 PyPDF2 包。

如何在 PyPDF2 中排除页脚和页眉的内容。任何帮助表示赞赏。

代码片段如下:

import PyPDF2

def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('C:\\Users\\Rocky\\Desktop\\req\\req\\0000 - gamma j.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
           cleanText += myWord …
Run Code Online (Sandbox Code Playgroud)

pdf text nlp pypdf python-3.x

5
推荐指数
2
解决办法
6989
查看次数

gensim 词嵌入(Word2Vec 和 FastText)模型中的 alpha 值?

我只想知道 alpha 的值在 gensimword2vecfasttextword-embedding 模型中的作用?我知道 alpha 是initial learning rate,它的默认值是0.075表单 Radim 博客。

如果我将其更改为更高的值,即 0.5 或 0.75 会怎样?它的作用会是什么?是否允许更改相同?但是,我已将其更改为 0.5 并在 D = 200、window = 15、min_count = 5、iter = 10、workers = 4 的大型数据上进行实验,结果对于 word2vec 模型非常有意义。然而,使用 fasttext 模型,结果有点分散,意味着相关性较低和不可预测的高低相似性分数。

为什么对于具有不同精度的两种流行模型,相同数据的结果不精确?的值alpha在模型构建过程中是否起着如此重要的作用?

任何建议表示赞赏。

python-3.x gensim word2vec word-embedding fasttext

4
推荐指数
1
解决办法
2013
查看次数

根据最大值的长度从python列出的字典中查找项目?

假设我有一个像这样的字典:

dicl = {'amazon': [668, 667, 879], 'flipkart': [678], 'hey': [89,79]}
Run Code Online (Sandbox Code Playgroud)

我想根据项目长度的降序打印字典项目。

我想要的输出:

{'amazon' : 3, 'hey' : 2, 'flipkart' : 1}
Run Code Online (Sandbox Code Playgroud)

但是我按项目的排序顺序获得结果,而我想根据项目的降序显示项目?

我尝试过的

cov_m = {k : len(v) for k, v in sorted(dicl.items())}
Run Code Online (Sandbox Code Playgroud)

电流输出:

{'amazon' : 3, 'flipkart' : 1, 'hey' : 2}
Run Code Online (Sandbox Code Playgroud)

python dictionary list set python-3.x

3
推荐指数
1
解决办法
84
查看次数

Gensim`most_like`中的弃用警告?

在Python 3.7中实现Word2Vec时,我遇到了与折旧有关的意外情况。我的问题是,word2vec gensim python中关于“ most_like”的折旧警告到底是什么?

目前,我遇到以下问题。

DeprecationWarning:调用已弃用most_similar(方法将在4.0.0中删除,改用self.wv.most_similar())。model.most_similar('hamlet')FutureWarning:不建议将issubdtype的第二个参数从from int转换np.signedinteger为。将来,它将被视为np.int32 == np.dtype(int).type。如果np.issubdtype(vec.dtype,np.int):

请帮忙解决这个问题?任何帮助表示赞赏。我是python的新手。

我尝试过的代码如下。

import re
from gensim.models import Word2Vec
from nltk.corpus import gutenberg

sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   
print('Type of corpus: ', type(sentences))
print('Length of corpus: ', len(sentences))

for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-zA-Z]+', word)]
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])
model = Word2Vec(sentences=sentences, size = 100, sg = 1, window = 3, min_count = 1, iter …
Run Code Online (Sandbox Code Playgroud)

python python-3.x gensim word2vec

2
推荐指数
1
解决办法
4175
查看次数

计算 2 个不同 Word2Vec 模型中单个单词的余弦相似度

gensim使用model.save(model_name)两个不同语料库的命令构建了两个词嵌入(word2vec 模型)并将其保存为(word2vec1 和 word2vec2)(这两个语料库有些相似,相似意味着它们像一本书的第 1 部分和第 2 部分一样相关) . 假设,两个语料库的前几个词(就频率或出现次数而言)是同一个词(假设为a)。

cosine-similarity or similarity对于两个 word2vec 模型,如何计算提取的顶级词(例如“a”)的相似度 ( )?是否most_similar()会在这种情况下有效地工作?

我想知道同一个词 (a) 与两个不同的生成模型之间的相似度有多大?

任何想法都深表赞赏。

python-3.x gensim word2vec word-embedding

1
推荐指数
1
解决办法
2245
查看次数

为嵌套列表的每个元素添加前缀和后缀

假设我有一个列表(列表列表的集合),比如列表定义如下try_list:

  try_list = [['sun', 'Hello' 'star', 'cluster', 'douglas'], 
              ['age', 'estimate', 'scale', 'moon', 'hi'], 
              ['cosmos', 'mystery', 'system', 'graph']]
Run Code Online (Sandbox Code Playgroud)

我想在列表的起点和终点添加一个特殊字符_#每个单词.

例如,try_list应如下所示:

[['_sun_', '_Hello_', '_star_', '_cluster_', '_douglas_'],
 ['_age_', '_estimate_', '_scale_', '_moon_', '_hi_'],
 ['_cosmos_', '_mystery_', '_system_', '_graph_']]
Run Code Online (Sandbox Code Playgroud)

我所尝试的是为列表顺利工作,如下所示.

try_list = ['sun', 'Hello' 'star', 'cluster', 'douglas', 'age',  'estimate', 'scale', 'moon', 'hi', 'cosmos', 'mystery', 'system', 'graph']
injected_tokens = []
temp = "_"
with open('try_try.txt', 'w', encoding='utf-8') as d2:
   for word in try_list:
       new_list.append(temp+word+temp)
   d2.write(injected_tokens)
Run Code Online (Sandbox Code Playgroud)

上面的代码片段适用于列表而不是列表列表

如何在列表列表中实现相同的目标?

任何想法都深深感激!

谢谢!

python list python-3.x

-1
推荐指数
1
解决办法
207
查看次数

如何在python中获取给定输入文件的所有列表的所有标记的长度?

假设我有一个这样的列表(L1):

 L1 = [['1', '0', '0', '0'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '1', '0'], ['1', '0', '0', '0'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['0', '0', '0', '1'], ['1', '0', '0', '0'], ['1', '0', '0', '0'],['0', '0', '0', '0']]
Run Code Online (Sandbox Code Playgroud)

如果我使用len(L1),则返回18,这是给定输入的列表总数.

如果我需要计算输入列表的令牌总数怎么办?怎么做到这一点?因为每个列表都有 …

python string file list python-3.x

-4
推荐指数
1
解决办法
86
查看次数

标签 统计

python-3.x ×7

python ×4

gensim ×3

list ×3

word2vec ×3

word-embedding ×2

dictionary ×1

fasttext ×1

file ×1

nlp ×1

pdf ×1

pypdf ×1

set ×1

string ×1

text ×1