小编use*_*418的帖子

将文本拆分为段落 NLTK - nltk.tokenize.texttiling 的用法?

我正在研究将文档拆分为段落的方法,并且发现文本平铺是实现此目的的一种可能方法。

这是我使用它的尝试。但是,我不明白如何处理输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)
Run Code Online (Sandbox Code Playgroud)

输出:

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>
Run Code Online (Sandbox Code Playgroud)

python nltk

5
推荐指数
1
解决办法
8232
查看次数

将字边界语法添加到字符串列表中

如果这个问题已经存在,请指点我的帖子.

我怎样才能有效地将字边界语法添加到字符串列表中?

因此,例如,我想确保下面的单词badpositions只与整个单词匹配,所以我想使用re.search('\bword\b', text).

如何获取不良位置的单词以获取表格['\bPresident\b', '\bProvost\b']

text = ['said Duke University President Richard H. Brodhead. "Our faculty look forward']
badpositions = ['President', 'Provost', 'University President', 'Senior Vice President'] 
Run Code Online (Sandbox Code Playgroud)

python regex

3
推荐指数
1
解决办法
384
查看次数

PDF miner - 提取字体大小?

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论,但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式(字体大小、类型等)的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时,我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf
Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution
Run Code Online (Sandbox Code Playgroud)

python pdf fonts

3
推荐指数
2
解决办法
9777
查看次数

Pandas Python:在一个数据框中合并每两行

我如何获得

Idx            A B C
2004-04-01     1 1 0
2004-04-02     1 1 0
2004-05-01     0 0 0
2004-05-02     0 0 0
Run Code Online (Sandbox Code Playgroud)

Idx            A B C
2004-04        2 2 0
2004-05        0 0 0
Run Code Online (Sandbox Code Playgroud)

注意:如何折叠索引(更具体地说,使索引仅转换为月份)和每两行折叠一次?

滚动是最好的方法吗?

更新-我简化了上述版本,但unutbu的答案似乎不起作用

                       Time      A   B
1    2004-01-04 - 2004-01-10     0   0
2    2004-01-11 - 2004-01-17     0   0
3    2004-01-18 - 2004-01-24     0   0
4    2004-01-25 - 2004-01-31     0   0
5    2004-02-01 - 2004-02-07     56  0
6    2004-02-08 - 2004-02-14     67  0
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
2810
查看次数

如何在NLTK中使用混淆矩阵模块?

我使用混淆矩阵跟随NLTK书,但confusionmatrix看起来很奇怪.

#empirically exam where tagger is making mistakes
test_tags = [tag for sent in brown.sents(categories='editorial')
    for (word, tag) in t2.tag(sent)]
gold_tags = [tag for (word, tag) in brown.tagged_words(categories='editorial')]
print nltk.ConfusionMatrix(gold_tags, test_tags)
Run Code Online (Sandbox Code Playgroud)

任何人都可以解释如何使用混淆矩阵?

python nlp nltk

3
推荐指数
1
解决办法
4630
查看次数

使用pandas web.DataReader从整个索引(例如,DJIA)中抓取数据

我知道如何获得个股.我如何获得整个索引的数据,比如DJI? https://www.google.com/finance?q=INDEXDJX%3A.DJI&ei=zsVZU4iADYKI6AGoXA

我想尽可能地从整体上分析股市

start, end = dt.datetime(1950, 1, 1), dt.datetime(2013, 12, 31)

data = web.DataReader('.DJI', 'yahoo', start, end)
Run Code Online (Sandbox Code Playgroud)

python finance pandas quandl

2
推荐指数
1
解决办法
6847
查看次数

Python Regex Word Boundaries没有按预期工作

为什么字边界不起作用?

阅读这个网站,我知道一个单词边界是这样的:

有三种不同的职位符合词边界:

  • 在字符串中的第一个字符之前,如果第一个字符是单词字符.
  • 在字符串中的最后一个字符之后,如果最后一个字符是单词字符.
  • 在字符串中的两个字符之间,其中一个是单词字符,另一个不是单词字符.

a下面的字符串似乎符合上面列出的至少一个位置.

a = 'Builders Club The Ohio State'
re.sub('\bThe\b', '', a, flags=re.IGNORECASE)
Run Code Online (Sandbox Code Playgroud)

输出."The"没有变化.

'Builders Club The Ohio State'
Run Code Online (Sandbox Code Playgroud)

为什么字边界不起作用?

当我在'The'模式之前和之后放置空格时,正则表达式似乎有效.

a = 'Builders Club The Ohio State'
re.sub(' The ', ' ', a, flags=re.IGNORECASE)
Run Code Online (Sandbox Code Playgroud)

输出:

'Builders Club Ohio State'
Run Code Online (Sandbox Code Playgroud)

python regex

2
推荐指数
1
解决办法
1372
查看次数

带有网络分析 networkx 的子图

我一直在研究其他 networkx 绘图帖子,但我一直很难让它们适应我的问题。

1) 如何使用网络图创建子图,而无需预先定义要绘制的对象数量?该函数动态地获取它。

2)有没有一种简单的方法来过滤网络图,例如只限制那些权重超过 2 的边?还是我必须编辑网络对象本身才能这样做?

更新 #2:我想出了一种按程度过滤的方法(见下文)。我更普遍地想知道是否有更好的方法使我的网络数据更易于理解?

nol 的格式为 [ [Year, networkobject], [Year, networkobject]]

def standardgraph_multiyear(nol, minimumdegree):
"""
Plots multiple graphs based on year
nol = takes in a LIST of [year, network object]
minimum = takes in a digit to filter nodes by degree
"""

#Each iteration prints a new subplot 
numrows = len(nol)
fig = plt.figure(figsize=(10,60))    
for i, val in enumerate(nol):
    gloc = numrows,1,i+1
    plt.subplot(numrows, 1, i+1)

    if minimumdegree > 0:
        outdeg = val[1].degree() …
Run Code Online (Sandbox Code Playgroud)

python networking matplotlib networkx

1
推荐指数
1
解决办法
5906
查看次数

内嵌图像的背景位置等价物

我不能使用背景图片,因为我在 CSS 中使用了 Django 变量。

我看着这些 图像位置相当于背景位置CSS 背景位置 50% 50% 不起作用(这里的建议答案使用background-position,我只想使用<img>标签)。

我想将它复制到一个<img>标签中。一切看起来都不错,除了background-position: 50% 50%。它的等价物是什么?

.main-header {
  min-height: 40%; 
  background: url('../img/parallax11.jpeg') no-repeat center;
  background-size: cover;
  text-align: center;
  background-position: 50% 50%;
}
Run Code Online (Sandbox Code Playgroud)

到目前为止,这已经奏效:

.cover-img {
  display: flex;
  min-height: 30%;
  overflow: hidden;
  height:30vh;
  width: 100vw;
  object-fit: cover;
}
Run Code Online (Sandbox Code Playgroud)

html css

1
推荐指数
1
解决办法
1558
查看次数

Str.replace('\\','')不适用于反斜杠

我想删除反斜杠,我读过你可以使用的

Str.replace('\\', '') 
Run Code Online (Sandbox Code Playgroud)

我也试过了

re.sub(r'\\', '',text)
Run Code Online (Sandbox Code Playgroud)

但是两者都不适合我.我想知道是否有人可以帮助我找出问题所在.

text = ['with General Atlantic, Newman\'s Own Foundation, The Pershing Square Foundation, Rockefeller Philanthropy Advisors, and Echoing Green announced a three-year partnership which will invest']
text.replace('\\','')
Run Code Online (Sandbox Code Playgroud)

我仍然得到'纽曼自己的基金会'

澄清:我试图用连续的单词来获得单词,其中首字母大写,如专有名词.反斜杠将这个正则表达式从捕获纽曼自己的东西中搞砸了.所以似乎删除反斜杠不是最好的主意?R'\ B(?

当我在ipython笔记本中打印文本时,我得到了反斜杠

python string

0
推荐指数
1
解决办法
536
查看次数

查找用于股票回测python的参数的最佳组合

给定一组5-6个参数,我很好奇该怎么做。在找到最大的价值增长时评估结果。

由于我拥有的参数数量,组合的数量似乎巨大。但是我的选择仅仅是使用for循环吗?

在此分配中,我一直在构建网格搜索策略(仅使用for循环),但还有更多变量。

http://nbviewer.ipython.org/github/cs109/content/blob/master/HW3.ipynb

python finance

0
推荐指数
1
解决办法
872
查看次数

关系提取的NLTK示例不起作用

我已经阅读了nltk书的部分内容,直到关于提取关系的这一部分.有人可以帮助我理解为什么下面的代码不起作用?似乎没有方法show_raw_rtuple()

IN = re.compile(r'.*\bin\b(?!\b.+ing)')
for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):
    for rel in nltk.sem.extract_rels('ORG', 'LOC', doc,
                                    corpus='ieer', pattern = IN):
        print nltk.sem.show_raw_rtuple(rel)
Run Code Online (Sandbox Code Playgroud)

python nltk

0
推荐指数
1
解决办法
1281
查看次数

标签 统计

python ×11

nltk ×3

finance ×2

pandas ×2

regex ×2

css ×1

fonts ×1

html ×1

matplotlib ×1

networking ×1

networkx ×1

nlp ×1

pdf ×1

quandl ×1

string ×1