小编use*_*418的帖子

将文本拆分为段落 NLTK - nltk.tokenize.texttiling 的用法？

我正在研究将文档拆分为段落的方法，并且发现文本平铺是实现此目的的一种可能方法。

这是我使用它的尝试。但是，我不明白如何处理输出。我很感激你的帮助。

t = unidecode(doclist[0].decode('utf-8','ignore'))

nltk.tokenize.texttiling.TextTilingTokenizer(t)

Run Code Online (Sandbox Code Playgroud)

输出：

<nltk.tokenize.texttiling.TextTilingTokenizer at 0x11e9c6350>

Run Code Online (Sandbox Code Playgroud)

python nltk

use*_*418

2017 01-18

5
推荐指数

1
解决办法

8232
查看次数

将字边界语法添加到字符串列表中

如果这个问题已经存在,请指点我的帖子.

我怎样才能有效地将字边界语法添加到字符串列表中？

因此,例如,我想确保下面的单词badpositions只与整个单词匹配,所以我想使用re.search('\bword\b', text).

如何获取不良位置的单词以获取表格['\bPresident\b', '\bProvost\b']等

text = ['said Duke University President Richard H. Brodhead. "Our faculty look forward']
badpositions = ['President', 'Provost', 'University President', 'Senior Vice President']

Run Code Online (Sandbox Code Playgroud)

python regex

use*_*418

2014 02-19

3
推荐指数

1
解决办法

384
查看次数

PDF miner - 提取字体大小？

我很好奇是否可以使用 pdfminer 来提取字体大小。我认为这将有助于分离不同的部分。我知道下面有讨论，但我很好奇是否可以使用 pdfminer

从 PDF 中提取关于格式（字体大小、类型等）的文本

pdfminer 文档说这是可能的http://www.unixuser.org/~euske/python/pdfminer/

但是当我在命令行中输入 he following 时，我只得到一个纯文本文档。我没有看到任何字体信息。

pdf2txt.py -o output.html samples/CentolaCV.pdf

Run Code Online (Sandbox Code Playgroud)

例如..

2008-13  Assistant Professor, Sloan School of Management, M.I.T.  

2006-08   Robert Wood Johnson Scholar in Health Policy, Harvard University 

2001-02   Visiting Scholar, The Brookings Institution

Run Code Online (Sandbox Code Playgroud)

python pdf fonts

use*_*418

2017 05-23

3
推荐指数

2
解决办法

9777
查看次数

Pandas Python：在一个数据框中合并每两行

我如何获得

Idx            A B C
2004-04-01     1 1 0
2004-04-02     1 1 0
2004-05-01     0 0 0
2004-05-02     0 0 0

Run Code Online (Sandbox Code Playgroud)

至

Idx            A B C
2004-04        2 2 0
2004-05        0 0 0

Run Code Online (Sandbox Code Playgroud)

注意：如何折叠索引（更具体地说，使索引仅转换为月份）和每两行折叠一次？

滚动是最好的方法吗？

更新-我简化了上述版本，但unutbu的答案似乎不起作用

                       Time      A   B
1    2004-01-04 - 2004-01-10     0   0
2    2004-01-11 - 2004-01-17     0   0
3    2004-01-18 - 2004-01-24     0   0
4    2004-01-25 - 2004-01-31     0   0
5    2004-02-01 - 2004-02-07     56  0
6    2004-02-08 - 2004-02-14     67  0

Run Code Online (Sandbox Code Playgroud)

python pandas

use*_*418

2014 04-25

3
推荐指数

1
解决办法

2810
查看次数

如何在NLTK中使用混淆矩阵模块？

我使用混淆矩阵跟随NLTK书,但confusionmatrix看起来很奇怪.

#empirically exam where tagger is making mistakes
test_tags = [tag for sent in brown.sents(categories='editorial')
    for (word, tag) in t2.tag(sent)]
gold_tags = [tag for (word, tag) in brown.tagged_words(categories='editorial')]
print nltk.ConfusionMatrix(gold_tags, test_tags)

Run Code Online (Sandbox Code Playgroud)

任何人都可以解释如何使用混淆矩阵？

python nlp nltk

use*_*418

2016 08-25

3
推荐指数

1
解决办法

4630
查看次数

使用pandas web.DataReader从整个索引(例如,DJIA)中抓取数据

我知道如何获得个股.我如何获得整个索引的数据,比如DJI？ https://www.google.com/finance?q=INDEXDJX%3A.DJI&ei=zsVZU4iADYKI6AGoXA

我想尽可能地从整体上分析股市

start, end = dt.datetime(1950, 1, 1), dt.datetime(2013, 12, 31)

data = web.DataReader('.DJI', 'yahoo', start, end)

Run Code Online (Sandbox Code Playgroud)

python finance pandas quandl

use*_*418

2015 10-15

2
推荐指数

1
解决办法

6847
查看次数

Python Regex Word Boundaries没有按预期工作

为什么字边界不起作用？

阅读这个网站,我知道一个单词边界是这样的:

有三种不同的职位符合词边界:

在字符串中的第一个字符之前,如果第一个字符是单词字符.
在字符串中的最后一个字符之后,如果最后一个字符是单词字符.
在字符串中的两个字符之间,其中一个是单词字符,另一个不是单词字符.

a下面的字符串似乎符合上面列出的至少一个位置.

a = 'Builders Club The Ohio State'
re.sub('\bThe\b', '', a, flags=re.IGNORECASE)

Run Code Online (Sandbox Code Playgroud)

输出."The"没有变化.

'Builders Club The Ohio State'

Run Code Online (Sandbox Code Playgroud)

为什么字边界不起作用？

当我在'The'模式之前和之后放置空格时,正则表达式似乎有效.

a = 'Builders Club The Ohio State'
re.sub(' The ', ' ', a, flags=re.IGNORECASE)

Run Code Online (Sandbox Code Playgroud)

输出:

'Builders Club Ohio State'

Run Code Online (Sandbox Code Playgroud)

python regex

use*_*418

2014 07-16

2
推荐指数

1
解决办法

1372
查看次数

带有网络分析 networkx 的子图

我一直在研究其他 networkx 绘图帖子，但我一直很难让它们适应我的问题。

1) 如何使用网络图创建子图，而无需预先定义要绘制的对象数量？该函数动态地获取它。

2）有没有一种简单的方法来过滤网络图，例如只限制那些权重超过 2 的边？还是我必须编辑网络对象本身才能这样做？

更新 #2：我想出了一种按程度过滤的方法（见下文）。我更普遍地想知道是否有更好的方法使我的网络数据更易于理解？

nol 的格式为 [ [Year, networkobject], [Year, networkobject]]

def standardgraph_multiyear(nol, minimumdegree):
"""
Plots multiple graphs based on year
nol = takes in a LIST of [year, network object]
minimum = takes in a digit to filter nodes by degree
"""

#Each iteration prints a new subplot 
numrows = len(nol)
fig = plt.figure(figsize=(10,60))    
for i, val in enumerate(nol):
    gloc = numrows,1,i+1
    plt.subplot(numrows, 1, i+1)

    if minimumdegree > 0:
        outdeg = val[1].degree() …

Run Code Online (Sandbox Code Playgroud)

python networking matplotlib networkx

use*_*418

2014 02-21

1
推荐指数

1
解决办法

5906
查看次数

内嵌图像的背景位置等价物

我不能使用背景图片，因为我在 CSS 中使用了 Django 变量。

我看着这些图像位置相当于背景位置和 CSS 背景位置 50% 50% 不起作用（这里的建议答案使用background-position，我只想使用<img>标签）。

我想将它复制到一个<img>标签中。一切看起来都不错，除了background-position: 50% 50%。它的等价物是什么？

.main-header {
  min-height: 40%; 
  background: url('../img/parallax11.jpeg') no-repeat center;
  background-size: cover;
  text-align: center;
  background-position: 50% 50%;
}

Run Code Online (Sandbox Code Playgroud)

到目前为止，这已经奏效：

.cover-img {
  display: flex;
  min-height: 30%;
  overflow: hidden;
  height:30vh;
  width: 100vw;
  object-fit: cover;
}

Run Code Online (Sandbox Code Playgroud)

html css

use*_*418

2017 05-23

1
推荐指数

1
解决办法

1558
查看次数

Str.replace('\\','')不适用于反斜杠

我想删除反斜杠,我读过你可以使用的

Str.replace('\\', '')

Run Code Online (Sandbox Code Playgroud)

我也试过了

re.sub(r'\\', '',text)

Run Code Online (Sandbox Code Playgroud)

但是两者都不适合我.我想知道是否有人可以帮助我找出问题所在.

text = ['with General Atlantic, Newman\'s Own Foundation, The Pershing Square Foundation, Rockefeller Philanthropy Advisors, and Echoing Green announced a three-year partnership which will invest']
text.replace('\\','')

Run Code Online (Sandbox Code Playgroud)

我仍然得到'纽曼自己的基金会'

澄清:我试图用连续的单词来获得单词,其中首字母大写,如专有名词.反斜杠将这个正则表达式从捕获纽曼自己的东西中搞砸了.所以似乎删除反斜杠不是最好的主意？R'\ B(？

当我在ipython笔记本中打印文本时,我得到了反斜杠

python string

use*_*418

2014 02-19

0
推荐指数

1
解决办法

536
查看次数

查找用于股票回测python的参数的最佳组合

给定一组5-6个参数，我很好奇该怎么做。在找到最大的价值增长时评估结果。

由于我拥有的参数数量，组合的数量似乎巨大。但是我的选择仅仅是使用for循环吗？

在此分配中，我一直在构建网格搜索策略（仅使用for循环），但还有更多变量。

http://nbviewer.ipython.org/github/cs109/content/blob/master/HW3.ipynb

python finance

use*_*418

lucky-day

0
推荐指数

1
解决办法

872
查看次数

关系提取的NLTK示例不起作用

我已经阅读了nltk书的部分内容,直到关于提取关系的这一部分.有人可以帮助我理解为什么下面的代码不起作用？似乎没有方法show_raw_rtuple()

IN = re.compile(r'.*\bin\b(?!\b.+ing)')
for doc in nltk.corpus.ieer.parsed_docs('NYT_19980315'):
    for rel in nltk.sem.extract_rels('ORG', 'LOC', doc,
                                    corpus='ieer', pattern = IN):
        print nltk.sem.show_raw_rtuple(rel)

Run Code Online (Sandbox Code Playgroud)

python nltk

use*_*418

lucky-day

0
推荐指数

1
解决办法

1281
查看次数