小编use*_*217的帖子

python中的wordnet词形还原和pos标记

我想在python中使用wordnet lemmatizer并且我已经知道默认的pos标签是NOUN并且它没有为动词输出正确的引理,除非明确指定了pos标签作为VERB.

我的问题是,准确执行上述词形还原的最佳镜头是什么？

我做了pos标记使用nltk.pos_tag,我迷失了将树库pos标签集成到wordnet兼容的pos标签.请帮忙

from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)

Run Code Online (Sandbox Code Playgroud)

我得到NN,JJ,VB,RB的输出标签.如何将这些更改为wordnet兼容标签？

我还需要nltk.pos_tag()使用带标记的语料库进行训练,还是可以直接在我的数据上进行评估？

python nltk wordnet lemmatization

use*_*217

lucky-day

53
推荐指数

5
解决办法

5万
查看次数

除了"情绪"之外还有其他任何一个包来做R中的情感分析吗？

R中的"情绪"包已从Cran存储库中删除.什么是其他可以做情感分析的套餐？

例如,我如何使用其他包重写它？

 library(sentiment)
# CLASSIFY EMOTIONS
classify_emotion(some_txt,algorithm="bayes",verbose=TRUE)
# classify polarity
class_pol = classify_polarity(some_txt, algorithm="bayes")

Run Code Online (Sandbox Code Playgroud)

这里的文件定义为:

# DEFINE text
some_txt<- c("I am very happy at stack overflow , excited, and optimistic.",
                "I am very scared from OP question, annoyed, and irritated.")

Run Code Online (Sandbox Code Playgroud)

r sentiment-analysis

use*_*217

2016 01-06

9
推荐指数

1
解决办法

2万
查看次数

如何测量python中knn分类器的准确性

我用knn来分类我的数据集.但我不知道如何衡量训练分类器的准确性.scikit是否有任何内置函数来检查knn分类器的准确性？

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(training, train_label)    
predicted = knn.predict(testing)

Run Code Online (Sandbox Code Playgroud)

感谢所有的帮助.谢谢

python machine-learning knn python-2.7 scikit-learn

use*_*217

2013 04-05

7
推荐指数

3
解决办法

1万
查看次数

如何将JSON对象(在文件中)中的数据读入R？

我是R的新手,并没有太多的编程接触.我在将文件(包含JSON对象)加载到R时遇到问题

> library(rjson)
> jsonFile <- "C:\\Users\\jsonRecords.txt"
> jsonData <- fromJSON( jsonFile, method = "C", unexpected.escape = "error" )
Error in fromJSON(jsonFile, method = "C", unexpected.escape = "error") : 
  unexpected character 'C'

Run Code Online (Sandbox Code Playgroud)

我想将数据读入R进行进一步分析..任何帮助将不胜感激.

谢谢

json r

use*_*217

2013 02-26

5
推荐指数

2
解决办法

1万
查看次数

使用pylab在python中绘制数据点

在此输入图像描述我有数据,我必须绘制

X = [0,1,2,3,4,5] Y = [6,7,8,9,10,11,12,13,14,15]

X属于class1,所以我希望它们以绿色绘制,Y属于class2,所以我希望它们以蓝色绘制.

我做的是,

import pylab as pl
pl.plot(X,'go')
pl.plot(Y,'bo')
pl.show()

Run Code Online (Sandbox Code Playgroud)

但是这是在Y上绘制X.我想在图表中显示的只是绿色和蓝色的点X和Y.

我怎么能做到这一点？

matplotlib python-2.7

use*_*217

2013 04-07

5
推荐指数

1
解决办法

2万
查看次数

如何将JPEG转换为R中的图像矩阵

我需要将JPEG图像转换为矩阵.我想在矩阵上运行SVD.

我曾经用过

library(jpeg)
library(biOps)
myjpg <- readJpeg("Snapshot_1.jpg")
> dim(myjpg)
[1] 398 506   3

Run Code Online (Sandbox Code Playgroud)

我想要以灰度级获得"myjpg"的图像矩阵.有一个R命令可以做到这一点.

谢谢

jpeg r image matrix

use*_*217

lucky-day

4
推荐指数

1
解决办法

7527
查看次数

正则表达式,用于仅提取R中字符串中的字母和数字

嗨,如果字符串中存在,我需要一个提取数字和(数字+字母)的正则表达式.

例如:"4596 2B FC JAIN BHAWAN" - >我想要"4596 2B"作为我的输出

> gsub("\\S([a-zA-Z])+\\S", "", "4596 2B FC JAIN BHAWAN")
[1] "4596 2B FC  "

Run Code Online (Sandbox Code Playgroud)

我不明白为什么上面的正则表达式没有取代FC"

任何帮助表示赞赏.谢谢

regex r

use*_*217

lucky-day

2
推荐指数

1
解决办法

878
查看次数

无法理解代码段的流程

我很难理解下面的代码.它用可用面额的硬币('硬币')计算赚钱金额('n')的方法数量

def change(n, coins_available, coins_so_far):
    if sum(coins_so_far) == n:
        yield coins_so_far
    elif sum(coins_so_far) > n:
        pass
    elif coins_available == []:
        pass
    else:
        for c in change(n, coins_available[:], coins_so_far+[coins_available[0]]):
            yield c
        for c in change(n, coins_available[1:], coins_so_far):
            yield c

n = 15
coins = [1, 5, 10, 25]

solutions = [s for s in change(n, coins, [])]
for s in solutions:
    print s

Run Code Online (Sandbox Code Playgroud)

输出:

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[1, 1, …

Run Code Online (Sandbox Code Playgroud)

python recursion dynamic-programming np

use*_*217

2015 09-15

2
推荐指数

1
解决办法

80
查看次数

正则表达式，用于在Python中重复字符串中的字符

我是Regex的新手。我有一个正则表达式，可从字符串中删除重复的字符。

>>> self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
>>> self.repl = r'\1\2\3'

Run Code Online (Sandbox Code Playgroud)

上面的两行代码去除了重复的字符。例如，loooooooove转到love。

但是我想更改正则表达式模式，以便仅在重复字符重复3次以上时才替换它。预期产量：

cannot  ---> cannot
loooooooove ----> love

Run Code Online (Sandbox Code Playgroud)

我不了解正则表达式r'(\w*)(\w)\2(\w*)' ，r'\1\2\3' 如果以一种易于理解的方式解释上述正则表达式会有所帮助。

regex python-2.7

use*_*217

2013 03-21

1
推荐指数

1
解决办法

4502
查看次数

如何使用没有类的 BeautifulSoup 提取值

html代码：

<td class="_480u">
    <div class="clearfix">
        <div>
            Female
        </div>
    </div>
</td>

Run Code Online (Sandbox Code Playgroud)

我想要值“女性”作为输出。

我试过了bs.findAll('div',{'class':'clearfix'})；bs.findAll('tag',{'class':'_480u'}) 但是这些类遍布我的 html 代码，输出是一个很大的列表。我想在我的搜索中加入 {td --> class = ".." 和 div --> class = ".."}，这样我就可以得到女性的输出。我怎样才能做到这一点？

谢谢

python parsing beautifulsoup html-parsing python-2.7

use*_*217

lucky-day

1
推荐指数

1
解决办法

2296
查看次数

正则表达式检查字符串中是否存在数字

我有一个清单。我想检查它是否包含一个数字

list1 = [u'Studied at ', u'South City College, Kolkata', u'Class of 2012',
u'Lives in   ', u'Calcutta, India', u'From ', u'Calcutta, India']
>>> if re.match(r'[\w-]+$', str(list1)):
    print "contains a number"
else:
    print "does not contain number"

Run Code Online (Sandbox Code Playgroud)

它不包含任何数字。需要一些帮助。我希望输出为“2012”

python regex python-2.7

use*_*217

2013 09-04

1
推荐指数

1
解决办法

3092
查看次数

没有指定格式的日期转换

我不明白来自库"lubridate"的"ymd"函数如何在R中工作.我正在尝试构建一个能够正确转换日期而无需指定格式的功能.我正在检查由于dmy(),mdy()和ymd()函数而发生的最小NA数.

所以ymd()有时会给出NA,有时不会给出相同的Date值.R中是否有其他功能或包,这将帮助我克服这个问题.

> data$DTTM[1:5]
[1] "4-Sep-06"  "27-Oct-06" "8-Jan-07"  "28-Jan-07" "5-Jan-07" 

> ymd(data$DTTM[1])
[1] NA
Warning message:
All formats failed to parse. No formats found. 
> ymd(data$DTTM[2])
[1] "2027-10-06 UTC"
> ymd(data$DTTM[3])
[1] NA
Warning message:
All formats failed to parse. No formats found. 
> ymd(data$DTTM[4])
[1] "2028-01-07 UTC"
> ymd(data$DTTM[5])
[1] NA
Warning message:
All formats failed to parse. No formats found. 
> 

> ymd(data$DTTM[1:5])
[1] "2004-09-06 UTC" "2027-10-06 UTC" "2008-01-07 UTC" "2028-01-07 UTC"
[5] "2005-01-07 UTC"

Run Code Online (Sandbox Code Playgroud)

谢谢

datetime r date-conversion lubridate

use*_*217

2014 04-11

1
推荐指数

1
解决办法

2万
查看次数

跟踪R中字符串中的单个字符

我想在字符串中搜索单个字符,并将它们与字符串中的下一个单词连接起来

例如:

INPUT :  "B 123, G BLOCK SUN SHINE APPTS"
OUTPUT : "B123, GBLOCK SUN SHINE APPTS"

Run Code Online (Sandbox Code Playgroud)

我曾尝试使用str_extract从字符串中提取单个字符元素,但发现它只导致模式的第一次出现.

> str_extract("B 123, G BLOCK SUN SHINE APPTS", "[a-zA-Z]{1}")
[1] "B"

Run Code Online (Sandbox Code Playgroud)

对此的任何帮助都会很棒.谢谢

regex string r

use*_*217

lucky-day

1
推荐指数

1
解决办法

67
查看次数

标签统计

r ×6

python ×5

python-2.7 ×5

regex ×4

beautifulsoup ×1

date-conversion ×1

datetime ×1

dynamic-programming ×1

html-parsing ×1

image ×1

jpeg ×1

json ×1

knn ×1

lemmatization ×1

lubridate ×1

machine-learning ×1

matplotlib ×1

matrix ×1

nltk ×1

np ×1

parsing ×1

recursion ×1

scikit-learn ×1

sentiment-analysis ×1

string ×1

wordnet ×1

标签 统计

小编use_217的帖子

标签统计