我想在python中使用wordnet lemmatizer并且我已经知道默认的pos标签是NOUN并且它没有为动词输出正确的引理,除非明确指定了pos标签作为VERB.
我的问题是,准确执行上述词形还原的最佳镜头是什么?
我做了pos标记使用nltk.pos_tag,我迷失了将树库pos标签集成到wordnet兼容的pos标签.请帮忙
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr = WordNetLemmatizer()
tagged = nltk.pos_tag(tokens)
Run Code Online (Sandbox Code Playgroud)
我得到NN,JJ,VB,RB的输出标签.如何将这些更改为wordnet兼容标签?
我还需要nltk.pos_tag()使用带标记的语料库进行训练,还是可以直接在我的数据上进行评估?
R中的"情绪"包已从Cran存储库中删除.什么是其他可以做情感分析的套餐?
例如,我如何使用其他包重写它?
library(sentiment)
# CLASSIFY EMOTIONS
classify_emotion(some_txt,algorithm="bayes",verbose=TRUE)
# classify polarity
class_pol = classify_polarity(some_txt, algorithm="bayes")
Run Code Online (Sandbox Code Playgroud)
这里的文件定义为:
# DEFINE text
some_txt<- c("I am very happy at stack overflow , excited, and optimistic.",
"I am very scared from OP question, annoyed, and irritated.")
Run Code Online (Sandbox Code Playgroud) 我用knn来分类我的数据集.但我不知道如何衡量训练分类器的准确性.scikit是否有任何内置函数来检查knn分类器的准确性?
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(training, train_label)
predicted = knn.predict(testing)
Run Code Online (Sandbox Code Playgroud)
感谢所有的帮助.谢谢
我是R的新手,并没有太多的编程接触.我在将文件(包含JSON对象)加载到R时遇到问题
> library(rjson)
> jsonFile <- "C:\\Users\\jsonRecords.txt"
> jsonData <- fromJSON( jsonFile, method = "C", unexpected.escape = "error" )
Error in fromJSON(jsonFile, method = "C", unexpected.escape = "error") :
unexpected character 'C'
Run Code Online (Sandbox Code Playgroud)
我想将数据读入R进行进一步分析..任何帮助将不胜感激.
谢谢
我有数据,我必须绘制
X = [0,1,2,3,4,5] Y = [6,7,8,9,10,11,12,13,14,15]
X属于class1,所以我希望它们以绿色绘制,Y属于class2,所以我希望它们以蓝色绘制.
我做的是,
import pylab as pl
pl.plot(X,'go')
pl.plot(Y,'bo')
pl.show()
Run Code Online (Sandbox Code Playgroud)
但是这是在Y上绘制X.我想在图表中显示的只是绿色和蓝色的点X和Y.
我怎么能做到这一点?
我需要将JPEG图像转换为矩阵.我想在矩阵上运行SVD.
我曾经用过
library(jpeg)
library(biOps)
myjpg <- readJpeg("Snapshot_1.jpg")
> dim(myjpg)
[1] 398 506 3
Run Code Online (Sandbox Code Playgroud)
我想要以灰度级获得"myjpg"的图像矩阵.有一个R命令可以做到这一点.
谢谢
嗨,如果字符串中存在,我需要一个提取数字和(数字+字母)的正则表达式.
例如:"4596 2B FC JAIN BHAWAN" - >我想要"4596 2B"作为我的输出
> gsub("\\S([a-zA-Z])+\\S", "", "4596 2B FC JAIN BHAWAN")
[1] "4596 2B FC "
Run Code Online (Sandbox Code Playgroud)
我不明白为什么上面的正则表达式没有取代FC"
任何帮助表示赞赏.谢谢
我很难理解下面的代码.它用可用面额的硬币('硬币')计算赚钱金额('n')的方法数量
def change(n, coins_available, coins_so_far):
if sum(coins_so_far) == n:
yield coins_so_far
elif sum(coins_so_far) > n:
pass
elif coins_available == []:
pass
else:
for c in change(n, coins_available[:], coins_so_far+[coins_available[0]]):
yield c
for c in change(n, coins_available[1:], coins_so_far):
yield c
n = 15
coins = [1, 5, 10, 25]
solutions = [s for s in change(n, coins, [])]
for s in solutions:
print s
Run Code Online (Sandbox Code Playgroud)
输出:
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[1, 1, …Run Code Online (Sandbox Code Playgroud) 我是Regex的新手。我有一个正则表达式,可从字符串中删除重复的字符。
>>> self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
>>> self.repl = r'\1\2\3'
Run Code Online (Sandbox Code Playgroud)
上面的两行代码去除了重复的字符。例如,loooooooove转到love。
但是我想更改正则表达式模式,以便仅在重复字符重复3次以上时才替换它。预期产量:
cannot ---> cannot
loooooooove ----> love
Run Code Online (Sandbox Code Playgroud)
我不了解正则表达式r'(\w*)(\w)\2(\w*)' ,r'\1\2\3'
如果以一种易于理解的方式解释上述正则表达式会有所帮助。
html代码:
<td class="_480u">
<div class="clearfix">
<div>
Female
</div>
</div>
</td>
Run Code Online (Sandbox Code Playgroud)
我想要值“女性”作为输出。
我试过了bs.findAll('div',{'class':'clearfix'});bs.findAll('tag',{'class':'_480u'})
但是这些类遍布我的 html 代码,输出是一个很大的列表。我想在我的搜索中加入 {td --> class = ".." 和 div --> class = ".."},这样我就可以得到女性的输出。我怎样才能做到这一点?
谢谢
我有一个清单。我想检查它是否包含一个数字
list1 = [u'Studied at ', u'South City College, Kolkata', u'Class of 2012',
u'Lives in ', u'Calcutta, India', u'From ', u'Calcutta, India']
>>> if re.match(r'[\w-]+$', str(list1)):
print "contains a number"
else:
print "does not contain number"
Run Code Online (Sandbox Code Playgroud)
它不包含任何数字。需要一些帮助。我希望输出为“2012”
我不明白来自库"lubridate"的"ymd"函数如何在R中工作.我正在尝试构建一个能够正确转换日期而无需指定格式的功能.我正在检查由于dmy(),mdy()和ymd()函数而发生的最小NA数.
所以ymd()有时会给出NA,有时不会给出相同的Date值.R中是否有其他功能或包,这将帮助我克服这个问题.
> data$DTTM[1:5]
[1] "4-Sep-06" "27-Oct-06" "8-Jan-07" "28-Jan-07" "5-Jan-07"
> ymd(data$DTTM[1])
[1] NA
Warning message:
All formats failed to parse. No formats found.
> ymd(data$DTTM[2])
[1] "2027-10-06 UTC"
> ymd(data$DTTM[3])
[1] NA
Warning message:
All formats failed to parse. No formats found.
> ymd(data$DTTM[4])
[1] "2028-01-07 UTC"
> ymd(data$DTTM[5])
[1] NA
Warning message:
All formats failed to parse. No formats found.
>
> ymd(data$DTTM[1:5])
[1] "2004-09-06 UTC" "2027-10-06 UTC" "2008-01-07 UTC" "2028-01-07 UTC"
[5] "2005-01-07 UTC"
Run Code Online (Sandbox Code Playgroud)
谢谢
我想在字符串中搜索单个字符,并将它们与字符串中的下一个单词连接起来
例如:
INPUT : "B 123, G BLOCK SUN SHINE APPTS"
OUTPUT : "B123, GBLOCK SUN SHINE APPTS"
Run Code Online (Sandbox Code Playgroud)
我曾尝试使用str_extract从字符串中提取单个字符元素,但发现它只导致模式的第一次出现.
> str_extract("B 123, G BLOCK SUN SHINE APPTS", "[a-zA-Z]{1}")
[1] "B"
Run Code Online (Sandbox Code Playgroud)
对此的任何帮助都会很棒.谢谢
r ×6
python ×5
python-2.7 ×5
regex ×4
datetime ×1
html-parsing ×1
image ×1
jpeg ×1
json ×1
knn ×1
lubridate ×1
matplotlib ×1
matrix ×1
nltk ×1
np ×1
parsing ×1
recursion ×1
scikit-learn ×1
string ×1
wordnet ×1