我有一个Python脚本导入一个大的CSV文件,然后计算文件中每个单词的出现次数,然后将计数导出到另一个CSV文件.
但正在发生的事情是,一旦计数部分完成并且出口开始,它就会Killed
在终点中说明.
我不认为这是一个内存问题(如果我认为我会得到内存错误而不是Killed
).
难道这个过程花了太长时间?如果是这样,有没有办法延长超时时间,所以我可以避免这种情况?
这是代码:
csv.field_size_limit(sys.maxsize)
counter={}
with open("/home/alex/Documents/version2/cooccur_list.csv",'rb') as file_name:
reader=csv.reader(file_name)
for row in reader:
if len(row)>1:
pair=row[0]+' '+row[1]
if pair in counter:
counter[pair]+=1
else:
counter[pair]=1
print 'finished counting'
writer = csv.writer(open('/home/alex/Documents/version2/dict.csv', 'wb'))
for key, value in counter.items():
writer.writerow([key, value])
Run Code Online (Sandbox Code Playgroud)
而且Killed
发生后finished counting
已打印,以及完整的信息是:
killed (program exited with code: 137)
Run Code Online (Sandbox Code Playgroud) 我正在使用pyplot.bar,但我正在绘制很多点,以至于条形图的颜色始终是黑色的.这是因为酒吧的边框是黑色的,而且它们中的很多都被挤压在一起,所以你看到的就是边框(黑色).有没有办法删除条形边框,以便我可以看到预期的颜色?
也许这更像是一个样式问题,而不是技术问题,但我有一个带有几个成员变量的python类,我想让它工作,以便在用户首次创建类的实例时初始化一些成员变量(即在__init__
函数中)我希望从稍后将调用的成员函数的参数定义其他成员变量.所以我的问题是我应该初始化函数中的所有成员变量__init__
(并将稍后定义的变量设置为虚拟值)或者在__init__
函数中初始化一些变量,在稍后的函数中初始化一些变量.我意识到这可能很难理解,所以这里有几个例子.
此示例var3
最初在__init__
函数中设置为0 ,然后在my_funct函数中设置为所需的值.
class myClass(object):
def __init__(self,var1,var2):
self.var1=var1
self.var2=var2
self.var3=0
def my_funct(self,var3):
self.var3=var3
Run Code Online (Sandbox Code Playgroud)
并且在此示例中,var3
没有在所限定的所有__init__
功能
class myClass(object):
def __init__(self,var1,var2):
self.var1=var1
self.var2=var2
def my_funct(self,var3):
self.var3=var3
Run Code Online (Sandbox Code Playgroud)
我认为任何一种方式都不会产生很大的不同(可能是内存使用量略有不同).但我想知道其中一个是否因为某些原因而优先于另一个.
我使用'twitter'宝石的Ruby脚本出错了.我的脚本中产生错误的部分是
require 'twitter'
require 'net/http'
require 'json'
#### Get your twitter keys & secrets:
#### https://dev.twitter.com/docs/auth/tokens-devtwittercom
Twitter.configure do |config|
config.consumer_key = 'xxxxxxx'
config.consumer_secret = 'xxxxxxx'
config.oauth_token = 'xxxxxx'
config.oauth_token_secret = 'xxxxxxx'
end
Run Code Online (Sandbox Code Playgroud)
错误说undefined method 'configure' for Twitter:Module (NoMethodError)
然而'twitter'和'json'宝石都在我的gemfile中,所以我不确定为什么这个方法是未定义的.
我是Scala的新手,我正在尝试使用ScalaTest.我把它的依赖包含在我的build.sbt文件中
libraryDependencies++=Seq(
"org.scalatest" % "scalatest_2.11" % "2.1.7" % "test"
)
和刷新sbt现在它出现在我的外部库文件夹中,所以我认为它已正确安装.现在我想做一个测试课.所以我在src/test/scala下创建了一个.我使用了ScalaTest网站首页的例子
import collection.mutable.Stack
import org.scalatest._
class ExampleSpec extends FlatSpec with Matchers {
"A Stack" should "pop values in last-in-first-out order" in {
val stack = new Stack[Int]
stack.push(1)
stack.push(2)
stack.pop() should be (2)
stack.pop() should be (1)
}
it should "throw NoSuchElementException if an empty stack is popped" in {
val emptyStack = new Stack[Int]
a [NoSuchElementException] should be thrownBy {
emptyStack.pop()
}
}
}
Run Code Online (Sandbox Code Playgroud)
但是,当我运行这个类时,我得到了错误
Error:scalac: bad …
Run Code Online (Sandbox Code Playgroud) 我正在尝试将python变量插入到python脚本中的MySQL表中,但它无法正常工作.这是我的代码
add_results=("INSERT INTO account_cancel_predictions"
"(account_id,21_day_probability,flagged)"
"Values(%(account_id)s,%(21_day_probability)s,%(flagged)s)")
data_result={
'account_id':result[1,0],
'21_day_probability':result[1,1],
'flagged':result[1,2]
}
cursor.execute(add_results,data_result)
cnx.commit()
cursor.close()
cnx.close()
Run Code Online (Sandbox Code Playgroud)
这会得到错误
ProgrammingError: Failed processing pyformat-parameters; 'MySQLConverter' object has no attribute '_float64_to_mysql'
Run Code Online (Sandbox Code Playgroud)
但是,当我替换变量名称result[1,0]
时result[1,1]
,以及result[1,2]
它们的实际数值它确实有效.我怀疑python传递的是实际的变量名而不是它们持有的值.我该如何解决?
我使用的是Stanford CRFClassifier,为了运行,它需要一个训练有素的分类器模型.我把这个文件放在资源目录中.来自CRFClassifier的Javadocs http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/ie/crf/CRFClassifier.html#getClassifier(java.lang.String) 文件的路径必须是CRFClassifier.getClassifier()的输入,它是一个java.lang.String对象.所以我的问题是如何告诉.getClassifier()该文件在资源目录中?即如何获取资源目录中文件的文件路径?
我试过简单
val classifier = CRFClassifier.getClassifier("./src/main/resources/my_model.ser.gz")
Run Code Online (Sandbox Code Playgroud)
但是这会返回FileNotFoundException.
我也试过了
Source.fromURL(getClass.getResource("/my_model.ser.gz"))
Run Code Online (Sandbox Code Playgroud)
它返回一个BufferedSource对象,但我不知道如何从中获取文件路径.
任何帮助将不胜感激.
我正在使用Twitter的Tweepy搜索功能,出于某种原因搜索结果限制为15.这是我的代码
results=api.search(q="Football",rpp=1000)
for result in results:
print "%s" %(clNormalizeString(result.text))
print len(results)
Run Code Online (Sandbox Code Playgroud)
只返回15个结果.它与不同的结果页面有什么关系吗?
我有一个时间序列示例的数据集.我想计算各种时间序列示例之间的相似性,但是我不想考虑因缩放而产生的差异(即我想看看时间序列形状的相似性,而不是它们的绝对值).因此,为此,我需要一种规范化数据的方法.也就是说,使所有时间序列示例落在某个区域之间,例如[0,100].任何人都可以告诉我如何在python中完成此操作
我试图使用这里找到的一些Ruby代码.
在它的代码中:
require 'net/http'
Run Code Online (Sandbox Code Playgroud)
但是,当我写在终端时:
sudo gem install net/http
Run Code Online (Sandbox Code Playgroud)
它给出了错误:
ERROR: Could not find a valid gem 'net/http' (>= 0) in any repository
Run Code Online (Sandbox Code Playgroud)
有人能告诉我如何安装这个宝石吗?
python ×6
ruby ×2
scala ×2
twitter ×2
border ×1
dependencies ×1
filepath ×1
gem ×1
graph ×1
insert ×1
io ×1
kill ×1
matplotlib ×1
mysql ×1
oop ×1
search ×1
stanford-nlp ×1
testing ×1
time-series ×1
tweepy ×1