假设我有这样的事情:
set.seed(0)
the.df <- data.frame( x=rep(letters[1:3], each=4),
n=rep(0:3, 3),
val=round(runif(12)))
the.df
x n val
1 a 0 1
2 a 1 0
3 a 2 0
4 a 3 1
5 b 0 1
6 b 1 0
7 b 2 1
8 b 3 1
9 c 0 1
10 c 1 1
11 c 2 0
12 c 3 0
Run Code Online (Sandbox Code Playgroud)
在每个内部x,从n==2(从小到大)开始,val如果前一个val(按照n)为0 ,我想设置为0; 否则,保持原样.
例如,在子集中x=="b",我首先忽略n<2 …
我有一堆PDF文档,所有这些文档都包含我要删除的标题页.
有没有办法以编程方式删除它们?
我找到的大多数PDF实用程序只能合并文档,但不能删除页面.在打印对话框中,我可以选择第2页,然后打印到文件,但我找不到以编程方式访问此功能的任何方法.
我想匹配字符串中的url
u1 = "Check this out http://www.cnn.com/stuff lol"
u2 = "see http://www.cnn.com/stuff2"
u3 = "http://www.espn.com/stuff3 is interesting"
Run Code Online (Sandbox Code Playgroud)
像下面这样的东西,但它很麻烦,因为我必须重复整个模式
re.findall("[^ ]*.cnn.[^ ]*|[^ ]*.espn.[^ ]*", u1)
Run Code Online (Sandbox Code Playgroud)
特别是,在我的真实代码中,我想匹配更多的网站.理想情况下,我可以做类似的事情
re.findall("[^ ]*.cnn|espn.[^ ]*", u1)
Run Code Online (Sandbox Code Playgroud)
但当然它现在不起作用,因为我没有正确指定网站名称.怎么能做得更好?谢谢.
如何根据Mac/Python下的"系统偏好设置"中的"节能设置"检查屏幕是否已关闭?
我mytest.py在工作目录中有一个文件,内容如下:
class MyTest(object):
def __init__(self):
print(1)
pass
Run Code Online (Sandbox Code Playgroud)
在jupyter我有这些细胞。
单元格1:
%reload_ext autoreload
%autoreload 2
import mytest
Run Code Online (Sandbox Code Playgroud)
单元格2:
x = mytest.MyTest()
Run Code Online (Sandbox Code Playgroud)
如果我从一个新的内核开始,那么它将按预期工作,并且给了我1。现在,如果我进入mytest.py将打印输出更改为2并重新运行Cell 2,我将得到:
1
[autoreload of mytest failed: Traceback (most recent call last):
File "/Users/myusername/anaconda/lib/python3.5/site-packages/IPython/extensions/autoreload.py", line 247, in check
superreload(m, reload, self.old_objects)
NameError: name 'reload' is not defined
]
[autoreload of mytest failed: Traceback (most recent call last):
File "/Users/myusername/anaconda/lib/python3.5/site-packages/IPython/extensions/autoreload.py", line 247, in check
superreload(m, reload, self.old_objects)
NameError: name 'reload' is not defined
] …Run Code Online (Sandbox Code Playgroud) 我希望能够(在我的bash脚本中)检查我是否有特定服务的有效未过期票。如果我这样做klist,我可以手动获取这些信息,但是以编程方式解析到期时间、服务主体等需要一些工作。有没有更简单的方法来做到这一点?谢谢。
为什么我不能使用来匹配Pandas系列中的字符串in?在以下示例中,第一个评估意外导致False,但是第二个评估有效。
df = pd.DataFrame({'name': [ 'Adam', 'Ben', 'Chris' ]})
'Adam' in df['name']
'Adam' in list(df['name'])
Run Code Online (Sandbox Code Playgroud) 是否可以设置 Jupyter,以便每当单元完成运行时它就会自动执行一些代码?
我的一些代码需要运行很长时间,并且必须经常回来检查代码是否完成,这是相当不方便的。我可以在每个单元格的末尾手动添加一些通知代码,但如果我可以简单地将这些代码放在 sayjupyter_application_config.py或中custom.js,并让 jupyter 自动调用它,那就容易多了。
如果可以进行设置,以便在单元运行时间超过 n 秒时执行代码,那就更好了。
自从更新到Firefox 12后,每次我使用Selenium(在python和Mac OS 10.7中)启动具有特定配置文件的Firefox时,它会弹出"检查附加组件的兼容性"对话框,有时这个对话框会永远保持不变而且我有迫使它退出.在强制退出之后,Firefox的新实例将继续启动并成功完成Selenium脚本的其余部分.
我曾尝试设置extensions.checkCompatibility到false.如果我正常启动Firefox,这会修复它,但如果我使用Selenium启动它则不行.有关如何抑制此对话框的任何想法?谢谢!
我所说的“有意义”是指大多数人用来识别网站的 URL 部分(有专门的技术术语吗?)。例如,我希望代码在以下所有情况下返回“gm”:
gm.com, gm.net, gm.info, gm.com.uk, gm.co.jp, gm.jp(这些可能不是真实的网站)
另外,当上述任何一个具有附加子域时,例如www.gm.com、www.cars.gm.com等。它不必与国际化国家/地区代码顶级域(具有非 ASCII 字符的域)一起使用。
我能想到的唯一方法是将最高级别的标签(例如.com)与通用顶级域、美国顶级域和国家/地区代码顶级域进行比较,然后尝试在某一位置向左移一个标签。时间。尽管如此,这仍然需要我知道(以及所有其他国家/地区)下的所有二级域名.jp,因为否则我将无法为 和 返回正确的www.yahoo.jp值yahoo.co.jp。有一个更好的方法吗?