小编ʞɔı*_*ɔıu的帖子

当您的正则表达式引擎不支持时,按\ b拆分

如何在不支持它的正则表达式引擎中按字边界分割？

python的重写可以匹配\ b但似乎不支持拆分它.我似乎记得处理具有相同限制的其他正则表达式引擎.

示例输入:

"hello, foo"

Run Code Online (Sandbox Code Playgroud)

预期产量:

['hello', ', ', 'foo']

Run Code Online (Sandbox Code Playgroud)

实际的python输出:

>>> re.compile(r'\b').split('hello, foo')
['hello, foo']

Run Code Online (Sandbox Code Playgroud)

python regex

ʞɔı*_*ɔıu

2008 12-30

4
推荐指数

1
解决办法

564
查看次数

在循环中处理bash中的特殊字符

假设我有一个文件列表

file1
"file 1"
file2

Run Code Online (Sandbox Code Playgroud)

for ... in循环在空格之间划分它,而不是换行符:

for x in $( ls ); do
   echo $x
done

Run Code Online (Sandbox Code Playgroud)

结果:

file
1
file1
file2

Run Code Online (Sandbox Code Playgroud)

我想在每个文件上执行命令.上面的"file"和"1"不是实际文件.如果文件名包含空格或逗号等内容,我该怎么办？

它比我想象的有点棘手-print0 | xargs -0可以处理,因为我实际上希望命令类似于"convert input/file1.jpg .... output/file1.jpg",所以我需要在进程中置换文件名.

bash shell command-line

ʞɔı*_*ɔıu

lucky-day

4
推荐指数

1
解决办法

2864
查看次数

在SQL中需要有关复杂Join语句的帮助

如何在具有稀疏日期数的表和另一个具有详尽日期数的表之间进行连接,以使稀疏日期之间的间隙采用上一个稀疏日期的值？

说明性示例:

PRICE table (sparse dates):
date        itemid  price
2008-12-04  1       $1
2008-12-11  1       $3
2008-12-15  1       $7


VOLUME table (exhaustive dates):
date         itemid  volume_amt
2008-12-04   1       12345
2008-12-05   1       23456
2008-12-08   1       34567
2008-12-09   1       ...
2008-12-10   1
2008-12-11   1
2008-12-12   1
2008-12-15   1
2008-12-16   1
2008-12-17   1
2008-12-18   1

Run Code Online (Sandbox Code Playgroud)

期望的结果:

date       price  volume_amt
2008-12-04 $1     12345
2008-12-05 $1     23456
2008-12-08 $1     34567
2008-12-09 $1     ...
2008-12-10 $1
2008-12-11 $3
2008-12-12 $3
2008-12-15 $7
2008-12-16 $7
2008-12-17 $7
2008-12-18 …

Run Code Online (Sandbox Code Playgroud)

sql greatest-n-per-group

ʞɔı*_*ɔıu

2009 09-16

3
推荐指数

1
解决办法

2535
查看次数

在字符串末尾匹配系列(非嵌套)平衡括号

如何匹配出现在字符串末尾的一个或多个括号表达式？

输入:

'hello (i) (m:foo)'

Run Code Online (Sandbox Code Playgroud)

期望的输出:

['i', 'm:foo']

Run Code Online (Sandbox Code Playgroud)

用于python脚本.Paren标记不能出现在彼此内部(没有嵌套),并且括号表达式可以用空格分隔.

它比初看起来更难,至少在我看来是如此.

python regex

ʞɔı*_*ɔıu

2009 02-17

3
推荐指数

2
解决办法

604
查看次数

判断一个字符是否是组合变音符号

如果你在python(2.x)中循环使用unicode字符串,请说:

ak.sɛp.tɑ

你怎么知道当前的char是否是一个组合变音符号？

例如,上面字符串中的最后一个字符实际上是一个组合标记:

ak.sɛp.tɑ - >

python unicode diacritics

ʞɔı*_*ɔıu

2011 04-26

3
推荐指数

1
解决办法

1372
查看次数

用于社交网络查询的幂律曲线拟合

Twitter最近宣布,您可以通过在以下公式中输入他们的关注者计数来高精度地估计任何给定Twitter用户的排名:

exp($ a + $ b*log(follower_count))

其中$ a = 21,$ b = -1.1

这显然比通过给定用户的跟随者计数对整个用户列表进行排序更有效.

如果您有来自不同社交网站的类似数据集,您如何获得$ a和$ b的值以适合该数据集？基本上是一些频率列表,其分布被假定为幂律.

math statistics probability power-law

ʞɔı*_*ɔıu

2011 01-06

3
推荐指数

1
解决办法

955
查看次数

修复r中不可读的postscript树输出

我有一个相对复杂的分类树,我正在尝试输出.由此产生的postscript输出看起来非常混乱.

> fit = rpart(virility ~ friend_count  + recip_count + twitter_handles + has_email + 
                          has_bio + has_foursquare + has_linkedin + auto_tweet + 
                          interaction_visibility + site_own_cnt + site_rec_cnt + has_url +
                          has_linkedin_url + lb_cnt, + mob_own_cnt + mob_rec_cnt + 
                          twt_own_cnt + twt_rec_cnt, method="class", data=vir)
> fit
n= 9704 

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 9704 3742 virile (0.39970092 0.60029908)  
   2) recip_count< 15.5 9610 3159 mule (0.52005469 0.47994531)  
     4) site_own_cnt< 0.5 7201 1372 mule (0.65423387 0.34576613) …

Run Code Online (Sandbox Code Playgroud)

r postscript machine-learning

ʞɔı*_*ɔıu

2011 04-27

3
推荐指数

1
解决办法

989
查看次数

如何在App Engine中表示一对一的关系

假设您有一个"用户"记录的概念,您希望将其存储在数据存储中.

class User (db.Model):
  first_name = db.StringProperty()
  last_name = db.StringProperty()
  created = db.DateTimeProperty(auto_now_add=True)
  twitter_oauth_token = db.StringProperty()
  twitter_oauth_secret = db.StringProperty()

Run Code Online (Sandbox Code Playgroud)

几乎在您使用用户对象时都会使用某些字段,例如first_name和last_name.

但是,有些字段只有一个用例,例如,twitter_oauth_token和twitter_oauth_secret,当95%的时间不需要它们时,打扰序列化和反序列化效率会有些低效.

所以,如果你拆分你的模型:

class User (db.Model):
  first_name = db.StringProperty()
  last_name = db.StringProperty()
  created = db.DateTimeProperty(auto_now_add=True)

class UserTwitterOauth(db.Model):
  oauth_token = db.StringProperty(required=True)
  oauth_secret = db.StringProperty(required=True)
  created = db.DateTimeProperty(auto_now_add=True)

Run Code Online (Sandbox Code Playgroud)

你可以在UserTwitterOauth中为User提供一个ReferenceProperty,但这实际上是一对多的,因为没有什么能阻止每个用户使用多个UserTwitterOauth对象.您希望最多只有一个UserTwitterOauth与任何用户相关.您如何一对一地联系这些模型？

python google-app-engine bigtable schema-design

ʞɔı*_*ɔıu

lucky-day

3
推荐指数

1
解决办法

483
查看次数

为什么gevent执行这个未加入的greenlet？

码:

import gevent
import time

def func(a, t):
  time.sleep(t)
  print "got here", a

gevent.spawn(func, 'a', 4)
gevent.spawn(func, 'b', 0).join()
time.sleep(3)
print "exit"

Run Code Online (Sandbox Code Playgroud)

输出:

got here a
got here b
exit

Run Code Online (Sandbox Code Playgroud)

期望:

我从不加入第一个greenlet,所以我希望它永远不会执行; 或者,如果长睡眠(),它应该在第二个greenlet之后完成.

语境:

我希望能够启动一个"一次性"greenlet填充缓存,我永远不会加入,我永远不想阻止等待结果.

python multithreading gevent greenlets

ʞɔı*_*ɔıu

2013 03-02

3
推荐指数

1
解决办法

406
查看次数

将连续数字组合成范围元组

我有一个清单

[38, 98, 110, 111, 112, 120, 121, 898]

Run Code Online (Sandbox Code Playgroud)

如何将连续数字合并为表示范围的对？

期望的输出:

['38',
 '98', 
 '110,112',
 '120,121',
 '898']

Run Code Online (Sandbox Code Playgroud)

python algorithm list

ʞɔı*_*ɔıu

lucky-day

3
推荐指数

1
解决办法

1606
查看次数

标签统计

python ×6

regex ×2

algorithm ×1

bash ×1

bigtable ×1

command-line ×1

diacritics ×1

gevent ×1

google-app-engine ×1

greatest-n-per-group ×1

greenlets ×1

list ×1

machine-learning ×1

math ×1

multithreading ×1

postscript ×1

power-law ×1

probability ×1

r ×1

schema-design ×1

shell ×1

sql ×1

statistics ×1

unicode ×1

标签 统计

小编ʞɔı_ɔıu的帖子

标签统计