鉴于我有两个列表,每个列表包含一个公共超集的单独子集,是否有算法给我一个相似性度量?
例:
A = {John,Mary,Kate,Peter}和B = {Peter,James,Mary,Kate}
这两个名单有多相似?请注意,我不知道常见超集的所有元素.
更新:我不清楚,我可能以一种草率的方式使用'set'这个词.我很抱歉.澄清:秩序很重要.如果相同的元素在列表中占据相同的位置,则我们对该元素具有最高的相似性.相似性降低了相同元素的距离越远.如果元素仅存在于其中一个列表中,则相似性甚至更低.
我甚至可以添加额外的维度,即较低的指数具有更大的价值,因此aa [1] == b [1]的价值超过[9] == b [9],但这主要是因为我很好奇.
我已经实现了k-means聚类来确定300个对象中的聚类.我的每个物体都有大约30个维度.使用欧几里德度量计算距离.
我需要知道
cluster-analysis machine-learning k-means unsupervised-learning
下面的代码不会渲染我的图表.
import numpy
import matplotlib.pyplot as plt
import matplotlib as mpl
import pylab
import random
import scipy
from matplotlib.mlab import griddata
from pylab import *
from scipy import ndimage
def H(x,y,gamma):
val = HenonMap(x,y,1,1,0.2,gamma)
return val
def HenonIterate(x0,y0,n,gamma):
(x,y) = H(x0,y0,gamma)
for i in xrange (0,n):
(x,y)=H(x,y,gamma)
if (pow(x,2)) + (pow(y,2)) > 100:
return i
return n
def g():
x2=1000
y2=1000
max=100
u = zeros([x2,y2])
for x in range(x2):
for y in range(y2):
y0= .01*y-5.0
x0= -.01*x+5.0
u[x][y] = HenonIterate(x0,y0,max,1.03) …Run Code Online (Sandbox Code Playgroud) 最近我研究了反向传播网络并做了一些手动练习.在那之后,我提出了一个问题(可能没有意义):在遵循两种不同的替换方法时是否有任何重要的事情:1.增量训练:一旦所有delta Wij都已知并且在呈现之前,权重会立即更新下一个训练矢量.2.批量训练:为每个示例训练向量计算和存储delta Wij.但是,delta Wij不会立即用于更新权重.重量更新在训练时代结束时完成.
我用谷歌搜索了一段时间但没有找到任何结果.
machine-learning backpropagation neural-network deep-learning
是否有用于内省生成器对象的技术(例如单元测试中的断言)?
更具体地说,我有一个数据处理管道,由一系列小函数组成,这些函数通常应用于列表理解或生成器表达式内的值,如下所示:
生成一些随机数据:
>>> raw_data = ["${}".format(RND.randint(10, 100)) for c in range(10)]
>>> # a function that does some sort of of transform
>>> fnx = lambda q: float(q.replace('$', ''))
>>> d1 = [fnx(itm) for itm in raw_data]
Run Code Online (Sandbox Code Playgroud)
在下一步中,另一个变换函数将应用于d1的项目,依此类推。
在上面的例子中,例如,关于prices_clean的长度或其值的最小/最大等的断言是我的单元测试套件的核心:
>>> assert len(d1) == 10
Run Code Online (Sandbox Code Playgroud)
鉴于我只是要迭代这些中间结果,我实际上不需要列表,生成器对象就可以了,并且考虑到内存配置文件要低得多,这就是我使用的:
>>> d1 = (fnx(itm) for itm in raw_data)
Run Code Online (Sandbox Code Playgroud)
当然,我在使用列表推导式时所依赖的断言不适用于生成器对象:
>>> d1
<generator object <genexpr> at 0x106da9230>
>>> assert len(d1) == 10
Traceback (most recent call last):
File "<pyshell#33>", line 1, …Run Code Online (Sandbox Code Playgroud) 注意:我编辑了我的Q(标题中),以便更好地反映我真正想知道的内容.在我的Q的原始标题和文本中,我提到了抛出异常的来源; 我的意思,以及我应该提到的,正如下面的一个高级但有用的响应中指出的那样,是定义异常类的模块.这可以通过以下事实得到证明:正如下面的答案之一所指出的那样,原始Q的答案分别是对来自cursor.execute和cursor.next的调用抛出了异常 - 这当然不是编写try/except块所需的信息.
例如(Q与SQLite或PySQLite模块没有任何关系):
from pysqlite2 import dbapi2 as SQ
try:
cursor.execute('CREATE TABLE pname (id INTEGER PRIMARY KEY, name VARCHARS(50)')
except SQ.OperationalError:
print("{0}, {1}".format("table already exists", "... 'CREATE' ignored"))
Run Code Online (Sandbox Code Playgroud)
#
cursor.execute('SELECT * FROM pname')
while 1:
try:
print(cursor.next())
except StopIteration:
break
Run Code Online (Sandbox Code Playgroud)
#
我让两个片段错误出来以查看抛出的异常,然后对try/finally块进行编码 - 但这并没有告诉我有关定义异常类的模块的任何信息.在我的例子中,只有一个导入的模块,但是还有更多,我有兴趣知道一个经验丰富的pythonista如何识别异常源(搜索文档 - 直到我发现 - 找到 - 它是我目前的方法).
[是的,我知道在SO上有一个几乎相同的问题 - 但是对于C#而不是python,如果你阅读了作者的编辑版本,你会发现他有一个不同的问题.]
Graphviz中的任何功能都能做到吗?如果没有,任何其他可以做到这一点的免费软件?
虽然yui3文档相当不错,但有时能够提出错误的问题以获得最佳实践是有帮助的.
所有酷炫的开发者都有环聊吗?
我正在开发一个像谷歌分析这样的内部网络分析系统,我不太清楚这个概念page stay time,这个措施来自网络的典型解释是:
那么A的页面停留时间是t2-t1,B是0
我的问题是:在这种情况下,当计算page stay timeB时,我们是否需要检查用户是否从页面A单击页面B?即B的参考是A?
我在外汇市场上有一个交易策略,我试图改进.
我有一个巨大的表(100k +行)代表市场上的每一个可能的交易,交易的类型(买入或卖出),交易结束后的盈利/亏损,以及代表各种市场测量的10个左右的额外变量.贸易开放时间.
我试图找出这10个变量中的任何一个是否与利润/损失显着相关.
例如,假设变量X的范围是50到-50.买单的X平均值为25,卖单的平均值为-25.
如果大多数有利可图的买单具有X> 25的值,并且大多数有利可图的卖单具有X <-25的值,那么我会认为X与利润的关系是显着的.
我想要一个很好的起点.我已安装RapidMiner 5以防万一有人可以给我一个具体的建议.
每个人都这样做 - 从shell开始,你需要一些关于文本文件的细节(不仅仅是ls -l给你),特别是那个文件的行数,所以:
@ > wc -l iris.txt
149 iris.txt
Run Code Online (Sandbox Code Playgroud)
我知道我可以从python访问shell实用程序,但我正在寻找一个内置的python,如果有的话.
我的问题的关键是在不打开文件的情况下获取此信息(因此我引用了unix实用程序*wc - *l)
(正在'嗅探'这个正确的术语 - 也就是说,在没有打开它的情况下偷看文件?')
python ×5
graph ×2
algorithm ×1
assertion ×1
comparison ×1
complement ×1
data-mining ×1
exception ×1
generator ×1
graph-theory ×1
graphviz ×1
io ×1
javascript ×1
k-means ×1
module ×1
numpy ×1
plot ×1
rapidminer ×1
similarity ×1
statistics ×1
unit-testing ×1
unix ×1
yui ×1
yui3 ×1