小编dou*_*oug的帖子

离散相似度量的算法

鉴于我有两个列表,每个列表包含一个公共超集的单独子集,是否有算法给我一个相似性度量?

例:

A = {John,Mary,Kate,Peter}和B = {Peter,James,Mary,Kate}

这两个名单有多相似?请注意,我不知道常见超集的所有元素.

更新:我不清楚,我可能以一种草率的方式使用'set'这个词.我很抱歉.澄清:秩序很重要.如果相同的元素在列表中占据相同的位置,则我们对该元素具有最高的相似性.相似性降低了相同元素的距离越远.如果元素仅存在于其中一个列表中,则相似性甚至更低.

我甚至可以添加额外的维度,即较低的指数具有更大的价值,因此aa [1] == b [1]的价值超过[9] == b [9],但这主要是因为我很好奇.

algorithm comparison machine-learning similarity

4
推荐指数
1
解决办法
608
查看次数

选择适当的相似性度量并评估k均值聚类模型的有效性

我已经实现了k-means聚类来确定300个对象中的聚类.我的每个物体都有大约30个维度.使用欧几里德度量计算距离.

我需要知道

  1. 我如何确定我的算法是否正常工作?我不能有一个图表来说明我的算法的正确性.
  2. 欧几里德距离是计算距离的正确方法吗?如果我有100个维度而不是30个怎么办?

cluster-analysis machine-learning k-means unsupervised-learning

4
推荐指数
1
解决办法
3648
查看次数

在python中编码和渲染(网络)图

下面的代码不会渲染我的图表.

import numpy
import matplotlib.pyplot as plt
import matplotlib as mpl
import pylab
import random
import scipy
from matplotlib.mlab import griddata
from pylab import *
from scipy import ndimage
def H(x,y,gamma):
    val = HenonMap(x,y,1,1,0.2,gamma)
    return val
def HenonIterate(x0,y0,n,gamma):
    (x,y) = H(x0,y0,gamma)
    for i in xrange (0,n):
        (x,y)=H(x,y,gamma)
        if (pow(x,2)) + (pow(y,2)) > 100:
            return i
    return n

def g():
    x2=1000
    y2=1000
    max=100
    u = zeros([x2,y2])
    for x in range(x2):
        for y in range(y2):
            y0= .01*y-5.0
            x0= -.01*x+5.0
            u[x][y] = HenonIterate(x0,y0,max,1.03) …
Run Code Online (Sandbox Code Playgroud)

python numpy graph-theory graph

4
推荐指数
1
解决办法
2043
查看次数

神经网络加权

最近我研究了反向传播网络并做了一些手动练习.在那之后,我提出了一个问题(可能没有意义):在遵循两种不同的替换方法时是否有任何重要的事情:1.增量训练:一旦所有delta Wij都已知并且在呈现之前,权重会立即更新下一个训练矢量.2.批量训练:为每个示例训练向量计算和存储delta Wij.但是,delta Wij不会立即用于更新权重.重量更新在训练时代结束时完成.

我用谷歌搜索了一段时间但没有找到任何结果.

machine-learning backpropagation neural-network deep-learning

3
推荐指数
1
解决办法
1727
查看次数

生成器对象上的断言

是否有用于内省生成器对象的技术(例如单元测试中的断言)?

更具体地说,我有一个数据处理管道,由一系列小函数组成,这些函数通常应用于列表理解或生成器表达式内的值,如下所示:

生成一些随机数据:

>>> raw_data = ["${}".format(RND.randint(10, 100)) for c in range(10)]

>>> # a function that does some sort of of transform
>>> fnx = lambda q: float(q.replace('$', ''))

>>> d1 = [fnx(itm) for itm in raw_data]
Run Code Online (Sandbox Code Playgroud)

在下一步中,另一个变换函数将应用于d1的项目,依此类推。

在上面的例子中,例如,关于prices_clean的长度或其值的最小/最大等的断言是我的单元测试套件的核心:

>>> assert len(d1) == 10
Run Code Online (Sandbox Code Playgroud)

鉴于我只是要迭代这些中间结果,我实际上不需要列表,生成器对象就可以了,并且考虑到内存配置文件要低得多,这就是我使用的:

>>> d1 = (fnx(itm) for itm in raw_data)
Run Code Online (Sandbox Code Playgroud)

当然,我在使用列表推导式时所依赖的断言不适用于生成器对象:

>>> d1
  <generator object <genexpr> at 0x106da9230>

>>> assert len(d1) == 10
  Traceback (most recent call last):
  File "<pyshell#33>", line 1, …
Run Code Online (Sandbox Code Playgroud)

python unit-testing generator assertion

3
推荐指数
1
解决办法
7399
查看次数

如何确定特定异常类的模块定义

注意:我编辑了我的Q(标题中),以便更好地反映我真正想知道的内容.在我的Q的原始标题和文本中,我提到了抛出异常的来源; 我的意思,以及我应该提到的,正如下面的一个高级但有用的响应中指出的那样,是定义异常类的模块.这可以通过以下事实得到证明:正如下面的答案之一所指出的那样,原始Q的答案分别是对来自cursor.execute和cursor.next的调用抛出了异常 - 这当然不是编写try/except块所需的信息.

例如(Q与SQLite或PySQLite模块没有任何关系):

from pysqlite2 import dbapi2 as SQ

try:
    cursor.execute('CREATE TABLE pname (id INTEGER PRIMARY KEY, name VARCHARS(50)')
except SQ.OperationalError:
    print("{0}, {1}".format("table already exists", "... 'CREATE' ignored")) 
Run Code Online (Sandbox Code Playgroud) #
cursor.execute('SELECT * FROM pname')
while 1:
    try:
        print(cursor.next())
    except StopIteration:
        break
Run Code Online (Sandbox Code Playgroud) #

我让两个片段错误出来以查看抛出的异常,然后对try/finally块进行编码 - 但这并没有告诉我有关定义异常类的模块的任何信息.在我的例子中,只有一个导入的模块,但是还有更多,我有兴趣知道一个经验丰富的pythonista如何识别异常源(搜索文档 - 直到我发现 - 找到 - 它是我目前的方法).

[是的,我知道在SO上有一个几乎相同的问题 - 但是对于C#而不是python,如果你阅读了作者的编辑版本,你会发现他有一个不同的问题.]

python exception-handling module exception

2
推荐指数
1
解决办法
340
查看次数

如何绘制网络图的补充?

Graphviz中的任何功能都能做到吗?如果没有,任何其他可以做到这一点的免费软件?

python plot graph complement graphviz

2
推荐指数
1
解决办法
1960
查看次数

YUI有官方的irc频道吗?

虽然yui3文档相当不错,但有时能够提出错误的问题以获得最佳实践是有帮助的.

所有酷炫的开发者都有环聊吗?

javascript user-interface yui yui3

2
推荐指数
1
解决办法
269
查看次数

Web度量应用程序计算访问者现场时间的最佳方式是什么?

我正在开发一个像谷歌分析这样的内部网络分析系统,我不太清楚这个概念page stay time,这个措施来自网络的典型解释是:

  1. 用户在时间戳访问页面A:t1
  2. 用户在时间戳访问页面B:t2,(t2> t1)

那么A的页面停留时间是t2-t1,B是0

我的问题是:在这种情况下,当计算page stay timeB时,我们是否需要检查用户是否从页面A单击页面B?即B的参考是A?

google-analytics data-analysis web-analytics

2
推荐指数
1
解决办法
628
查看次数

重要变量的数据挖掘(数值):从哪里开始?

我在外汇市场上有一个交易策略,我试图改进.

我有一个巨大的表(100k +行)代表市场上的每一个可能的交易,交易的类型(买入或卖出),交易结束后的盈利/亏损,以及代表各种市场测量的10个左右的额外变量.贸易开放时间.

我试图找出这10个变量中的任何一个是否与利润/损失显着相关.

例如,假设变量X的范围是50到-50.买单的X平均值为25,卖单的平均值为-25.

如果大多数有利可图的买单具有X> 25的值,并且大多数有利可图的卖单具有X <-25的值,那么我会认为X与利润的关系是显着的.

我想要一个很好的起点.我已安装RapidMiner 5以防万一有人可以给我一个具体的建议.

statistics machine-learning data-mining rapidminer

2
推荐指数
1
解决办法
2430
查看次数

是否有一个内置的python模拟unix'wc'用于嗅探文件?

每个人都这样做 - 从shell开始,你需要一些关于文本文件的细节(不仅仅是ls -l给你),特别是那个文件的行数,所以:

@ > wc -l iris.txt
 149 iris.txt
Run Code Online (Sandbox Code Playgroud)

我知道我可以从python访问shell实用程序,但我正在寻找一个内置的python,如果有的话.

我的问题的关键是在不打开文件的情况下获取此信息(因此我引用了unix实用程序*wc - *l)

(正在'嗅探'这个正确的术语 - 也就是说,在没有打开它的情况下偷看文件?')

python unix io

2
推荐指数
1
解决办法
1601
查看次数

机器学习的有用入门级资源

我正在寻找一些关于机器学习的入门级帖子.任何人都可以为这个主题的新人提出任何建议吗?

machine-learning

1
推荐指数
1
解决办法
3056
查看次数