哪个开源软件包最适合聚类大型文档?它应该自己决定簇的数量,或者也可以接受它作为参数.
我们有大量的文档并不真正围绕特定主题 - 它们是销售和管理人员在组织中的各种项目和客户端生成的文档.我知道拥有这样一个扩散语料库会降低性能,但我们正试图以最好的方式生活.现在,我们能得到的最好的是:-)
我知道凝聚聚类算法,它以每个数据点作为单个聚类开始然后将点组合成聚类的方式.
现在,我有一个n维空间和几个数据点,每个维度都有值.我想根据业务规则聚类两个点/集群,如:
....和类似的自定义规则.
另外,我有自己的方法来定义和测量任何特定维度中任意两个聚类之间的距离.维度可能只是字符串,我想定义自己的字符串距离度量.在另一个维度中,它可以包含位置的名称,并且沿着该维度的两个点之间的距离是命名的位置之间的地理距离,对于其他维度也是如此.
是否有框架/软件可以让我实现这种定义自定义距离指标的方式,然后实施凝聚聚类?当然,当在任何时间点都不满足业务规则时,凝聚聚类停止,并且我们在最后的n维空间中形成聚类.
谢谢Abhishek S.
当我们说我们正在评估WEKA frmework中的集群时,我们的意思是什么?聚类是一种无监督的对象分组方法.当我们说要评估结果时,我们的意思是什么?此外,除此之外,当我们说我们在训练数据本身之上评估集群时,这意味着什么?
谢谢Abhishek S.
如果我在lrge训练集上训练SVM并且如果类变量是True或False,那么与训练集中的False值相比,True值会非常少,会影响训练模型/结果吗?他们应该平等吗?如果我的训练集没有平等分配的真假,我该如何处理这个问题,以便尽可能有效地完成我的训练?
我正在看
class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True
Run Code Online (Sandbox Code Playgroud)
其描述如下: 标准化由下式给出:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
Run Code Online (Sandbox Code Playgroud)
如上所示,假设原数组的最小值为X.min(axis=0)。有没有办法可以指定一个不同的最小 wrt 来缩放数据?
例如:我希望原始范围为 [0-255],最终范围为 [0-1]。现在,如果原始数组不包含值 0,则最小值将被视为最小值,这是我不想考虑的。
我使用python的spark,我有一个过滤器约束如下:
my_rdd.filter(my_func)
Run Code Online (Sandbox Code Playgroud)
其中my_func是我写的一个方法,用于根据我自己的逻辑过滤rdd项.我已经将my_func定义如下:
def my_func(my_item):
{
...
}
Run Code Online (Sandbox Code Playgroud)
现在,我想将另一个单独的参数传递给my_func,除了进入它的项目.我怎样才能做到这一点?我知道my_item会引用一个来自my_rdd的项目,我如何将自己的参数(比方说my_param)作为my_func的附加参数传递?
如果我有一个三层神经网络,并且如果我有3个输入样本及其相应的预期输出值,那么如何确定所有边缘的权重值?
例如,如果某个主题(例如:德克萨斯州)属于/ location/citytown类型,我也会看到有一个类型"/ location/location"附加到同一主题.另外,这里的主题是城市或城镇的名称,默认情况下也是一般的位置,对吧?那么,如果某个主题具有类型/位置/ citytown,那么它会默认将/ location/location作为与同一主题相关联的类型吗?
总而言之,Freebase是否以某种方式对类型进行分层表示,这样我们就可以理解,如果某个东西是/ location/citytown,那么它也是/ location/location,对其他情况也是如此?
我的Python程序需要花费大量时间来完成for循环的所有迭代.当我在键盘运行时按下特定的键/键组合时,我想让它进入另一种方法并将变量保存到磁盘中(使用我知道的pickle)并安全地退出程序.
知道我怎么能这样做吗?
KeyboardInterrupt是一种安全的方法,只需将for循环包装在KeyboardInterrupt异常中,捕获它然后将变量保存在except块中吗?
我有3个文件,factory_imagenet.py,imdb.py和imagenet.py
factory_imagenet.py有:
import datasets.imagenet
Run Code Online (Sandbox Code Playgroud)
它还有一个函数调用
datasets.imagenet.imagenet(split,devkit_path))
...
Run Code Online (Sandbox Code Playgroud)
imdb.py有:
class imdb(object):
def __init__(self, name):
self._name = name
...
Run Code Online (Sandbox Code Playgroud)
imagenet.py有:
import datasets
import datasets.imagenet
import datasets.imdb
Run Code Online (Sandbox Code Playgroud)
它也有
class imagenet(datasets.imdb):
def __init__(self, image_set, devkit_path=None):
datasets.imdb.__init__(self, image_set)
Run Code Online (Sandbox Code Playgroud)
所有三个文件都在数据集文件夹中.
当我运行另一个与这些文件交互的脚本时,我收到此错误:
Traceback (most recent call last):
File "./tools/train_faster_rcnn_alt_opt.py", line 19, in <module>
from datasets.factory_imagenet import get_imdb
File "/mnt/data2/abhishek/py-faster-rcnn/tools/../lib/datasets/factory_imagenet.py", line 12, in <module>
import datasets.imagenet
File "/mnt/data2/abhishek/py-faster-rcnn/tools/../lib/datasets/imagenet.py", line 21, in <module>
class imagenet(datasets.imdb):
TypeError: Error when calling the metaclass bases
module.__init__() takes at most 2 arguments (3 …Run Code Online (Sandbox Code Playgroud) python ×4
java ×2
algorithm ×1
apache-spark ×1
data-mining ×1
frameworks ×1
freebase ×1
inheritance ×1
math ×1
mql ×1
nlp ×1
numpy ×1
pyspark ×1
scikit-learn ×1
svm ×1
weka ×1