我必须在一个非常庞大的矩阵上执行k-means聚类(大约300.000x100.000值超过100Gb).我想知道我是否可以使用R软件来执行此操作或weka.我的计算机是一个多处理器,具有8Gb的RAM和数百Gb的可用空间.
我有足够的空间进行计算,但加载这样的矩阵似乎是R的一个问题(我不认为使用bigmemory包会帮助我和大矩阵自动使用我的所有RAM然后我的交换文件,如果没有足够的空间).
所以我的问题是:我应该使用什么软件(最终与其他一些软件包或自定义设置相关联).
谢谢你的帮助.
注意:我使用linux.
在weka中我加载了一个arff文件.我可以使用visualize选项卡查看属性之间的关系.
但是我无法理解抖动滑块的含义.它的目的是什么?
gardai-plan-crackdown-on-troublemakers-at-protest-2438316.html': {'dail': 1, 'focus': 1, 'actions': 1, 'trade': 2, 'protest': 1, 'identify': 1, 'previous': 1, 'detectives': 1, 'republican': 1, 'group': 1, 'monitor': 1, 'clashes': 1, 'civil': 1, 'charge': 1, 'breaches': 1, 'travelling': 1, 'main': 1, 'disrupt': 1, 'real': 1, 'policing': 3, 'march': 6, 'finance': 1, 'drawn': 1, 'assistant': 1, 'protesters': 1, 'emphasised': 1, 'department': 1, 'traffic': 2, 'outbreak': 1, 'culprits': 1, 'proportionate': 1, 'instructions': 1, 'warned': 2, 'commanders': 1, 'michael': 2, 'exploit': 1, 'culminating': 1, 'large': 2, 'continue': 1, 'team': …
Run Code Online (Sandbox Code Playgroud) 能告诉我如何在weka中表示文本分类的属性或类.通过使用什么属性我可以做分类?单词频率还是单词?ARFF格式可能的结构是什么?你能给我几行结构的例子吗?
非常感谢你提前.
我有一个Java类,其中javadoc的一部分实际上是作为构建过程的一部分生成的:方法的返回值(静态字符串值)被插入到源文件中,就像$Revision: $
标签在某些版本控制软件中工作一样.
虽然这种行为可能有问题,但我使用的框架(WEKA机器学习库)需要这种信息重复.我希望Eclipse的代码格式化程序不要干扰生成的注释.我正在使用Eclipse Indigo版本.
我可以用特殊的注释开启/格式化关闭//@formatter:on
和//@formatter:off
.但是,@formatter
标签仅在"正常"注释中起作用,而不在javadoc注释中起作用.显然,它们很容易与javadoc标签混淆.这意味着我无法关闭javadoc注释的生成部分的格式化程序(例如,自动换行),并将其保留为其余部分,因为@formatter
指令必须放在javadoc注释周围.
有一个解决方法来切换javadoc注释中的代码格式?
我使用WEKA gui训练并创建了一个J48模型.我将模型文件保存到我的计算机上,现在我想用它来分类我的Java代码中的单个实例.我想获得属性"cluster"的预测.我所做的是以下内容:
public void classify(double lat, double lon, double co)
{
// Create attributes to be used with classifiers
Attribute latitude = new Attribute("latitude");
Attribute longitude = new Attribute("longitude");
Attribute carbonmonoxide = new Attribute("co");
// Create instances for each pollutant with attribute values latitude, longitude and pollutant itself
inst_co = new DenseInstance(4);
// Set instance's values for the attributes "latitude", "longitude", and "pollutant concentration"
inst_co.setValue(latitude, lat);
inst_co.setValue(longitude, lon);
inst_co.setValue(carbonmonoxide, co);
inst_co.setMissing(cluster);
Classifier cls_co = (Classifier) weka.core.SerializationHelper.read("/CO_J48Model.model");//load classifier from file
// …
Run Code Online (Sandbox Code Playgroud) classification machine-learning prediction decision-tree weka
我从http://weka.wikispaces.com/Programmatic+Use看了Weka的程序化例子.但是,我认为由于我的Weka jar版本(3.7.7),它在这一行上给出错误:
Instance iExample = new Instance(4);
Error: Cannot instantiate the type Instance
Run Code Online (Sandbox Code Playgroud)
我应该对代码做什么样的改变?
我有一个带有一些名义值的数据集作为特征.我所拥有的训练集有一组标称特征的值,这些值在我的测试集中是不存在的.例如,我在训练集中的特征对应于
@attribute h4 {br,pl,com,ro,th,np}
和测试集中的相同功能有
@attribute h4 {br,pl,abc,th,def,ghi,lmno}
我相信因此,weka不允许我重新评估我在我的测试集上的训练集上建立的模型.有没有解决的办法?我错过了什么吗?
编辑:我正在使用RandomForest分类器.
谢谢
我不明白为什么Weka Evaluation类构造函数需要列车实例才能工作.
任何人都能解释一下吗?
理论上,评估仅取决于训练模型(下一个代码中的cls)和测试数据(TestingSet).
谢谢!
这是一个例子:
// TrainingSet is the training Instances
// TestingSet is the testingInstances
// Build de classifier
Classifier cls = (Classifier) new NaiveBayes();
cls.buildClassifier(TrainingSet);
// Test the model
Evaluation eTest = new Evaluation(**TrainingSet**);
eTest.evaluateModel(cls, TestingSet);
Run Code Online (Sandbox Code Playgroud) weka ×10
java ×4
arff ×3
data-mining ×1
eclipse ×1
eclipse-jdt ×1
file ×1
javadoc ×1
json ×1
k-means ×1
mahout ×1
prediction ×1
python ×1
r ×1