问题
我想将一组数千个网站分类/分类/集群/组合在一起.有我们可以训练的数据,所以我们可以进行有监督的学习,但这不是我们收集的数据,我们也不会坚持使用它 - 所以我们也在考虑无监督学习.
我可以在机器学习算法中使用哪些功能来处理多语言数据?请注意,其中一些语言可能尚未在自然语言处理字段中处理.
如果我使用无监督学习算法,我应该只按语言划分数据并以不同方式处理每种语言吗?不同的语言可能有不同的相关类别(或不,取决于您的心理语言学理论倾向),这可能会影响分区决策.
我正在考虑使用决策树,或者支持向量机(SVM)来允许更多功能(根据我对它们的理解).这篇文章建议随机森林而不是SVM.有什么想法吗?
欢迎实用的方法!(理论上也是如此,但这些可能会被保存起来以供以后使用.)
一些背景
我们正试图用3到5种语言对数千个网站的语料库进行分类(可能高达10种,但我们不确定).
我们以数百个已经分类的网站的形式提供培训数据.但是,我们可以选择是否使用该数据集 - 如果其他类别更有意义,我们愿意不使用我们拥有的培训数据,因为它不是我们首先收集的内容.我们正处于从网站上抓取数据/文本的最后阶段.
现在我们必须决定上述问题.我已经与Brown Corpus和Brill tagger做了一些工作,但由于多语言问题,这不起作用.
我们打算使用Orange机器学习包.
nlp artificial-intelligence classification machine-learning data-mining
单词示例:
随机字符串的示例:
当然,随机字符串实际上可能是某种语言中的单词,或者看起来像一个单词。但是基本上,一个人能够说出某种看起来“随机”的东西,基本上只是通过检查您是否能够说出它。
我试图通过计算熵来区分这两者,但这远非完美。您还有其他想法,可行的算法吗?
但是有一个重要的要求,我不能使用像这样的重量级库nltk或使用字典。基本上,我需要的是一些在大多数情况下都可以使用的简单快速的启发式方法。
用于Python 的NodeBox英语语言库具有一些很好的功能,如共轭,这对项目非常有用.
我尝试通过pip在特定的virtualenv中安装,但pip search nodebox只提出:
NodeBox - Simple application for creating 2-dimensional
graphics and animation using Python code
nodebox-color - Color classes for python
NodeBox-for-OpenGL - 2D animation with Python code
nodebox-opengl - NodeBox for OpenGL is a free, cross-platform
library for generating 2D animations with Python
programming code.
Run Code Online (Sandbox Code Playgroud)
是否可以通过另一个名称进行pip-installable(在virtualenv中)?或者是安装到的唯一方法
将en库文件夹放在与脚本相同的文件夹中,以便NodeBox可以找到该库.你也可以把它放进去
~/Library/Application Support/NodeBox/.第一次加载所有数据需要一些时间.
如他们的网站上所述?
使用QSTK进行Georgia Tech的Coursera计算投资课程,Examples/EventProfiler/tutorial.py末尾的eventprofiler函数不会输出视频中显示的图表.(见下图.)
为第4周的练习生成的其他PDF是相同的空白,除了事件编号,这是正确的.创建PDF似乎是一种浪费,因为这些数字可能只是输出到终端.
我查看了图像上显示的index.py:2204的错误输出,但修复不明显.(关于pandas相关的github错误的类似(但不完全相同)问题的一些其他回溯将index.py放在健康的调用堆栈中.)
如果我有时间的话,我可能会深入研究eventprofiler代码,但我想我先问一下.Stack Overflow在QSTK上几乎没有任何内容,并且在5分钟的快速搜索中,大熊猫似乎没什么关系.
注意:我按照佐治亚州技术课程计算投资课程的quantsoftware wiki的指示安装了VirtualBox,Ubuntu和QSTK.到目前为止,我已经成功完成了所有作业,所以我认为我的设置应该没问题.
我正在使用OneVsRestClassifier进行多标签分类.它适用于LinearSVC,但是当我将其应用于SVC时,会出现以下错误:
classifier = OneVsRestClassifier(SVC(class_weight='balanced'))
classifier.fit(X1, y1)
y2 = classifier.predict(X2)
Traceback (most recent call last):
...
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 219, in predict
return predict_ovr(self.estimators_, self.label_binarizer_, X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 93, in predict_ovr
Y = np.array([_predict_binary(e, X) for e in estimators])
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 66, in _predict_binary
score = estimator.predict_proba(X)[:, 1]
File "/usr/local/lib/python2.7/dist-packages/sklearn/svm/base.py", line 490, in predict_proba
"probability estimates must be enabled to use this method")
NotImplementedError: probability estimates must be enabled to use this method</code>
Run Code Online (Sandbox Code Playgroud)
有人知道它是什么吗?
我有一个问题是将pandas DataFrame索引从整数更改为日期时间.我想这样做,以便我可以调用reindex并填写表中列出的日期之间的日期.请注意,我现在必须使用pandas 0.7.3因为我也使用qstk,而qstk依赖于pandas 0.7.3
首先,这是我的布局:
(Pdb) df
AAPL GOOG IBM XOM date
1 0 0 4000 0 2011-01-13 16:00:00
2 0 1000 4000 0 2011-01-26 16:00:00
3 0 1000 4000 0 2011-02-02 16:00:00
4 0 1000 4000 4000 2011-02-10 16:00:00
6 0 0 1800 4000 2011-03-03 16:00:00
7 0 0 3300 4000 2011-06-03 16:00:00
8 0 0 0 4000 2011-05-03 16:00:00
9 1200 0 0 4000 2011-06-10 16:00:00
11 1200 0 0 4000 2011-08-01 16:00:00
12 0 0 0 4000 …Run Code Online (Sandbox Code Playgroud) 我正在制作一个游戏,我想让我的角色的伤害范围为(4,7),
为了造成伤害,我正在执行敌人hp-chardamage,我如何使chardamage成为随机数range(4,7)?