小编art*_*omp的帖子

多语言数据的特征选择和无监督学习+机器学习算法选择

问题

我想将一组数千个网站分类/分类/集群/组合在一起.有我们可以训练的数据,所以我们可以进行有监督的学习,但这不是我们收集的数据,我们也不会坚持使用它 - 所以我们也在考虑无监督学习.

我可以在机器学习算法中使用哪些功能来处理多语言数据？请注意,其中一些语言可能尚未在自然语言处理字段中处理.
如果我使用无监督学习算法,我应该只按语言划分数据并以不同方式处理每种语言吗？不同的语言可能有不同的相关类别(或不,取决于您的心理语言学理论倾向),这可能会影响分区决策.
我正在考虑使用决策树,或者支持向量机(SVM)来允许更多功能(根据我对它们的理解).这篇文章建议随机森林而不是SVM.有什么想法吗？

欢迎实用的方法!(理论上也是如此,但这些可能会被保存起来以供以后使用.)

一些背景

我们正试图用3到5种语言对数千个网站的语料库进行分类(可能高达10种,但我们不确定).

我们以数百个已经分类的网站的形式提供培训数据.但是,我们可以选择是否使用该数据集 - 如果其他类别更有意义,我们愿意不使用我们拥有的培训数据,因为它不是我们首先收集的内容.我们正处于从网站上抓取数据/文本的最后阶段.

现在我们必须决定上述问题.我已经与Brown Corpus和Brill tagger做了一些工作,但由于多语言问题,这不起作用.

我们打算使用Orange机器学习包.

nlp artificial-intelligence classification machine-learning data-mining

art*_*omp

2017 05-23

5
推荐指数

1
解决办法

1060
查看次数

在python中，如何区分人类可读的单词和随机字符串？

单词示例：

球
百科全书
画面

随机字符串的示例：

qxbogsac
ga
rnnddwpm

当然，随机字符串实际上可能是某种语言中的单词，或者看起来像一个单词。但是基本上，一个人能够说出某种看起来“随机”的东西，基本上只是通过检查您是否能够说出它。

我试图通过计算熵来区分这两者，但这远非完美。您还有其他想法，可行的算法吗？

但是有一个重要的要求，我不能使用像这样的重量级库nltk或使用字典。基本上，我需要的是一些在大多数情况下都可以使用的简单快速的启发式方法。

python string random nlp heuristics

mno*_*tka

2018 11-24

5
推荐指数

2
解决办法

2925
查看次数

有没有办法通过pip install安装nodebox英语语言库？

用于Python 的NodeBox英语语言库具有一些很好的功能,如共轭,这对项目非常有用.

我尝试通过pip在特定的virtualenv中安装,但pip search nodebox只提出:

NodeBox                   - Simple application for creating 2-dimensional
                            graphics and animation using Python code
nodebox-color             - Color classes for python
NodeBox-for-OpenGL        - 2D animation with Python code
nodebox-opengl            - NodeBox for OpenGL is a free, cross-platform
                            library for generating 2D animations with Python
                            programming code.

Run Code Online (Sandbox Code Playgroud)

是否可以通过另一个名称进行pip-installable(在virtualenv中)？或者是安装到的唯一方法

将en库文件夹放在与脚本相同的文件夹中,以便NodeBox可以找到该库.你也可以把它放进去~/Library/Application Support/NodeBox/.第一次加载所有数据需要一些时间.

如他们的网站上所述？

nlp pip nodebox

art*_*omp

lucky-day

4
推荐指数

1
解决办法

2654
查看次数

从邀请文本中检测时间、日期和地点的算法

我正在研究一些自然语言处理算法来阅读一段文本，如果文本似乎试图提出会议请求，它会自动为您设置该会议。

例如，如果电子邮件文本为：

让我们明天晚上 7 点在市中心的某个地方见面”。

该算法应该能够检测事件的时间、日期和地点。

有人知道我可以用于此目的的一些现有 NLP 算法吗？我一直在研究一些 NLP 资源（如NLTK和R 中的一些工具），但没有取得太大的成功。

谢谢

api algorithm nlp artificial-intelligence machine-learning

Dar*_*der

2013 10-01

4
推荐指数

1
解决办法

2298
查看次数

QSTK的eventprofiler功能无法正确绘制

使用QSTK进行Georgia Tech的Coursera计算投资课程,Examples/EventProfiler/tutorial.py末尾的eventprofiler函数不会输出视频中显示的图表.(见下图.)

为第4周的练习生成的其他PDF是相同的空白,除了事件编号,这是正确的.创建PDF似乎是一种浪费,因为这些数字可能只是输出到终端.

我查看了图像上显示的index.py:2204的错误输出,但修复不明显.(关于pandas相关的github错误的类似(但不完全相同)问题的一些其他回溯将index.py放在健康的调用堆栈中.)

如果我有时间的话,我可能会深入研究eventprofiler代码,但我想我先问一下.Stack Overflow在QSTK上几乎没有任何内容,并且在5分钟的快速搜索中,大熊猫似乎没什么关系.

注意:我按照佐治亚州技术课程计算投资课程的quantsoftware wiki的指示安装了VirtualBox,Ubuntu和QSTK.到目前为止,我已经成功完成了所有作业,所以我认为我的设置应该没问题.

python plot graph pandas qstk

art*_*omp

2015 11-24

4
推荐指数

1
解决办法

448
查看次数

如何将OneVsRestClassifier与SVC一起用于多标签问题？

我正在使用OneVsRestClassifier进行多标签分类.它适用于LinearSVC,但是当我将其应用于SVC时,会出现以下错误:

classifier = OneVsRestClassifier(SVC(class_weight='balanced'))
classifier.fit(X1, y1)
y2 = classifier.predict(X2)

Traceback (most recent call last):
...
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 219, in predict
  return predict_ovr(self.estimators_, self.label_binarizer_, X)
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 93, in predict_ovr
  Y = np.array([_predict_binary(e, X) for e in estimators])
File "/usr/local/lib/python2.7/dist-packages/sklearn/multiclass.py", line 66, in _predict_binary
  score = estimator.predict_proba(X)[:, 1]
File "/usr/local/lib/python2.7/dist-packages/sklearn/svm/base.py", line 490, in predict_proba
  "probability estimates must be enabled to use this method")
NotImplementedError: probability estimates must be enabled to use this method</code>

Run Code Online (Sandbox Code Playgroud)

有人知道它是什么吗？

svm scikit-learn

liz*_*isk

2018 12-22

3
推荐指数

1
解决办法

2842
查看次数

有一个问题在pandas中将索引从整数更改为日期

我有一个问题是将pandas DataFrame索引从整数更改为日期时间.我想这样做,以便我可以调用reindex并填写表中列出的日期之间的日期.请注意,我现在必须使用pandas 0.7.3因为我也使用qstk,而qstk依赖于pandas 0.7.3

首先,这是我的布局:

(Pdb) df
    AAPL  GOOG   IBM   XOM                 date
1      0     0  4000     0  2011-01-13 16:00:00
2      0  1000  4000     0  2011-01-26 16:00:00
3      0  1000  4000     0  2011-02-02 16:00:00
4      0  1000  4000  4000  2011-02-10 16:00:00
6      0     0  1800  4000  2011-03-03 16:00:00
7      0     0  3300  4000  2011-06-03 16:00:00
8      0     0     0  4000  2011-05-03 16:00:00
9   1200     0     0  4000  2011-06-10 16:00:00
11  1200     0     0  4000  2011-08-01 16:00:00
12     0     0     0  4000 …

Run Code Online (Sandbox Code Playgroud)

python pandas qstk

Mic*_*Cox

2015 11-24

2
推荐指数

1
解决办法

1501
查看次数