小编Tim*_*Tim的帖子

向 CountVectorizer 矩阵添加附加功能

我遇到了一个问题,我必须在 scikit learn 的 CountVectorizer 函数创建的标记计数列表中添加一个附加功能(平均字长)。假设我有以下代码:

#list of tweets
texts = [(list of tweets)]

#list of average word length of every tweet
average_lengths = word_length(tweets)

#tokenizer
count_vect = CountVectorizer(analyzer = 'word', ngram_range = (1,1))
x_counts = count_vect.fit_transform(texts)
Run Code Online (Sandbox Code Playgroud)

每个实例的格式应该是(标记,平均字长)。我最初的想法是使用 zip 函数简单地连接两个列表,如下所示:

x = zip(x_counts, average_lengths)
Run Code Online (Sandbox Code Playgroud)

但是当我尝试拟合模型时出现错误:

ValueError: setting an array element with a sequence.   
Run Code Online (Sandbox Code Playgroud)

任何人都知道如何解决这个问题?

python scikit-learn

5
推荐指数
1
解决办法
2943
查看次数

在Windows上导入PyStan时,DLL加载失败

我正在尝试在Windows 10中导入PyStan,但我不断收到以下错误消息:

Traceback (most recent call last):
import pystan
File "C:\Users\User\AppData\Local\Continuum\Anaconda2\envs\test\lib\site-packages\pystan\__init__.py", line 9, in <module>
  from pystan.api import stanc, stan
File "C:\Users\User\AppData\Local\Continuum\Anaconda2\envs\test\lib\site-packages\pystan\api.py", line 14, in <module>
  import pystan._api  # stanc wrapper
ImportError: DLL load failed: The specified module could not be found.
Run Code Online (Sandbox Code Playgroud)

我已经卸载了PyStan并重新安装了Pip,但似乎出现了相同的错误。我使用以下Python版本:

Python 3.5.6 |Anaconda, Inc.| (default, Aug 26 2018, 16:05:27) [MSC v.1900 64 bit (AMD64)] on win32
Run Code Online (Sandbox Code Playgroud)

当我不在虚拟环境中工作时,也会遇到相同的错误。

提前致谢。

python pystan

5
推荐指数
0
解决办法
874
查看次数

如何将一维数组转换为带有重复的二维数组

假设我有一个形状为 (5,) 的一维 numpy 数组:

a = np.array(range(0,5))
Run Code Online (Sandbox Code Playgroud)

我想通过将上面的数组复制 3 次来将它转换为两个二维数组,以便形状为 (5,3),例如:

array([[0,1,2,3,4],
      [0,1,2,3,4],
      [0,1,2,3,4]])
Run Code Online (Sandbox Code Playgroud)

我该怎么做?我知道对于列表,您可以使用 list.copy() 创建副本,但我不想先将数组转换为列表。

python numpy

5
推荐指数
1
解决办法
5358
查看次数

标签 统计

python ×3

numpy ×1

pystan ×1

scikit-learn ×1