小编jrj*_*s83的帖子

将 Sklearn TFIDF 与附加数据相结合

我正在尝试为监督学习准备数据。我有我的 Tfidf 数据,它是从我的数据框中名为“合并”的列生成的

vect = TfidfVectorizer(stop_words='english', use_idf=True, min_df=50, ngram_range=(1,2))
X = vect.fit_transform(merged['kws_name_desc'])
print X.shape
print type(X)

(57629, 11947)
<class 'scipy.sparse.csr.csr_matrix'>
Run Code Online (Sandbox Code Playgroud)

但我还需要向这个矩阵添加额外的列。对于 TFIDF 矩阵中的每个文档,我都有一个附加数字特征的列表。每个列表的长度为 40,它由浮点数组成。

所以为了澄清起见,我有 57,629 个长度为 40 的列表,我想将它们附加到我的 TDIDF 结果中。

目前,我在 DataFrame 中有这个,示例数据:合并 ["other_data"]。下面是来自合并 ["other_data"] 的示例行

0.4329597715,0.3637511039,0.4893141843,0.35840...   
Run Code Online (Sandbox Code Playgroud)

如何使用 TF-IDF 矩阵附加数据框列的 57,629 行?老实说,我不知道从哪里开始,希望得到任何指点/指导。

numpy pandas sklearn-pandas

7
推荐指数
1
解决办法
5185
查看次数

大查询 - Google Analytics(分析) - 首次访问和购买之间的时差

试图获取一个列表:

访客,时间第一次访问,交易发生的时间.

我写的只是抓取具有交易收入的行.我也试图将visitStartTime(这是一个unix日期)转换为通过Date(visitStartTime)的常规日期,但由于输出日期而在组中失败.

任何方向超级有用.

SELECT 
  fullvisitorID, 
  visitNumber,
  visitStartTime,
  hits.transaction.transactionRevenue

FROM 
  [75718103.ga_sessions_20150310],
  [75718103.ga_sessions_20150309],
  [75718103.ga_sessions_20150308],
  [75718103.ga_sessions_20150307],
  [75718103.ga_sessions_20150306],
  [75718103.ga_sessions_20150305],
  [75718103.ga_sessions_20150304],
  [75718103.ga_sessions_20150303],
  [75718103.ga_sessions_20150302],


WHERE totals.transactions >=1

GROUP BY    
  fullvisitorID, visitNumber, visitStartTime, hits.transaction.transactionRevenue;
Run Code Online (Sandbox Code Playgroud)

google-analytics google-bigquery

3
推荐指数
1
解决办法
6703
查看次数

如何将整数数组转换为行?

我有一张桌子,上面有:

id、时间戳、[整数数组]

如何将整数数组转换为行?几乎与array_agg相反。

例如,

1, ts, [1,2,3]
2, ts, [7,8,9]
Run Code Online (Sandbox Code Playgroud)

将是

1, ts, 1
1, ts, 2
1, ts, 3
2, ts, 7
2, ts, 8
2, ts, 9
Run Code Online (Sandbox Code Playgroud)

我已经通读了https://docs.snowflake.net/manuals/sql-reference/udf-js-table-functions.html但不清楚这是否有效。我试图避免在数据库之外使用脚本语言。谢谢!

snowflake-cloud-data-platform

3
推荐指数
1
解决办法
1256
查看次数