小编Tus*_*ade的帖子

如何将参数传递给ML Pipeline.fit方法？

我正在尝试使用以下方法建立集群机制

Google Dataproc + Spark
Google Bigquery
使用Spark ML KMeans + pipeline创建作业

如下：

在bigquery中创建基于用户级别的功能表示
例：功能表的外观

userid |x1 |x2 |x3 |x4 |x5 |x6 |x7 |x8 |x9 |x10 00013 |0.01 | 0 |0 |0 |0 |0 |0 |0.06 |0.09 | 0.001
1. 旋转了一个默认设置集群，现在用gcloud指令行界面来创建群集和运行工作，如图这里
2. 使用提供的入门代码，我阅读了BQ表，将RDD转换为Dataframe并传递给KMeans模型/管道：

#!/usr/bin/python
"""BigQuery I/O PySpark example."""
import json
import pprint
import subprocess
import pyspark
import numpy as np
from pyspark.ml.clustering import KMeans
from pyspark import SparkContext
from pyspark.ml import Pipeline
from pyspark.sql import SQLContext
from pyspark.mllib.linalg import Vectors, _convert_to_vector …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark apache-spark-ml apache-spark-mllib

Tus*_*ade

2016 02-07

3
推荐指数

1
解决办法

2030
查看次数