关于神经网络理论,这是一个主要问题:
为什么我们必须规范化神经网络的输入?
我理解有时,例如当输入值是非数字时,必须执行某个转换,但是当我们有数字输入时?为什么数字必须在一定的间隔内?
如果数据未规范化会发生什么?
当我尝试将df2提供给kmeans时,我收到以下错误
clusters = KMeans.train(df2, 10, maxIterations=30,
runs=10, initializationMode="random")
Run Code Online (Sandbox Code Playgroud)
我得到的错误:
Cannot convert type <class 'pyspark.sql.types.Row'> into Vector
Run Code Online (Sandbox Code Playgroud)
df2是一个如下创建的数据框:
df = sqlContext.read.json("data/ALS3.json")
df2 = df.select('latitude','longitude')
df2.show()
latitude| longitude|
60.1643075| 24.9460844|
60.4686748| 22.2774728|
Run Code Online (Sandbox Code Playgroud)
如何将这两列转换为Vector并将其提供给KMeans?