小编Rom*_*ler的帖子

ModuleNotFoundError：创建 TensorFlow 文档时没有名为“tensorflow_docs”的模块

我正在尝试遵循文档的贡献指南。所需的步骤是：

git clone https://github.com/tensorflow/tensorflow tensorflow
cd tensorflow/tensorflow/tools/docs 
pip install tensorflow==2.0.0-alpha0 
python generate2.py --output_dir=/tmp/out

Run Code Online (Sandbox Code Playgroud)

但是最后一个命令给了我：

回溯（最近一次调用）：文件“generate2.py”，第 36 行，来自 tensorflow_docs.api_generator import doc_controls ModuleNotFoundError: No module named 'tensorflow_docs'

这是在第 36 行generate2.py：

from tensorflow_docs.api_generator import doc_controls

Run Code Online (Sandbox Code Playgroud)

我还没有找到包含tensorflow_docs. 有任何想法吗？

python tensorflow

Rom*_*ler

2019 06-02

10
推荐指数

1
解决办法

1万
查看次数

意外类型:<class'pyspark.sql.types.DataTypeSingleton'>在ApacheSpark Dataframe上转换为Int时

我在尝试将StringType强制转换为pyspark数据帧上的IntType时遇到错误:

joint = aggregates.join(df_data_3,aggregates.year==df_data_3.year)
joint2 = joint.filter(joint.CountyCode==999).filter(joint.CropName=='WOOL')\
    .select(aggregates.year,'Production')\
    .withColumn("ProductionTmp", df_data_3.Production.cast(IntegerType))\
    .drop("Production")\
    .withColumnRenamed("ProductionTmp", "Production")

Run Code Online (Sandbox Code Playgroud)

我越来越:

()最近的TypeErrorTraceback(最近调用最后一次)in joint = aggregates.join(df_data_3,aggregates.year == df_data_3.year)----> 2 joint2 = joint.filter(joint.CountyCode == 999).filter( joint.CropName =='WOOL').
select(aggregates.year,'Production').withColumn("ProductionTmp",df_data_3.Production.cast(IntegerType)).drop("Production").
withColumnRenamed("ProductionTmp", "生产")

/usr/local/src/spark20master/spark/python/pyspark/sql/column.py in cast(self,dataType)335 jc = self._jc.cast(jdt)336 else: - > 337引发TypeError("意外" type:%s"%type(dataType))338 return column(jc)339

TypeError:意外类型:

python dataframe apache-spark apache-spark-sql pyspark

Rom*_*ler

2019 01-06

9
推荐指数

1
解决办法

5839
查看次数

在Pandas数据帧列的子集上使用Pipeline中的scikit StandardScaler

我想在pandas dataframe列的子集上使用sklearn.preprocessing.StandardScaler.在管道之外,这是微不足道的:

df[['A', 'B']] = scaler.fit_transform(df[['A', 'B']])

Run Code Online (Sandbox Code Playgroud)

但现在假设我在类型字符串的df中有列'C',以及下面的管道定义

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

pipeline =  Pipeline([
                ('standard', StandardScaler())
            ])

df_scaled = pipeline.fit_transform(df)

Run Code Online (Sandbox Code Playgroud)

如何告诉StandardScaler只扩展A列和B列？

我已经习惯了SparkML管道,其中要缩放的特征可以传递给缩放器组件的构造函数:

normalizer = Normalizer(inputCol="features", outputCol="features_norm", p=1.0)

Run Code Online (Sandbox Code Playgroud)

注意:要素列包含稀疏向量,其中包含Spark的VectorAssembler创建的所有数字要素列

python pandas scikit-learn

Rom*_*ler

2018 05-13

9
推荐指数

2
解决办法

1207
查看次数

将Keras模型导出到TensorFlow时,'Sequential'对象没有属性'_is_graph_network'

我正在尝试将Keras模型导出到TensorFlow.

Keras版本2.1.4 TF版本1.3.0 Numpy版本1.13.3

这是模型:

img_width, img_height = 150, 150
batch_size = 32
samples_per_epoch = 1000
validation_steps = 300
nb_filters1 = 32
nb_filters2 = 64
conv1_size = 3
conv2_size = 2
pool_size = 2
classes_num = 3
lr = 0.0004

model = Sequential()
model.add(Conv2D(32, (3, 3), input_shape=(img_width, img_height, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())  # this converts our 3D feature maps to 1D feature vectors
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(1)) …

Run Code Online (Sandbox Code Playgroud)

python keras tensorflow

Rom*_*ler

2018 04-17

8
推荐指数

1
解决办法

3731
查看次数

什么相当于pyspark中的scala.util.Try？

我有一个糟糕的HTTPD access_log,只想跳过"糟糕"的行.

在scala中,这很简单:

import scala.util.Try

val log = sc.textFile("access_log")

log.map(_.split(' ')).map(a => Try(a(8))).filter(_.isSuccess).map(_.get).map(code => (code,1)).reduceByKey(_ + _).collect()

Run Code Online (Sandbox Code Playgroud)

对于python我通过使用"lambda"表示法明确定义一个函数来得到以下解决方案:

log = sc.textFile("access_log")

def wrapException(a):
    try:
        return a[8]
    except:
        return 'error'

log.map(lambda s : s.split(' ')).map(wrapException).filter(lambda s : s!='error').map(lambda code : (code,1)).reduceByKey(lambda acu,value : acu + value).collect()

Run Code Online (Sandbox Code Playgroud)

在pyspark中有更好的方法(例如在Scala中)吗？

非常感谢!

python scala apache-spark pyspark

Rom*_*ler

2015 10-28

7
推荐指数

2
解决办法

3014
查看次数

如何使用 Long 数据类型在 Apache Spark GraphX 中创建 VertexId？

我正在尝试使用一些可以在此处找到的 Google Web Graph 数据创建一个图表：

https://snap.stanford.edu/data/web-Google.html

import org.apache.spark._
import org.apache.spark.graphx._
import org.apache.spark.rdd.RDD



val textFile = sc.textFile("hdfs://n018-data.hursley.ibm.com/user/romeo/web-Google.txt")
val arrayForm = textFile.filter(_.charAt(0)!='#').map(_.split("\\s+")).cache()
val nodes = arrayForm.flatMap(array => array).distinct().map(_.toLong)
val edges = arrayForm.map(line => Edge(line(0).toLong,line(1).toLong))

val graph = Graph(nodes,edges)

Run Code Online (Sandbox Code Playgroud)

不幸的是，我收到此错误：

<console>:27: error: type mismatch;
 found   : org.apache.spark.rdd.RDD[Long]
 required: org.apache.spark.rdd.RDD[(org.apache.spark.graphx.VertexId, ?)]
Error occurred in an application involving default arguments.
       val graph = Graph(nodes,edges)

Run Code Online (Sandbox Code Playgroud)

那么如何创建 VertexId 对象呢？根据我的理解，传递一个 Long 应该就足够了。

有任何想法吗？

非常感谢！

罗密欧

scala apache-spark spark-graphx

Rom*_*ler

lucky-day

5
推荐指数

1
解决办法

5919
查看次数

Bluemix 中的 IBM Watson Visual Recognition Service 总是返回空内容

我正在尝试使用 API 测试器在 Bluemix 中测试 IBM Watson Visual Recognition Service。

1st 我想获得有效标签的列表：

我打开API测试器：http : //www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/apis/#!/ visual-recognition/ getLabelService
我发出一个空字符串
响应正文：无内容，响应代码：0

在阅读演示应用程序的源代码时，我正在推断标签，例如“动物”

我打开这个链接： http //www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/apis/#!/visual- recognizeLabelsService
我上传图像并将标签设置为“动物”
响应正文：无内容，响应代码：0

知道我做错了什么吗？

演示应用程序似乎运行良好，至少它可以将奥巴马的形象识别为“人，总统，奥巴马”:)

ibm-watson visual-recognition ibm-cloud

Rom*_*ler

2016 01-07

5
推荐指数

1
解决办法

660
查看次数

如何避免Fabric CA出现单点故障？

如果我理解正确的话,结构区块链网络中的每个对等体(以某种方式通过八卦互连)只接受来自其他对等体的传入连接,如果它们使用与Fabric CA签名的公钥的HTTPS连接.

那是对的吗？

因此,在我的理解中,Root-CA成为单点故障,因为可以修改它,从那时起,经过修改的Root-CA证书将传播到节点,最终没有节点可以相互连接.

它是否正确？

hyperledger hyperledger-fabric

Rom*_*ler

lucky-day

5
推荐指数

1
解决办法

1299
查看次数

PySpark: TypeError: StructType 无法接受类型 <type 'numpy.float64'> 中的对象 0.10000000000000001

使用 PySpark 时，代码如下：

from pyspark.sql.types import *
samples = np.array([0.1,0.2])
dfSchema = StructType([StructField("x", FloatType(), True)])
spark.createDataFrame(samples,dfSchema)

Run Code Online (Sandbox Code Playgroud)

我得到：

TypeError: StructType 无法接受类型 'numpy.float64'> 中的对象 0.10000000000000001

任何想法？

python numpy apache-spark apache-spark-sql pyspark

Rom*_*ler

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

ApacheSpark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame。我在 AWS 和 IBM S3 Clout 对象存储上尝试过，都失败了

org.apache.spark.util.TaskCompletionListenerException: Premature end of Content-Length delimited message body (expected: 2,250,236; received: 16,360)

Run Code Online (Sandbox Code Playgroud)

我正在运行 pyspark

./pyspark --packages com.amazonaws:aws-java-sdk-pom:1.11.828,org.apache.hadoop:hadoop-aws:2.7.0

Run Code Online (Sandbox Code Playgroud)

我正在为 IBM 设置 S3 配置

sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.eu-de.cloud-object-storage.appdomain.cloud")

Run Code Online (Sandbox Code Playgroud)

或者 AWS 与

sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", " xx ")
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.us-west-2.amazonaws.com")

Run Code Online (Sandbox Code Playgroud)

在这两种情况下，代码如下： df=spark.read.csv("s3a://drill-test/cases.csv")

它失败了，但有例外

org.apache.spark.util.TaskCompletionListenerException: Premature end of Content-Length delimited message body (expected: 2,250,236; received: 16,360)

Run Code Online (Sandbox Code Playgroud)

amazon-s3 apache-spark apache-spark-sql ibm-cloud-storage

Rom*_*ler

2020 07-30

3
推荐指数

1
解决办法

6520
查看次数

如何导入 NiFi_Flow.json 或转换为模板？

我在本地 docker 容器中的 Nifi Flow 上工作了一整天。完成后，我将流程下载为 json 文件并终止了容器。我现在希望将其导入到 Kubernetes 上的 Nifi 实例中。不幸的是，似乎要走的路是使用模板。所以我猜 JSON 文件函数的下载流程是单向的？或者说这个功能的目的是什么？

有没有办法将此 JSON 转换为 template.xml？否则我必须重做我所有的工作。

apache-nifi

Rom*_*ler

lucky-day

1
推荐指数

1
解决办法

4027
查看次数