我正在尝试遵循文档的贡献指南。所需的步骤是:
git clone https://github.com/tensorflow/tensorflow tensorflow
cd tensorflow/tensorflow/tools/docs
pip install tensorflow==2.0.0-alpha0
python generate2.py --output_dir=/tmp/out
Run Code Online (Sandbox Code Playgroud)
但是最后一个命令给了我:
回溯(最近一次调用):文件“generate2.py”,第 36 行,来自 tensorflow_docs.api_generator import doc_controls ModuleNotFoundError: No module named 'tensorflow_docs'
这是在第 36 行generate2.py:
from tensorflow_docs.api_generator import doc_controls
Run Code Online (Sandbox Code Playgroud)
我还没有找到包含tensorflow_docs. 有任何想法吗?
我在尝试将StringType强制转换为pyspark数据帧上的IntType时遇到错误:
joint = aggregates.join(df_data_3,aggregates.year==df_data_3.year)
joint2 = joint.filter(joint.CountyCode==999).filter(joint.CropName=='WOOL')\
.select(aggregates.year,'Production')\
.withColumn("ProductionTmp", df_data_3.Production.cast(IntegerType))\
.drop("Production")\
.withColumnRenamed("ProductionTmp", "Production")
Run Code Online (Sandbox Code Playgroud)
我越来越:
()最近的TypeErrorTraceback(最近调用最后一次)in joint = aggregates.join(df_data_3,aggregates.year == df_data_3.year)----> 2 joint2 = joint.filter(joint.CountyCode == 999).filter( joint.CropName =='WOOL').
select(aggregates.year,'Production').withColumn("ProductionTmp",df_data_3.Production.cast(IntegerType)).drop("Production").
withColumnRenamed("ProductionTmp", "生产")/usr/local/src/spark20master/spark/python/pyspark/sql/column.py in cast(self,dataType)335 jc = self._jc.cast(jdt)336 else: - > 337引发TypeError("意外" type:%s"%type(dataType))338 return column(jc)339
TypeError:意外类型:
我想在pandas dataframe列的子集上使用sklearn.preprocessing.StandardScaler.在管道之外,这是微不足道的:
df[['A', 'B']] = scaler.fit_transform(df[['A', 'B']])
Run Code Online (Sandbox Code Playgroud)
但现在假设我在类型字符串的df中有列'C',以及下面的管道定义
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('standard', StandardScaler())
])
df_scaled = pipeline.fit_transform(df)
Run Code Online (Sandbox Code Playgroud)
如何告诉StandardScaler只扩展A列和B列?
我已经习惯了SparkML管道,其中要缩放的特征可以传递给缩放器组件的构造函数:
normalizer = Normalizer(inputCol="features", outputCol="features_norm", p=1.0)
Run Code Online (Sandbox Code Playgroud)
注意:要素列包含稀疏向量,其中包含Spark的VectorAssembler创建的所有数字要素列
我正在尝试将Keras模型导出到TensorFlow.
Keras版本2.1.4 TF版本1.3.0 Numpy版本1.13.3
这是模型:
img_width, img_height = 150, 150
batch_size = 32
samples_per_epoch = 1000
validation_steps = 300
nb_filters1 = 32
nb_filters2 = 64
conv1_size = 3
conv2_size = 2
pool_size = 2
classes_num = 3
lr = 0.0004
model = Sequential()
model.add(Conv2D(32, (3, 3), input_shape=(img_width, img_height, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten()) # this converts our 3D feature maps to 1D feature vectors
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(1)) …Run Code Online (Sandbox Code Playgroud) 我有一个糟糕的HTTPD access_log,只想跳过"糟糕"的行.
在scala中,这很简单:
import scala.util.Try
val log = sc.textFile("access_log")
log.map(_.split(' ')).map(a => Try(a(8))).filter(_.isSuccess).map(_.get).map(code => (code,1)).reduceByKey(_ + _).collect()
Run Code Online (Sandbox Code Playgroud)
对于python我通过使用"lambda"表示法明确定义一个函数来得到以下解决方案:
log = sc.textFile("access_log")
def wrapException(a):
try:
return a[8]
except:
return 'error'
log.map(lambda s : s.split(' ')).map(wrapException).filter(lambda s : s!='error').map(lambda code : (code,1)).reduceByKey(lambda acu,value : acu + value).collect()
Run Code Online (Sandbox Code Playgroud)
在pyspark中有更好的方法(例如在Scala中)吗?
非常感谢!
我正在尝试使用一些可以在此处找到的 Google Web Graph 数据创建一个图表:
https://snap.stanford.edu/data/web-Google.html
import org.apache.spark._
import org.apache.spark.graphx._
import org.apache.spark.rdd.RDD
val textFile = sc.textFile("hdfs://n018-data.hursley.ibm.com/user/romeo/web-Google.txt")
val arrayForm = textFile.filter(_.charAt(0)!='#').map(_.split("\\s+")).cache()
val nodes = arrayForm.flatMap(array => array).distinct().map(_.toLong)
val edges = arrayForm.map(line => Edge(line(0).toLong,line(1).toLong))
val graph = Graph(nodes,edges)
Run Code Online (Sandbox Code Playgroud)
不幸的是,我收到此错误:
<console>:27: error: type mismatch;
found : org.apache.spark.rdd.RDD[Long]
required: org.apache.spark.rdd.RDD[(org.apache.spark.graphx.VertexId, ?)]
Error occurred in an application involving default arguments.
val graph = Graph(nodes,edges)
Run Code Online (Sandbox Code Playgroud)
那么如何创建 VertexId 对象呢?根据我的理解,传递一个 Long 应该就足够了。
有任何想法吗?
非常感谢!
罗密欧
我正在尝试使用 API 测试器在 Bluemix 中测试 IBM Watson Visual Recognition Service。
1st 我想获得有效标签的列表:
在阅读演示应用程序的源代码时,我正在推断标签,例如“动物”
知道我做错了什么吗?
演示应用程序似乎运行良好,至少它可以将奥巴马的形象识别为“人,总统,奥巴马”:)
如果我理解正确的话,结构区块链网络中的每个对等体(以某种方式通过八卦互连)只接受来自其他对等体的传入连接,如果它们使用与Fabric CA签名的公钥的HTTPS连接.
那是对的吗?
因此,在我的理解中,Root-CA成为单点故障,因为可以修改它,从那时起,经过修改的Root-CA证书将传播到节点,最终没有节点可以相互连接.
它是否正确?
使用 PySpark 时,代码如下:
from pyspark.sql.types import *
samples = np.array([0.1,0.2])
dfSchema = StructType([StructField("x", FloatType(), True)])
spark.createDataFrame(samples,dfSchema)
Run Code Online (Sandbox Code Playgroud)
我得到:
TypeError: StructType 无法接受类型 'numpy.float64'> 中的对象 0.10000000000000001
任何想法?
我想从 S3 资源创建 Apache Spark DataFrame。我在 AWS 和 IBM S3 Clout 对象存储上尝试过,都失败了
org.apache.spark.util.TaskCompletionListenerException: Premature end of Content-Length delimited message body (expected: 2,250,236; received: 16,360)
Run Code Online (Sandbox Code Playgroud)
我正在运行 pyspark
./pyspark --packages com.amazonaws:aws-java-sdk-pom:1.11.828,org.apache.hadoop:hadoop-aws:2.7.0
Run Code Online (Sandbox Code Playgroud)
我正在为 IBM 设置 S3 配置
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.eu-de.cloud-object-storage.appdomain.cloud")
Run Code Online (Sandbox Code Playgroud)
或者 AWS 与
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", "xx")
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", " xx ")
sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", "s3.us-west-2.amazonaws.com")
Run Code Online (Sandbox Code Playgroud)
在这两种情况下,代码如下: df=spark.read.csv("s3a://drill-test/cases.csv")
它失败了,但有例外
org.apache.spark.util.TaskCompletionListenerException: Premature end of Content-Length delimited message body (expected: 2,250,236; received: 16,360)
Run Code Online (Sandbox Code Playgroud) 我在本地 docker 容器中的 Nifi Flow 上工作了一整天。完成后,我将流程下载为 json 文件并终止了容器。我现在希望将其导入到 Kubernetes 上的 Nifi 实例中。不幸的是,似乎要走的路是使用模板。所以我猜 JSON 文件函数的下载流程是单向的?或者说这个功能的目的是什么?
有没有办法将此 JSON 转换为 template.xml?否则我必须重做我所有的工作。
是否有任何在线文档解释斯坦福NLP解析器输出的标签?
我对NLP很新,而且对我来说似乎像NN,VBZ ......这样的标签以及像poss,nsubj这样的关系似乎遵循一种标准,因为我已经在其他解析器上看到了这个输出.
非常感谢!
python ×6
apache-spark ×5
pyspark ×3
scala ×2
tensorflow ×2
amazon-s3 ×1
apache-nifi ×1
dataframe ×1
hyperledger ×1
ibm-cloud ×1
ibm-watson ×1
keras ×1
nlp ×1
numpy ×1
pandas ×1
parsing ×1
scikit-learn ×1
spark-graphx ×1
stanford-nlp ×1