我的发展环境:
依赖关系:
<dependencies>
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.10 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>2.2.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib_2.10 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-mllib_2.10</artifactId>
<version>2.2.0</version>
<scope>provided</scope>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql_2.10 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>2.2.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.scala-lang/scala-library -->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.10.6</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.scala-lang/scala-reflect -->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-reflect</artifactId>
<version>2.10.6</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.4</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.4</version>
</dependency>
</dependencies>
Run Code Online (Sandbox Code Playgroud)
问题:
我想将远程csv文件读入数据帧.
我试过下一个:
val weburl = "http://myurl.com/file.csv"
val tfile = spark.read.option("header","true").option("inferSchema","true").csv(weburl)
Run Code Online (Sandbox Code Playgroud)
它返回下一个错误:
Exception in …
Run Code Online (Sandbox Code Playgroud) 环境。
jupyterlab,Python 3.8。
ubuntu 20.04LTS。
(客户端:macos bigsur / google chrome)。
使用boto3。
情况。
我构建了 docker 镜像并将其成功推送到 ECR。
该图像具有 awslambdaric 并包含 aws-lambda-rie。
我可以使用 AWS Lambda 控制台部署该映像。
我想。
使用 boto3(=python 代码)将其部署到 lambda。
问题。
按照 boto3 手册,部署 lambda 如下:
import boto3
lambdac = boto3.client('lambda')
dic = {
'FunctionName':'lambda-name',
# 'Runtime':'python3.8',
'Role':'my-role-arn',
'Code':{'ImageUri':uri},
}
lambdac.create_function(**dic)
Run Code Online (Sandbox Code Playgroud)
这会出错。
它需要Runtime,所以我添加了runtime(我认为docker容器版本不需要runtime)。
并运行,并返回另一个错误。
InvalidParameterValueException: An error occurred (InvalidParameterValueException) when calling the CreateFunction operation: Runtime and Handler are mandatory parameters for functions created with deployment packages.
Run Code Online (Sandbox Code Playgroud)
这个错误让我想到“不支持 …