小编sat*_*kum的帖子

在DataFrameWriter上使用partitionBy会使用列名而不仅仅是值来编写目录布局

我正在使用Spark 2.0.

我有一个DataFrame.我的代码如下所示:

df.write.partitionBy("year", "month", "day").format("csv").option("header", "true").save(s"s3://bucket/")

Run Code Online (Sandbox Code Playgroud)

当程序执行时,它以下列格式写入文件:

s3://bucket/year=2016/month=11/day=15/file.csv

Run Code Online (Sandbox Code Playgroud)

如何配置格式如下:

s3://bucket/2016/11/15/file.csv

Run Code Online (Sandbox Code Playgroud)

我还想知道是否可以配置文件名.

这里的相关文档看起来很稀疏......
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrameWriter

partitionBy(colNames: String*): DataFrameWriter[T]
Partitions the output by the given columns on the file system. If specified, the output is laid out on the file system similar to Hive's partitioning scheme. As an example, when we partition a dataset by year and then month, the directory layout would look like:

year=2016/month=01/
year=2016/month=02/
Partitioning is one of the most widely used techniques to optimize physical data layout. It …

Run Code Online (Sandbox Code Playgroud)

configuration scala apache-spark spark-dataframe

sat*_*kum

lucky-day

15
推荐指数

1
解决办法

4664
查看次数

在 Excel VBA 工作簿的立即窗口中执行多行

我是否只能在 Excel VBA 立即窗口中执行 1 个命令？有没有办法执行多个语句？

excel vba immediate-window

sat*_*kum

lucky-day

7
推荐指数

1
解决办法

2340
查看次数

恢复期间锁定依赖项生成的 nuget packages.lock.json 文件的架构

我可以packages.lock.json按照此链接中的说明启用生成文件： https://learn.microsoft.com/en-us/nuget/consume-packages/package-references-in-project-files#locking-dependency

示例packages.lock.json文件可能如下所示：

{
  "version": 1,
  "dependencies": {
    ".NETCoreApp,Version=v3.1": {
      "Microsoft.NETFramework.ReferenceAssemblies": {
        "type": "Direct",
        "requested": "[1.0.0, )",
        "resolved": "1.0.0",
        "contentHash": "7D2TMufjGiowmt0E941kVoTIS+GTNzaPopuzM1/1LSaJAdJdBrVP0SkZW7AgDd0a2U1DjsIeaKG1wxGVBNLDMw=="
      },
      "Newtonsoft.Json": {
        "type": "Direct",
        "requested": "[12.0.3, )",
        "resolved": "12.0.3",
        "contentHash": "6mgjfnRB4jKMlzHSl+VD+oUc1IebOZabkbyWj2RiTgWwYPPuaK1H97G1sHqGwPlS5npiF5Q0OrxN1wni2n5QWg=="
      }
    }
  }
}

Run Code Online (Sandbox Code Playgroud)

是否有有关该文件的架构及其含义的文档？我注意到节点下有type、resolved、contentHash等字段dependencies。

有时节点可能遵循以下模式：

"Microsoft.Win32.Primitives": {
        "type": "Transitive",
        "resolved": "4.3.0",
        "contentHash": "9ZQKCWxH7Ijp9BfahvL2Zyf1cJIk8XYLF6Yjzr2yi0b2cOut/HQ31qf1ThHAgCc3WiZMdnWcfJCgN82/0UunxA==",
        "dependencies": {
          "Microsoft.NETCore.Platforms": "1.1.0",
          "Microsoft.NETCore.Targets": "1.1.0",
          "System.Runtime": "4.3.0"
        }
      }

Run Code Online (Sandbox Code Playgroud)

或者

"somenameclient": {
        "type": "Project",
        "dependencies": {
          "SomeNameClientLib": "1.0.0",
          "RRRBase": "1.0.0" …

Run Code Online (Sandbox Code Playgroud)

locking restore package nuget

sat*_*kum

lucky-day

5
推荐指数

1
解决办法

1095
查看次数

将Spark DataFrame数据划分为单独的文件

我从s3文件输入以下DataFrame,需要将数据转换为以下所需的输出.我使用Spark版本1.5.1和Scala,但可以用Python改为Spark.欢迎任何建议.

DataFrame输入:

name    animal   data
john    mouse    aaaaa
bob     mouse    bbbbb
bob     mouse    ccccc
bob     dog      ddddd

Run Code Online (Sandbox Code Playgroud)

期望的输出:

john/mouse/file.csv
bob/mouse/file.csv
bob/dog/file.csv

terminal$ cat bob/mouse/file.csv
bbbbb
ccccc

terminal$ cat bob/dog/file.csv
ddddd

Run Code Online (Sandbox Code Playgroud)

这是我尝试过的现有Spark Scala代码:

val sc = new SparkContext(new SparkConf())
val sqlc = new org.apache.spark.sql.SQLContext(sc)
val df = sqlc.read.json("raw.gz")
val cols = Seq("name", "animal")
df.groupBy(cols.head, cols.tail: _*).count().take(100).foreach(println)

Run Code Online (Sandbox Code Playgroud)

电流输出:

[john,mouse,1]
[bob,mouse,2]
[bob,dog,1]

Run Code Online (Sandbox Code Playgroud)

我现有代码的一些问题是groupBy返回一个GroupedData对象,我可能不想对该数据执行count/sum/agg函数.我正在寻找一种更好的技术来分组和输出数据.数据集非常大.

scala amazon-s3 dataframe apache-spark qubole

sat*_*kum

lucky-day

4
推荐指数

1
解决办法

1545
查看次数

Android View在同一个OnClick方法中设置为Visible和Gone,View从不显示Visible

您好stackoverflow社区,

我在droid 4.0.3设备上使用Android API 14.

在Activity中,我设置了一个Button,用于在页面执行操作时显示TextView.执行操作后,我希望TextView再次消失.

button1.setOnClickListener(new OnClickListener(){
    @Override
    public void onClick(View v) {
        // make textview visible 
        textView1.setVisibility(View.VISIBLE);      

        // perform action
        System.out.println("perform action");

        // make textview disappear
        textView1.setVisibility(View.GONE);
    }
});

Run Code Online (Sandbox Code Playgroud)

如果我删除使TextView消失的部分,TextView会按预期显示在窗口的顶部,但我希望TextView出现1-2秒然后消失.

起初我想知道我是否需要做更多的工作,而不仅仅是执行一个小动作,所以我尝试添加一个等待和打印文本,但没有一个工作.等待总是调用异常,结束活动,当我打印出数字1-1000时,视图仍然永久消失.

是否有更好的方法使TextView在OnClick操作中显示和消失？

谢谢你的帮助!

android view visible

sat*_*kum

2012 10-27

3
推荐指数

1
解决办法

9212
查看次数

在批处理cmd文件中使用set来更新变量值

批处理文件Test.cmd：

@set args=args1
@set value=value1

@if defined value (
  @echo args: [%args%], value: [%value%]
  @set args=%args% /value=%value%
  @echo args: [%args%]
)

@echo args: [%args%]

Run Code Online (Sandbox Code Playgroud)

命令输出>.\Test.cmd：

args: [args1], value: [value1]
args: [args1]
args: [args1 /value=value1]

Run Code Online (Sandbox Code Playgroud)

为什么我的每次调用都会@echo args: [%args%]返回不同的值？（一种没有更新的参数值，args1，一种具有更新，args1 /value=value1）

cmd batch-file set echo

sat*_*kum

2020 03-05

2
推荐指数

1
解决办法

4393
查看次数

标签统计

apache-spark ×2

scala ×2

amazon-s3 ×1

android ×1

batch-file ×1

cmd ×1

configuration ×1

dataframe ×1

echo ×1

excel ×1

immediate-window ×1

locking ×1

nuget ×1

package ×1

qubole ×1

restore ×1

set ×1

spark-dataframe ×1

vba ×1

view ×1

visible ×1

在DataFrameWriter上使用partitionBy会使用列名而不仅仅是值来编写目录布局

在 Excel VBA 工作簿的立即窗口中执行多行

恢复期间锁定依赖项生成的 nuget packages.lock.json 文件的架构

将Spark DataFrame数据划分为单独的文件

Android View在同一个OnClick方法中设置为Visible和Gone,View从不显示Visible

在批处理cmd文件中使用set来更新变量值

标签 统计

小编sat_kum的帖子

标签统计