小编br0*_*ipe的帖子

Docker 中 MySQL 密码的最佳实践

我目前正在使用 docker 容器和 mysql 数据库。每个应用程序在其自己的 docker 容器中都有自己的 mysql 数据库。应用程序和数据库共享一个网络，应用程序本身是通过另一个网络（traefik）访问的。这意味着mysql数据库无法从外部访问。为 mysql 实例设置安全密码有多重要？有最佳实践吗？

更新：现在使用 Docker 秘密

这是我与 nextcloud 一起使用的示例docker-compose.yaml ：

services: 
  nextcloud-db:
    image: mariadb
    container_name: nextcloud-db
    command: --transaction-isolation=READ-COMMITTED --log-bin=ROW
    restart: unless-stopped
    volumes:
      - /opt/docker/nextcloud/database:/var/lib/mysql
    environment:
      MYSQL_ROOT_PASSWORD_FILE: /run/secrets/mysql_root_password
      MYSQL_PASSWORD_FILE: /run/secrets/mysql_user_password
      MYSQL_DATABASE: nextcloud
      MYSQL_USER: nextcloud
      MYSQL_INITDB_SKIP_TZINFO: 1
    secrets:
      - mysql_root_password
      - mysql_user_password



secrets:
  mysql_root_password:
    file: /opt/docker/secrets/mysql_root_password
  mysql_user_password:
    file: /opt/docker/secrets/mysql_user_password

Run Code Online (Sandbox Code Playgroud)

您可以使用以下命令创建秘密文件：

openssl rand -base64 32 > /opt/docker/secrets/mysql_root_password
openssl rand -base64 32 > /opt/docker/secrets/mysql_user_password

Run Code Online (Sandbox Code Playgroud)

mysql docker

br0*_*ipe

2020 04-19

8
推荐指数

1
解决办法

1万
查看次数

指望Spark Dataframe非常慢

我正在使用来自Join的一些记录创建一个新的DataFrame.

val joined_df = first_df.join(second_df, first_df.col("key") ===
second_df.col("key") && second_df.col("key").isNull, "left_outer")
joined_df.repartition(1)
joined_df.cache()
joined_df.count()

Run Code Online (Sandbox Code Playgroud)

除计数操作外,一切都很快(不到一秒).RDD转换开始并且完成需要几个小时.有什么方法可以加快速度吗？

INFO MemoryStore: Block rdd_63_140 stored as values in memory (estimated size 16.0 B, free 829.3 MB)
INFO BlockManagerInfo: Added rdd_63_140 in memory on 192.168.8.52:36413 (size: 16.0 B, free: 829.8 MB)
INFO Executor: Finished task 140.0 in stage 10.0 (TID 544). 4232 bytes result sent to driver
INFO TaskSetManager: Starting task 142.0 in stage 10.0 (TID 545, localhost, executor driver, partition 142, PROCESS_LOCAL, 6284 bytes)
INFO …

Run Code Online (Sandbox Code Playgroud)

scala count apache-spark rdd spark-dataframe

br0*_*ipe

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

如何从Scala方法创建UDF(计算md5)？

我想从两个已经工作的函数构建一个UDF.我正在尝试将md5哈希计算为现有Spark Dataframe的新列.

def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

Run Code Online (Sandbox Code Playgroud)

结构(到目前为止我有什么)

val md5_hash: // UDF Implementation
val sqlfunc = udf(md5_hash)
val new_df = load_df.withColumn("New_MD5_Column", sqlfunc(col("Duration")))

Run Code Online (Sandbox Code Playgroud)

不幸的是,我不知道如何将该函数作为UDF实现.

scala apache-spark apache-spark-sql udf

br0*_*ipe

2017 06-30

4
推荐指数

2
解决办法

2663
查看次数

一次在多个 Spark DataFrame 列上运行

我需要一次计算多个数据帧列的 md5 哈希。

功能

def md5 = udf((s: String) => toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8"))))
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

Run Code Online (Sandbox Code Playgroud)

一列示例

var test_df = load_df.as('a).select($"a.attr1", md5($"a.attr2").as("hash_key"))

+-------------+--------------------+
|     attr1   |            hash_key|
+-------------+--------------------+
|9/1/2015 0:23|7a2f516dad8f13ae1...|
|9/1/2015 0:31|339c72b1870c3a6be...|
|9/1/2015 0:19|7065847af7abc6bce...|
|9/1/2015 1:32|38c7276958809893b...|

Run Code Online (Sandbox Code Playgroud)

一列（a.attr2）的生成效果很好，但我找不到任何好方法将多列插入/连接到 md5() 函数中。

md5 scala user-defined-functions dataframe apache-spark

br0*_*ipe

lucky-day

1
推荐指数

1
解决办法

6231
查看次数

将StructField添加到现有模式

我创建了一个类"属性".每个类对象都有一个名称,一个数据类型和一个布尔值(可以为空或可以为空).所有对象都保存到ListBuffer中.

我尝试从列表中创建一个模式,并将每个值传递给StructField().启动工作,但遗憾的是,没有其他项目添加到架构中.

def create_schema_from_attr_list(attr_list: ListBuffer[Attribute]): StructType = {
  // Get first list item and initiate schema
  var schema = StructType(StructField(attr_list(0).name, attr_list(0).data_type, attr_list(0).nullable) :: Nil)

  // Add remaining items
  for (i <- 1 until attr_list.length) {
    schema.add(attr_list(i).name, attr_list(i).data_type, attr_list(i).nullable)
    println("Test " + attr_list(i).name.toString())
  }        
  return schema
}

Run Code Online (Sandbox Code Playgroud)

loops scala apache-spark apache-spark-sql

br0*_*ipe

2019 01-09

0
推荐指数

1
解决办法

479
查看次数