Sha*_*ang 8 mysql sql-server hadoop parquet
也许这有很好的文档,但我很困惑如何做到这一点(有很多Apache工具).
当我创建一个SQL表时,我使用以下命令创建表:
CREATE TABLE table_name(
column1 datatype,
column2 datatype,
column3 datatype,
.....
columnN datatype,
PRIMARY KEY( one or more columns )
);
Run Code Online (Sandbox Code Playgroud)
如何将这个存在的表转换成Parquet?这个文件写入磁盘?如果原始数据是几GB,那么必须等待多长时间?
我可以将原始原始数据格式化为Parquet格式吗?
小智 7
Apache Spark可用于执行此操作:
1.load your table from mysql via jdbc
2.save it as a parquet file
Run Code Online (Sandbox Code Playgroud)
例:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING", "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5700 次 |
| 最近记录: |