小编dev*_*v ツ的帖子

通过JDBC从RDBMS读取时分区为spark

我在集群模式下运行spark并通过JDBC从RDBMS读取数据.

根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:

  • partitionColumn
  • lowerBound
  • upperBound
  • numPartitions

这些是可选参数.

如果我不指定这些,会发生什么:

  • 只有1名工人读取整个数据?
  • 如果它仍然并行读取,它如何分区数据?

partitioning jdbc apache-spark apache-spark-sql

9
推荐指数
1
解决办法
4536
查看次数

使用Jersey Client 2.22.1关闭GET请求中的连接

我使用Jersey客户端从Java代码进行REST调用:

<dependency>
    <groupId>org.glassfish.jersey.core</groupId>
    <artifactId>jersey-client</artifactId>
    <version>2.22.1</version>
</dependency> 
Run Code Online (Sandbox Code Playgroud)

在我的GET请求中,

javax.ws.rs.client.Invocation.Builder builder = ClientBuilder.newClient().target(url).request(); 
builder.get().readEntity(String.class);
Run Code Online (Sandbox Code Playgroud)

客户将在致电后自动关闭readEntity(String.class).

如果我用,

builder.get(String.class);  
Run Code Online (Sandbox Code Playgroud)

我得到相同的输出.

连接是自动关闭还是我需要在这种情况下手动关闭它?

jersey jersey-client jersey-2.0

8
推荐指数
1
解决办法
1万
查看次数

将pandas df写入excel时没有名为xlsxwriter的模块错误

在编写将数据帧写入Excel 的Pandas代码时。

import pandas as pd

df = pd.DataFrame({'Data': [10, 20, 30, 20, 15, 30, 45]})
writer = pd.ExcelWriter('pandas_simple.xlsx', engine='xlsxwriter')
df.to_excel(writer, sheet_name='Sheet1')
writer.save()
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

File "/usr/local/lib64/python2.7/site-packages/pandas/io/excel.py", line 1934, in __init__
import xlsxwriter
ImportError: No module named xlsxwriter
Run Code Online (Sandbox Code Playgroud)

我需要在 python 文件中显式导入xlsxwriter模块吗?

python pandas

8
推荐指数
1
解决办法
1万
查看次数

为什么STUFF删除XML?

请参阅下面的DDL:

create table #Test (id int,Name varchar(30))

insert into #Test values (1,'Ian')
insert into #Test values(1,'Mark')
insert into #Test values(2,'James')
insert into #Test values(3,'Karen')
insert into #Test values(3,'Suzie')
Run Code Online (Sandbox Code Playgroud)

和下面的SQL:

select * from #Test for xml path('')
Run Code Online (Sandbox Code Playgroud)

返回:

<id>1</id>
<Name>Ian</Name>
<id>1</id>
<Name>Mark</Name>
<id>2</id>
<Name>James</Name>
<id>3</id>
<Name>Karen</Name>
<id>3</id>
<Name>Suzie</Name>
Run Code Online (Sandbox Code Playgroud)

这就是我所期待的.现在看下面的SQL:

SELECT distinct ID,
STUFF( (select ','+ NAME from #Test as #Test1 where #Test1.id=#Test2.id FOR XML PATH('')),1,1,'') FROM #Test as #Test2
Run Code Online (Sandbox Code Playgroud)

返回:

1   Ian,Mark
2   James
3   Karen,Suzie
Run Code Online (Sandbox Code Playgroud)

这就是我想要的回报.但是,XML元素何去何从?

sql sql-server

7
推荐指数
1
解决办法
2204
查看次数

sqoop中的--direct模式是什么?

根据我的理解,sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE。

而且我们可以直接导入单个表或表列表。内部mapreduce程序(我认为只有map任务)将运行。

我的疑问是什么是直接使用sqoop,什么时候使用直接选择sqoop?

hadoop sqoop hadoop2 sqoop2

7
推荐指数
2
解决办法
1万
查看次数

mongodb写关注:所有副本成员动态吗?

是否有可能设置WriteConcern成类似所有这意味着插入/当所有的"当前功能"(在运行时)副本成员确认操作更新将只返回?

  1. "多数"设置让一些成员下落不明.
  2. 如果我们指定一个数值,如果我们设置WriteConcern为"总成员数"并且任何副本成员因任何原因而关闭,则插入/更新可能会无限期暂停.
  3. 如果我们使用标记集,如官方文档中所述,我们仍然需要为每个标记提供一个数值,如果我们指定数值作为总成员数,并且任何成员关闭,结果将与第二点相同.

我们想到的是,如果有一个设置WriteConcern,动态地,插入/更新时副本成员的总数.

提前致谢!

mongodb

6
推荐指数
1
解决办法
976
查看次数

来自"com.sun.*"和"sun.*"包的类不应该用于Jersey客户端的Sonar问题

我正在jersey client用于休息电话.我的代码导入是:

import com.sun.jersey.api.client.Client;
import com.sun.jersey.api.client.ClientResponse;
import com.sun.jersey.api.client.WebResource;
Run Code Online (Sandbox Code Playgroud)

一切都很好.我Sonar用来检查我的代码质量.

声纳显示出一个主要问题:

不应使用"com.sun."和"sun. "包中的类

这实际上是使用sun的类吗?

如果是,有哪些替代方案?

java jersey sonarqube

6
推荐指数
1
解决办法
5610
查看次数

如何将数据帧(从hive表中获取)写入hadoop SequenceFile和RCFile?

我能把它写进去

  • ORC
  • PARQUET

    直接和

  • TEXTFILE

  • AVRO

使用databricks的其他依赖项.

    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-csv_2.10</artifactId>
        <version>1.5.0</version>
    </dependency>
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-avro_2.10</artifactId>
        <version>2.0.1</version>
    </dependency>
Run Code Online (Sandbox Code Playgroud)

示例代码:

    SparkContext sc = new SparkContext(conf);
    HiveContext hc = new HiveContext(sc);
    DataFrame df = hc.table(hiveTableName);
    df.printSchema();
    DataFrameWriter writer = df.repartition(1).write();

    if ("ORC".equalsIgnoreCase(hdfsFileFormat)) {
        writer.orc(outputHdfsFile);

    } else if ("PARQUET".equalsIgnoreCase(hdfsFileFormat)) {
        writer.parquet(outputHdfsFile);

    } else if ("TEXTFILE".equalsIgnoreCase(hdfsFileFormat)) {
        writer.format("com.databricks.spark.csv").option("header", "true").save(outputHdfsFile);

    } else if ("AVRO".equalsIgnoreCase(hdfsFileFormat)) {
        writer.format("com.databricks.spark.avro").save(outputHdfsFile);
    }
Run Code Online (Sandbox Code Playgroud)

有没有办法将数据帧写入hadoop SequenceFile和RCFile?

apache-spark apache-spark-sql spark-dataframe

6
推荐指数
1
解决办法
1012
查看次数

如何检查 AWS Batch 作业的内存和 CPU 使用率

在创建批处理作业时,我们可以在容器属性中提供vCPU内存

在 cloudwatch 中,我们可以在每个集群的Elastic Container Service下检查每个集群的内存和 CPU 使用情况。

有没有办法检查每个作业的内存和 CPU 使用率?

amazon-web-services amazon-cloudwatch aws-batch

6
推荐指数
1
解决办法
1605
查看次数

基于外部文件的气流动态任务

我正在从外部文件读取元素列表并循环遍历元素以创建一系列任务。

例如,如果文件中有 2 个元素 - [A, B]。将有2个系列的任务:

A1 -> A2 ..
B1 -> B2 ...
Run Code Online (Sandbox Code Playgroud)

这种读取元素逻辑不是任何任务的一部分,而是 DAG 本身的一部分。因此,调度程序每天在读取 DAG 文件时会多次调用它。我只想在 DAG 运行时调用它。

想知道是否已经有这种用例的模式?

airflow airflow-scheduler

6
推荐指数
1
解决办法
272
查看次数