小编Sha*_*ica的帖子

我如何强制划分为浮点?分部继续向下舍入到0?

我有两个整数值ab,但我需要他们的浮点比例.我知道a < b并且我想要计算a / b,所以如果我使用整数除法,我将总是得到0,余数为a.

我如何c在Python中强制成为Python中的浮点数?

c = a / b
Run Code Online (Sandbox Code Playgroud)

python floating-point integer division python-2.x

703
推荐指数
9
解决办法
63万
查看次数

是否可以按降序使用argsort

请考虑以下代码:

avgDists = np.array([1, 8, 6, 9, 4])
ids = avgDists.argsort()[:n]
Run Code Online (Sandbox Code Playgroud)

这给了我n最小元素的索引.是否可以argsort按降序使用它来获得n最高元素的索引?

python numpy

155
推荐指数
5
解决办法
14万
查看次数

基于另一列pandas dataframe提取列值

我有点卡在另一个变量上提取一个变量条件的值.例如,以下数据帧:

A  B
p1 1
p1 2
p3 3
p2 4
Run Code Online (Sandbox Code Playgroud)

我怎样才能获得A何时的价值B=3?每当我提取值时A,我得到一个对象,而不是一个字符串.

python dataframe pandas

86
推荐指数
5
解决办法
12万
查看次数

如何检查spark数据帧是否为空

现在,我必须用来df.count > 0检查它是否DataFrame为空.但它效率低下.有没有更好的方法来做到这一点.

谢谢.

PS:我想检查它是否为空,以便我只保存,DataFrame如果它不是空的

apache-spark apache-spark-sql

82
推荐指数
9
解决办法
6万
查看次数

将索引上的数据帧与pandas合并

我有两个数据帧,每个数据帧有两个索引列.我想合并它们.例如,第一个数据帧如下:

                   V1

A      1/1/2012    12
       2/1/2012    14
B      1/1/2012    15
       2/1/2012    8
C      1/1/2012    17
       2/1/2012    9
Run Code Online (Sandbox Code Playgroud)

第二个数据帧如下:

                   V2

A      1/1/2012    15
       3/1/2012    21             
B      1/1/2012    24
       2/1/2012    9
D      1/1/2012    7
       2/1/2012    16
Run Code Online (Sandbox Code Playgroud)

结果我想得到以下内容:

                   V1   V2

A      1/1/2012    12   15
       2/1/2012    14   N/A
       3/1/2012    N/A  21           
B      1/1/2012    15   24
       2/1/2012    8    9
C      1/1/2012    7    N/A
       2/1/2012    16   N/A
D      1/1/2012    N/A  7
       2/1/2012    N/A  16
Run Code Online (Sandbox Code Playgroud)

我尝试使用pd.merge.join方法的几个版本,但似乎没有任何工作.你有什么建议吗?

python merge dataframe pandas

59
推荐指数
2
解决办法
8万
查看次数

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?

spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism

我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.

performance hadoop bigdata apache-spark apache-spark-sql

54
推荐指数
3
解决办法
6万
查看次数

Spark SQL - df.repartition和DataFrameWriter partitionBy之间的区别?

DataFrame repartition()和DataFrameWriter partitionBy()方法有什么区别?

我希望两者都习惯于"基于数据帧列分区数据"?或者有什么区别?

data-partitioning apache-spark-sql

42
推荐指数
3
解决办法
3万
查看次数

Scala库将数字(Int,Long,Double)转换为数组[Byte]

正如标题所说,是否有任何Scala库导出函数,以便将字节数组转换为Int,Long或Double?

我需要与2.9.1和FOSS兼容的东西.

如果您碰巧确切地知道我需要什么以及在哪里找到它,那么SBT的一条线和一条线就足够了!:)

如果没有我正在寻找的东西,那么Java中最接近的东西也会起作用......

serialization scala

35
推荐指数
4
解决办法
3万
查看次数

在将csv文件作为数据框读取时提供模式

我试图将csv文件读入数据帧.我知道我的数据帧的架构应该是什么,因为我知道我的csv文件.另外我使用spark csv包来读取文件.我试图指定如下的架构.

val pagecount = sqlContext.read.format("csv")
  .option("delimiter"," ").option("quote","")
  .option("schema","project: string ,article: string ,requests: integer ,bytes_served: long")
  .load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/pagecounts/sample/pagecounts-20151124-170000")
Run Code Online (Sandbox Code Playgroud)

但是当我检查我创建的数据框架的模式时,它似乎采用了自己的模式.我做错了吗?如何制作火花来接收我提到的架构?

> pagecount.printSchema
root
|-- _c0: string (nullable = true)
|-- _c1: string (nullable = true)
|-- _c2: string (nullable = true)
|-- _c3: string (nullable = true)
Run Code Online (Sandbox Code Playgroud)

scala dataframe apache-spark apache-spark-sql spark-csv

35
推荐指数
6
解决办法
7万
查看次数

在Dataframes中将日期从String转换为Date格式

我试图使用to_date函数将一个String格式的列转换为Date格式,但是它返回的Null值.

df.createOrReplaceTempView("incidents")
spark.sql("select Date from incidents").show()

+----------+
|      Date|
+----------+
|08/26/2016|
|08/26/2016|
|08/26/2016|
|06/14/2016|

spark.sql("select to_date(Date) from incidents").show()

+---------------------------+
|to_date(CAST(Date AS DATE))|
 +---------------------------+
|                       null|
|                       null|
|                       null|
|                       null|
Run Code Online (Sandbox Code Playgroud)

Date列采用String格式:

 |-- Date: string (nullable = true)
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql

35
推荐指数
5
解决办法
12万
查看次数