小编Geo*_*ler的帖子

由pivot_table引入的熊猫NaN

我有一个表格,其中包含一些国家及其来自世界银行API的KPI.这看起来像没有纳米值存在.如您所见,没有纳米值存在.

但是,我需要调整此表以将int引入正确的形状以进行分析.A pd.pivot_table(countryKPI, index=['germanCName'], columns=['indicator.id']) 对于某些人来说,TUERKEI这样做很好:

对于火鸡它有效 但对于大多数国家而言,引入了奇怪的纳米值.我怎么能阻止这个?

奇怪的南方价值观

python pivot pivot-table nan pandas

4
推荐指数
1
解决办法
1万
查看次数

gis计算点和多边形/边界之间的距离

我想使用 python / 计算一个点和一个国家边界之间的距离shapely。它应该可以正常工作 point.distance(poly) 例如在这里演示Find Coordinate of Closest Point on Polygon Shapely但是使用geopandas我面临的问题是: 'GeoSeries' object has no attribute '_geom'

我对数据的处理有什么问题?我的边界数据集来自http://www.gadm.org/

'GeoSeries' 对象没有属性 '_geom'

python gis distance shapely geopandas

4
推荐指数
1
解决办法
6284
查看次数

xgboost情节重要性数字大小

如何更改xgboost的绘图重要性函数的数字大小?

尝试传递figsize =(10,20)失败,但未知属性除外.

python matplotlib scikit-learn xgboost

4
推荐指数
2
解决办法
5147
查看次数

熊猫数据框 dtypes 比较相等性

如何查看dtypes熊猫数据框中的哪些不相等?

即找出为什么df1.dtypes.equals(df2.dtypes)返回False

python equality pandas

4
推荐指数
1
解决办法
2860
查看次数

当库使用模板(泛型)时,是否可以使用Rust的C++库?

当库(例如Boost)使用模板(泛型)时,是否可以使用Rust的C++库?

c++ templates ffi rust

4
推荐指数
1
解决办法
2743
查看次数

4
推荐指数
1
解决办法
881
查看次数

Spark 将字符串解析为带时区的时间戳

我有一个像这样的字符串:

2018-03-21T08:15:00+01:00
Run Code Online (Sandbox Code Playgroud)

并想知道在 Spark 中解析时如何保留时区/从 UTC 偏移。

Seq("2018-03-21T08:15:00+01:00").toDF.select('value, to_timestamp('value, "yyy-MM-ddTHH:mm:ss")).show(false)
Run Code Online (Sandbox Code Playgroud)

不幸的是只产生null. 即使我省略了移位的格式字符串也只返回null.

timezone timestamp timezone-offset apache-spark apache-spark-sql

4
推荐指数
1
解决办法
4611
查看次数

熊猫按多列过滤NULL

我有一个熊猫数据框,如:

df = pd.DataFrame({'Last_Name': ['Smith', None, 'Brown'], 
                   'First_Name': ['John', None, 'Bill'],
                   'Age': [35, 45, None]})
Run Code Online (Sandbox Code Playgroud)

并且可以使用以下方法手动过滤它:

df[df.Last_Name.isnull() & df.First_Name.isnull()]
Run Code Online (Sandbox Code Playgroud)

但这很烦人,因为我需要为每个列/条件编写大量重复代码。如果有大量列,则不可维护。是否可以编写一个为我生成此 python 代码的函数?

一些背景:我的熊猫数据框基于初始的基于 SQL 的多维聚合(分组集)https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-multi-Dimension-aggregation.html所以总是一些不同的列是NULL。现在,我想有效地选择这些不同的组并在 Pandas 中分别分析它们。

python metaprogramming pandas

4
推荐指数
1
解决办法
5640
查看次数

火花poseexplode失败与列

如何在 SparkswithColumn语句中使用poseexplode?

Seq(Array(1,2,3)).toDF.select(col("*"), posexplode(col("value")) as Seq("position", "value")).show
Run Code Online (Sandbox Code Playgroud)

工作得很好,然而:

Seq(Array(1,2,3)).toDF.withColumn("foo", posexplode(col("value"))).show
Run Code Online (Sandbox Code Playgroud)

失败并显示:

org.apache.spark.sql.AnalysisException: The number of aliases supplied in the AS clause does not match the number of columns output by the UDTF expected 2 aliases but got foo ;
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql

4
推荐指数
1
解决办法
6320
查看次数

熊猫有条件地以粗体格式设置字段

我有一个熊猫数据框:

import pandas as pd
import numpy as np

df = pd.DataFrame({'foo':[1,2, 3, 4],
                   'bar':[[1,2,0.04], [1,2,0.04], [1,2,0.06], np.nan]})
display(df)

def stars(x, sign_level):
    if x is np.nan:
        return ''
    else:
        p_value = x[2]
        if p_value < sign_level:
            return '*'
        else:
            return ''

df['marker'] = df.bar.apply(stars, sign_level=0.05)
df
Run Code Online (Sandbox Code Playgroud)

如果结果被认为是重要的,而不是添加带有星号的列,是否可以将单元格(如在 Excel 工作表中)格式化为粗体?

在一行中以粗体显示 DataFrame() 值似乎只能格式化整行 - 我只想重新格式化特定单元格

有条件地格式化 Python pandas 单元格

看起来很相似,尽管它们只更改背景,而不是粗体格式。

编辑

下面的代码已经可以更改背景颜色 - 我只是不知道如何将格式设置为粗体。

def highlight_significant(x, sign_level):
    if x is np.nan:
        return ''
    else:
        if isinstance(x, list):
            p_value …
Run Code Online (Sandbox Code Playgroud)

python formatting pandas

4
推荐指数
1
解决办法
4716
查看次数