小编Pyl*_*der的帖子

Jupyter Notebook：更改活动笔记本内的数据速率限制

我有一个 jupyter 笔记本，其中执行的单元格出现以下错误：

IOPub 数据速率超出...

我明白这是一个选择：

jupyter notebook --NotebookApp.iopub_data_rate_limit=1.0e10

Run Code Online (Sandbox Code Playgroud)

但是，我真的更愿意将其与我的导入语句和其他笔记本设置一起设置，而不是在启动笔记本时调整配置文件或命令行。是否有捷径可寻？

python ipython jupyter

Pyl*_*der

2018 01-13

6
推荐指数

1
解决办法

2525
查看次数

Python PANDAS:从pandas/numpy转换为dask dataframe/array

我正在努力尝试将程序转换为可并行化/多线程与优秀的dask库.这是我正在进行转换的程序:

Python PANDAS:按枚举日期堆叠以创建矢量化记录

import pandas as pd
import numpy as np
import dask.dataframe as dd
import dask.array as da
from io import StringIO

test_data = '''id,transaction_dt,units,measures
               1,2018-01-01,4,30.5
               1,2018-01-03,4,26.3
               2,2018-01-01,3,12.7
               2,2018-01-03,3,8.8'''

df_test = pd.read_csv(StringIO(test_data), sep=',')
df_test['transaction_dt'] = pd.to_datetime(df_test['transaction_dt'])

df_test = df_test.loc[np.repeat(df_test.index, df_test['units'])]
df_test['transaction_dt'] += pd.to_timedelta(df_test.groupby(level=0).cumcount(), unit='d')
df_test = df_test.reset_index(drop=True)

Run Code Online (Sandbox Code Playgroud)

预期成绩:

id,transaction_dt,measures
1,2018-01-01,30.5
1,2018-01-02,30.5
1,2018-01-03,30.5
1,2018-01-04,30.5
1,2018-01-03,26.3
1,2018-01-04,26.3
1,2018-01-05,26.3
1,2018-01-06,26.3
2,2018-01-01,12.7
2,2018-01-02,12.7
2,2018-01-03,12.7
2,2018-01-03,8.8
2,2018-01-04,8.8
2,2018-01-05,8.8

Run Code Online (Sandbox Code Playgroud)

在我看来,这可能是尝试并行化的一个很好的候选者,因为单独的dask分区不需要知道彼此之间的任何事情来完成所需的操作.这是我认为它可能如何工作的天真表示:

dd_test = dd.from_pandas(df_test, npartitions=3)

dd_test = dd_test.loc[da.repeat(dd_test.index, dd_test['units'])]
dd_test['transaction_dt'] += dd_test.to_timedelta(dd.groupby(level=0).cumcount(), unit='d')
dd_test = dd_test.reset_index(drop=True) …

Run Code Online (Sandbox Code Playgroud)

python numpy pandas dask

Pyl*_*der

2018 02-17

6
推荐指数

1
解决办法

1686
查看次数

解析FHIR捆绑JSON Apache Spark

将以下通用文件类型的HDFS目录遍历/提取/解析为spark数据帧，rdd或稀疏数组的最佳通用方法是什么？我发现将其转换为适用于传统分析工作负载的格式有点笨拙。我尝试过的一种方法涉及点链键，但事实证明它既不完整也不具有可扩展性。

https://hl7-fhir.github.io/bundle.html

这是一个例子：

{
  "resourceType": "Bundle",
  "id": "bundle-example",
  "meta": {
    "fhir_comments": [
      "   this example bundle is a search set   ",
      "   when the search was executed   "
    ],
    "lastUpdated": "2014-08-18T01:43:30Z"
  },
  "type": "searchset",
  "total": 3,
  "_total": {
    "fhir_comments": [
      "   the total number of matches. This is a stupid example - there's a grand total of 3 matches, and \n    we're only going to return the first 1, with a next link, in order to demonstrate what a page …

Run Code Online (Sandbox Code Playgroud)

python json apache-spark pyspark dstu2-fhir

Pyl*_*der

2015 10-18

5
推荐指数

0
解决办法

398
查看次数

Python PANDAS：在第一次出现列值后删除所有行

我有一个 PANDAS 数据框，其中的列具有打开/关闭状态值和排名字段值。按等级字段排序后，在第一次出现“打开”值后删除/删除所有行的最佳方法是什么？如果我应该在 PANDAS 中采用迭代器函数或基于标准索引的方法，我只是感到困惑。任何建议都会很棒！

编辑：这只是我迄今为止开始的

df["Rank", "Status"].sort_values(by="Rank")

Run Code Online (Sandbox Code Playgroud)

我试图完成的输出如下所示：

由此：

Rank Status
1    Closed
5    Closed
6    Open
9    Closed
10   Open

Run Code Online (Sandbox Code Playgroud)

对此：

Rank Status
 1    Closed
 5    Closed
 6    Open

Run Code Online (Sandbox Code Playgroud)

python pandas

Pyl*_*der

2015 12-09

5
推荐指数

1
解决办法

4619
查看次数

Python重复列表到最大元素数

重复列表最大元素长度的最有效方法是什么？

拿这个:

list = ['one', 'two', 'three']
max_length = 7

Run Code Online (Sandbox Code Playgroud)

并产生这个:

final_list = ['one', 'two', 'three', 'one', 'two', 'three', 'one']

Run Code Online (Sandbox Code Playgroud)

python

Pyl*_*der

2016 10-05

5
推荐指数

2
解决办法

991
查看次数

Yum在Amazon Linux上安装libhdf5-dev

我正在部署使用hdf5作为依赖项的项目:http: //docs.h5py.org/en/latest/build.html 我正在为一个弹性beanstalk部署安装一个依赖项的恶魔.

具有开发标头的HDF5 1.8.4或更高版本的共享库版本(libhdf5-dev或类似版本)

无论选项如何,百胜都无法找到它:

"没有包libhdf5-serial-dev可用.没有包libhdf5-dev.没有包libhdf5-devel.没有包hdf5-tools可用."

关于在部署期间可以运行什么命令来获得此安装的任何指针都会很棒.

python hdf5 amazon-elastic-beanstalk

Pyl*_*der

lucky-day

4
推荐指数

3
解决办法

4723
查看次数

字符串列表中的模式匹配，在熊猫中创建新列

我有一个具有以下通用格式的熊猫数据框：

id,product_name_extract
1,00012CDN
2,14311121NDC
3,NDC37ba
4,47CD27

Run Code Online (Sandbox Code Playgroud)

我还有一个我想要匹配的产品代码列表（不幸的是，我必须进行 NLP 提取，所以它不会是一个干净的匹配）然后创建一个具有匹配列表值的新列：

product_name = ['12CDN','21NDC','37ba','7CD2']

id,product_name_extract,product_name_mapped
1,00012CDN,12CDN
2,14311121NDC,21NDC
3,NDC37ba,37ba
4,47CD27,7CD2

Run Code Online (Sandbox Code Playgroud)

我不太担心会发生碰撞。

如果我只需要一个使用包含的真/假指标和用“|”连接在一起的列表值，这将很容易用于交替，但我现在对如何创建完全匹配的列值感到有些困惑。任何提示或技巧表示赞赏！

python regex pandas

Pyl*_*der

lucky-day

3
推荐指数

1
解决办法

1047
查看次数

Python的大熊猫：如何扭转一位热码编码返回范畴

我有以下的一般布局的数据帧：

id,ind_1,ind_2_ind_3
1,0,1,0
1,1,0,0
2,0,1,0
2,0,0,1
3,0,0,1
3,1,0,0

Run Code Online (Sandbox Code Playgroud)

我想添加一个额外的列，其值是原始指标名称时，他们是“1”，这应该是这样的：

id,ind_1,ind_2,ind_3,ind_all
1,0,1,0,ind_2
1,1,0,0,ind_1
2,0,1,0,ind_2
2,0,0,1,ind_3
3,0,0,1,ind_3
3,1,0,0,ind_1

Run Code Online (Sandbox Code Playgroud)

欢迎任何提示！

python numpy pandas

Pyl*_*der

2018 03-20

1
推荐指数

1
解决办法

1987
查看次数

标签统计

python ×8

pandas ×4

numpy ×2

amazon-elastic-beanstalk ×1

apache-spark ×1

dask ×1

dstu2-fhir ×1

hdf5 ×1

ipython ×1

json ×1

jupyter ×1

pyspark ×1

regex ×1

标签 统计

小编Pyl_der的帖子

标签统计