小编ksp*_*spr的帖子

有效删除元组列表中的部分重复项

我有一个元组列表,列表的长度可以在 ~8 - 1000 之间变化,具体取决于元组的长度。列表中的每个元组都是唯一的。元组的长度为 N,其中每个条目都是一个通用词。

一个示例元组的长度可以是 N (Word 1, Word 2, Word 3, ..., Word N)

对于列表中的任何元组,所述元组中的元素 j 将是''Word j

一个非常简单的带有字母的例子是

l = [('A', 'B', '', ''), ('A', 'B', 'C', ''), 
     ('', '', '', 'D'), ('A', '', '', 'D'), 
     ('', 'B', '', '')]
Run Code Online (Sandbox Code Playgroud)

每个元组的每个位置要么具有相同的值,要么为空。我想删除所有''在同一位置的另一个元组中具有所有非值的元组。例如,(A,B,'','')包含所有非''值,(A,B,C,'')因此应删除。

filtered_l = [(A,B,C,''),(A,'','',D)]
Run Code Online (Sandbox Code Playgroud)

元组的长度总是相同的(不一定是 4)。元组的长度将在 2-10 之间。

执行此操作的最快方法是什么?

python performance tuples list

9
推荐指数
2
解决办法
543
查看次数

使用 itertools、melt 和 groupby 正确地使用 Pandas 计算每个属性值的事件对

我有以下格式的表格

  Id   |   Sequence   |   Attribute A  |  Attribute B |
  ID1       [A,B,C,D]         A1              B1        
  ID2       [A,B,F,G]         A2              B3            
  ID3       [A,B,C,D]         A1              B1        
Run Code Online (Sandbox Code Playgroud)

我想为每个事件组合和属性值计算唯一 ID 的数量。

决赛桌应该看起来像

  Pair    |  Attribute Type | Attribute Value   | ID Count
  (A,B)        Attribute A          A1              2        #Event A happens before event B in 2 unique ID's where A1 is the value of Attribute A.
  (A,C)        Attribute A          A1              2
  (A,D)        Attribute A          A1              2
  (B,C)        Attribute A          A1              2
  (B,D)        Attribute A          A1              2 …
Run Code Online (Sandbox Code Playgroud)

python pandas

5
推荐指数
1
解决办法
78
查看次数

使用 Pandas,如何读取使用 url 获取的 zip 文件中的 csv 文件[Python]

此网址 https://ihmecovid19storage.blob.core.windows.net/latest/ihme-covid19.zip

包含 2 个 csv 文件和 1 个每日更新的 pdf 文件,其中包含 Covid-19 数据。

我希望能够将其Summary_stats_all_locs.csv作为 Pandas DataFrame 加载。

通常,如果有一个指向 csv 的 url,我就可以使用df = pd.read_csv(url),但由于 csv 位于 zip 内,所以我不能在这里这样做。

我该怎么做?

谢谢

python zip pandas

1
推荐指数
1
解决办法
3234
查看次数

标签 统计

python ×3

pandas ×2

list ×1

performance ×1

tuples ×1

zip ×1