我有一个元组列表,列表的长度可以在 ~8 - 1000 之间变化,具体取决于元组的长度。列表中的每个元组都是唯一的。元组的长度为 N,其中每个条目都是一个通用词。
一个示例元组的长度可以是 N (Word 1, Word 2, Word 3, ..., Word N)
对于列表中的任何元组,所述元组中的元素 j 将是''或Word j
一个非常简单的带有字母的例子是
l = [('A', 'B', '', ''), ('A', 'B', 'C', ''),
('', '', '', 'D'), ('A', '', '', 'D'),
('', 'B', '', '')]
Run Code Online (Sandbox Code Playgroud)
每个元组的每个位置要么具有相同的值,要么为空。我想删除所有''在同一位置的另一个元组中具有所有非值的元组。例如,(A,B,'','')包含所有非''值,(A,B,C,'')因此应删除。
filtered_l = [(A,B,C,''),(A,'','',D)]
Run Code Online (Sandbox Code Playgroud)
元组的长度总是相同的(不一定是 4)。元组的长度将在 2-10 之间。
执行此操作的最快方法是什么?
我有以下格式的表格
Id | Sequence | Attribute A | Attribute B |
ID1 [A,B,C,D] A1 B1
ID2 [A,B,F,G] A2 B3
ID3 [A,B,C,D] A1 B1
Run Code Online (Sandbox Code Playgroud)
我想为每个事件组合和属性值计算唯一 ID 的数量。
决赛桌应该看起来像
Pair | Attribute Type | Attribute Value | ID Count
(A,B) Attribute A A1 2 #Event A happens before event B in 2 unique ID's where A1 is the value of Attribute A.
(A,C) Attribute A A1 2
(A,D) Attribute A A1 2
(B,C) Attribute A A1 2
(B,D) Attribute A A1 2 …Run Code Online (Sandbox Code Playgroud) 此网址 https://ihmecovid19storage.blob.core.windows.net/latest/ihme-covid19.zip
包含 2 个 csv 文件和 1 个每日更新的 pdf 文件,其中包含 Covid-19 数据。
我希望能够将其Summary_stats_all_locs.csv作为 Pandas DataFrame 加载。
通常,如果有一个指向 csv 的 url,我就可以使用df = pd.read_csv(url),但由于 csv 位于 zip 内,所以我不能在这里这样做。
我该怎么做?
谢谢