根据列中的数据合并两个CSV文件

Question

根据列中的数据合并两个CSV文件

abn*_*abn 6 python regex csv merge two-columns

我有两个csv文件,如下所示.

CSV1

data13      data23      d      main_data1;main_data2      data13         data23
data12      data22      d      main_data1;main_data2      data12         data22
data11      data21      d      main_data1;main_data2      data11         data21
data3       data4       d      main_data2;main_data4      data3          data4
data52      data62      d      main_data3                 data51         data62
data51      data61      d      main_data3                 main_data3     data61
data7       data8       d      main_data4                 data7          data8

Run Code Online (Sandbox Code Playgroud)

CSV2

id1      main_data1      a1      a2      a3
id2      main_data2      b1      b2      b3
id3      main_data3      c1      c2      c3
id4      main_data4      d1      d2      d3
id5      main_data5      e1      e2      e3

Run Code Online (Sandbox Code Playgroud)

现在我的问题是,我知道当两个文件中的一列完全相同时如何合并两个CSV文件.但我的问题有点不同.CSV1中的第4列可以包含CSV2中的第2列.我想获得一个CSV文件,如下所示

FINAL_CSV

id1      main_data1      a1      a2      a3      data13
id2      main_data2      b1      b2      b3      data3
id3      main_data3      c1      c2      c3      main_data3
id4      main_data4      d1      d2      d3      data7
id5      main_data5      e1      e2      e3

Run Code Online (Sandbox Code Playgroud)

其中:
1.它匹配来自两列的数据,并从第一次出现获取相应的行并写入csv文件.
2.当没有匹配时,它可以将FINAL_CSV中的最后一列留空或写入'NA'或任何类似的东西.
3.当CSV1的第4列和第5列中的数据完全匹配时,它将返回该行而不是第一次出现的行.

我完全迷失了如何做到这一点.帮助它的一部分也很好.任何建议都非常感谢.
PS-我知道来自csv文件的数据应该用逗号分隔,但为了清楚起见,我更喜欢制表符,尽管实际数据用逗号分隔.

编辑:实际上,'main_data'可以在CSV2的任何列中,而不仅仅在column2中.相同的'main_data'也可以在多行中重复,然后我想获得所有相应的行.

Answer 1

Mat*_*nik 2

由于合并的条件似乎很复杂，因此可能值得将数据加载到数据库中并使用 SQL。使用内存中的 SQLite，您可以这样做（假设以逗号分隔数据）

import csv
import sqlite3

def createTable(cursor, rows, tablename):
    tableCreated = False
    for row in rows:
        if not tableCreated:
            sql = "CREATE TABLE %s(ROW INTEGER PRIMARY KEY, " + ", ".join(["c%d" % (i+1) for i in range(len(row))]) + ")"
            cur.execute(sql % tablename)
            tableCreated = True
        sql = "INSERT INTO %s VALUES(NULL, " + ", ".join(["'" + c + "'" for c in row]) + ")"
        cur.execute(sql % tablename)
    conn.commit()


conn = sqlite3.connect(":memory:")
cur = conn.cursor()

for filename, tablename in [(path_to_csv1, "CSV1"), (path_to_csv2, "CSV2")]:
    with open(filename, "r") as f:
        reader = csv.reader(f, delimiter=',')        
        rows = [row for row in reader]
    createTable(cur, rows, tablename)

Run Code Online (Sandbox Code Playgroud)

然后，您可以在 SQL 中制定联接逻辑。您可以像这样运行查询：

for row in cur.execute(your_sql_statement):
    print row

Run Code Online (Sandbox Code Playgroud)

以下查询给出所需的输出：

WITH
MATCHES AS( -- get all matches
    SELECT      CSV2.*
                , CSV1.ROW as ROW_1                 
                , CSV1.C4 as C4_1
                , CSV1.C5 as C5_1
    FROM        CSV2 
    LEFT JOIN   CSV1 
    ON          CSV1.C4 LIKE '%' || CSV2.C2 || '%'    
),
EXACT AS( -- matches where CSV1.C4 = CSV1.C5
    SELECT      *
    FROM        MATCHES
    WHERE       C4_1 = C5_1
),
MIN_ROW AS( -- CSV1.ROW of first occurence for each CSV2.C1
    SELECT      C1
                , min(ROW_1) as ROW_1
    FROM        MATCHES
    WHERE       C1 NOT IN (SELECT C1 FROM EXACT)
    GROUP BY    C1, C2, C3, C4, C5                  
)
-- use C4=C5 first
SELECT      *
FROM        EXACT
UNION
-- if match not in exact, use first occurence
SELECT      MATCHES.*
FROM        MIN_ROW
INNER JOIN  MATCHES
ON          MIN_ROW.C1 = MATCHES.C1
AND         (MIN_ROW.ROW_1 = MATCHES.ROW_1 OR MIN_ROW.ROW_1 IS NULL)
ORDER BY    C1

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年前
查看次数：	7555 次
最近记录：	10 年，11 月前