awk 在 CSV 文件的特定列中搜索和替换字符串

Question

awk 在 CSV 文件的特定列中搜索和替换字符串

我有一个包含 17 列和百万行的 csv 文件。我想在第 16 列中搜索特定字符串，并用另一个字符串替换该字符串的所有实例。由于程序的其余部分使用 bash 脚本，我认为使用 awk 而不是 Python 搜索和替换。我当前的操作系统是 Rhel6。

以下是我的数据的示例输出：

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

Run Code Online (Sandbox Code Playgroud)

在此第 16 列是 Market，其中我想Market1将MarketPrime. 该文件的名称是marketinfo_2018-06-26.csv

我尝试了以下代码：

awk -F '| +' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv

Run Code Online (Sandbox Code Playgroud)

这在没有任何输出的情况下运行，但字符串Market1仍然存在。

Answer 1

Kus*_*nda 9

awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv

Run Code Online (Sandbox Code Playgroud)

您的代码中唯一真正的问题是您不仅将输入文件分隔符设置|为空格，而且还设置为空格。这将使空格算作数据中的字段分隔符，并且很难确定正确的字段编号是什么（因为某些字段包含可变数量的空格）。

您也无法重定向到与读取文件名相同的文件名。这样做会导致 shell 首先截断（清空）输出文件，并且您的awk程序将没有数据可供读取。

您的代码执行正则表达式替换。这没问题，但是您需要注意，如果第 16 个字段恰好是Market12或之类的内容TheMarket1，则会由于缺少锚点而触发替换。^Market1$用作替换表达式或使用字符串比较会更安全。

awk上面的命令仅用|作字段分隔符，然后与第 16 个字段进行字符串比较。如果该字段为Market1，则将其设置为MarketPrime。

代码1末尾的尾随awk导致打印每条记录（已修改或未修改）。

归档时间：	7 年，4 月前
查看次数：	18386 次
最近记录：	4 年，3 月前