JQ 从编码字段中替换“\n”

Question

JQ 从编码字段中替换“\n”

Wel*_*ige 2 bash json gsub export-to-csv jq

我现在已经尝试了很多解决方案，但恐怕我对JQ的理解还不够，我从两天前才开始尝试使用它。

我得到了一个非常好的解决方案来将我的文件从 Json 解析为 Csv，但是有一个小陷阱。

Json 内部有 1 个经过 Base64 编码的字段 (.data)，它本身就是一个编码的 Json。在这个子 Json 中，有一个包含文本 (.text) 的字段，其中包含“\n”，并且在转换时，该行会被损坏，因为“\n”被转换为最终文件中的实际换行符。

这是我现在的命令：

jq-linux64 -r '["ackId","data","senderPhoneNumber","eventType","eventId","messageId2","postbackData","text","sendTime","project_number","type","event_type","product","messageId","publishTime"], (.receivedMessages[] | [.ackId, .message.data, (.message.data | @base64d | fromjson | .senderPhoneNumber, .eventType, .eventId, .messageId, .postbackData, .text, .sendTime), .message.attributes.project_number, .message.attributes.type, .message.attributes.event_type, .message.attributes.product, .message.messageId,.message.publishTime]) | @csv' <inputfile.txt >outputfile.txt

Run Code Online (Sandbox Code Playgroud)

在此命令中，我进行解码，使用“fromjson”，然后从其中获取我需要的字段。

“.text”字段是我希望删除/替换的换行符字段。

我尝试了 sub 和 gsub，但无法创建有效的命令行或产生所需输出的命令行。

关于如何从“,text”字段中替换“\n”有什么提示吗？

输入文件示例：

{
  "receivedMessages": [
    {
      "ackId": "xxxxxx",
      "message": {
        "data": "eyJzZW5kZXJQaG9uZU51bWJlciI6ICIrOTk5OTk5OTk5OTk5OSIsIm1lc3NhZ2VJZCI6ICIyM2QyM2QyM2QzMmQiLCJzZW5kVGltZSI6ICIyMDIxLTAyLTAyVDIwOjAwOjAwLjAwMDAxIiwidGV4dCI6ICJYWFhYWCBYWFhYWFhYRSwgWFhYWFhYWC8gWHh4eHh4LlxuXG5YeHh4eHh4eHg6XG5cbjEgeHh4eCB4eCB4eHh4ICgyMDAgeHgpXG4yLDUgeHh4eHhcbjEgeHh4eCBcblxuWHh4eHh4IHh4eHh4eCJ9Cg==",
        "attributes": {
          "product": "XXXX",
          "project_number": "XXXXXX",
          "message_type": "TEXT",
          "type": "message"
        },
        "messageId": "234234234234234234",
        "publishTime": "2021-02-02T20:15:22.888Z"
      }
    }
    ]
}

Run Code Online (Sandbox Code Playgroud)

当我使用上述命令处理该文件时，它给出：

"ackId","data","senderPhoneNumber","eventType","eventId","messageId2","postbackData","text","sendTime","project_number","type","event_type","product","messageId","publishTime"
"xxxxxx","eyJzZW5kZXJQaG9uZU51bWJlciI6ICIrOTk5OTk5OTk5OTk5OSIsIm1lc3NhZ2VJZCI6ICIyM2QyM2QyM2QzMmQiLCJzZW5kVGltZSI6ICIyMDIxLTAyLTAyVDIwOjAwOjAwLjAwMDAxIiwidGV4dCI6ICJYWFhYWCBYWFhYWFhYRSwgWFhYWFhYWC8gWHh4eHh4LlxuXG5YeHh4eHh4eHg6XG5cbjEgeHh4eCB4eCB4eHh4ICgyMDAgeHgpXG4yLDUgeHh4eHhcbjEgeHh4eCBcblxuWHh4eHh4IHh4eHh4eCJ9Cg==","+9999999999999",,,"23d23d23d32d",,"XXXXX XXXXXXXE, XXXXXXX/ Xxxxxx.

Xxxxxxxxx:

1 xxxx xx xxxx (200 xx)
2,5 xxxxx
1 xxxx

Xxxxxx xxxxxx","2021-02-02T20:00:00.00001","XXXXXX","message",,"XXXX","234234234234234234","2021-02-02T20:15:22.888Z"

Run Code Online (Sandbox Code Playgroud)

字段“.text”从编码的“\n”生成换行符，这使得 1 行变成多行，从而损坏该行以供后续处理。

---@peak 回答的完整答案代码

jq-linux64 -r '["ackId","data","senderPhoneNumber","eventType","eventId","messageId2","postbackData","text","sendTime","project_number","type","event_type","product","messageId","publishTime"], (.receivedMessages[] | [.ackId, .message.data, (.message.data|@base64d|fromjson|.senderPhoneNumber,.eventType,.eventId,.messageId,.postbackData,(.text | tostring | gsub("\n"; "|")),.sendTime),.message.attributes.project_number,.message.attributes.type,.message.attributes.event_type,.message.attributes.product,.message.messageId,.message.publishTime]) | @csv' <input.json >output.csv

Run Code Online (Sandbox Code Playgroud)

Answer 1

pea*_*eak 5

将 -r 选项与@csv过滤器一起使用的目的是（在本例中确实如此）根据各种 CSV 标准生成有效的 CSV，这些标准允许在带引号的字符串值中嵌入换行符。

因此，您似乎面临的问题是您用来提取 CSV 的程序不接受双引号字段中嵌入的换行符。

因此，最简单的解决方法可能是以您和其他程序都可接受的方式“编码”换行符。

例如，您可以使用 jq 过滤器将换行符编码为管道（“|”）符号：

gsub("\n"; "|")

Run Code Online (Sandbox Code Playgroud)

假设“text”是一个字符串值字段，可能包含嵌入的换行符，您将替换.text为

(.text | gsub("\n"; "|"))

Run Code Online (Sandbox Code Playgroud)

如果的值.text可能为空，那么您必须决定如何处理空值。（一种可能性是：.text | tostring | gsub("\n";"|")。）

如果您希望转换应用于所有字符串字段，请替换| @csv为以下内容：

| map(if type == "string" then gsub("\n"; "|") else . end)
| @csv

Run Code Online (Sandbox Code Playgroud)

https://www.rfc-editor.org/rfc/rfc4180

包含换行符 (CRLF)、双引号和逗号的字段应括在双引号中。

归档时间：	5 年前
查看次数：	2458 次
最近记录：	5 年前