如何解决 AWS 爬网程序在双引号内分割逗号并破坏数据目录的问题?

Dan*_*ruz 6 amazon-web-services amazon-athena aws-glue aws-glue-data-catalog

我正在设置一个新的爬网程序,该爬网程序按计划执行,但由于内部有逗号的双引号而失败

我搜索并发现 OpenCSVSerDe lib 用于编辑表详细信息,但我正在创建新表,我想知道如何添加一些配置以允许爬虫正确生成数据目录

如果 csv 文件具有像"$3.62","4,406"数据目录那样的价值

col0     col1
"$3.62"  "4,406"
Run Code Online (Sandbox Code Playgroud)

但我得到:

col0     col1  col2
"$3.62"  "4    406"
Run Code Online (Sandbox Code Playgroud)

小智 1

尝试创建一个分类器(Crawlers \xe2\x86\x92 Classifiers)并将其分配给特定的爬网程序(Crawler Info \xe2\x86\x92 Tags、描述、安全配置和分类器)。

\n\n

我已尝试以下设置并且效果很好:\n在此输入图像描述

\n