如何使具有自定义分类器的 AWS Glue 爬网程序跳过日志文件的第一行？

Dib*_*iba 5 amazon-web-services logstash-grok aws-glue aws-glue-data-catalog

我是胶水新手，我正在尝试让爬虫功能从一些日志文件中提取数据库表。问题是文件的第一行不同。我定义了一个自定义 Grok 分类器，只要删除第一行，它就可以正常工作，但是当我使用原始日志文件时，它会停止工作并使用默认的粘合分类器（这显然对我不起作用）。我尝试将 'skip.header.line.count'=1 添加到表属性（并将爬网程序设置为不更新架构），但这也不起作用。有没有办法在 grok 模式中写“跳过第一行”？

归档时间：	6 年，5 月前
查看次数：	572 次
最近记录：	6 年，5 月前

有没有办法对 AWS CloudWatch Logs Insights 进行分页 15

带有 ALB 入口控制器的 Terraform AWS Kubernetes EKS 资源不会创建负载均衡器 10

AWS CodeBuild GitHub 部署密钥 9

Elastic Beanstalk - 命令在实例上失败。发生意外错误 [错误代码：0000000001] 8

AWS上的Cron(或一般的分布式系统) 7

如何增加AWS工作层实例的超时？ 6

django-zappa：加载 psycopg2 模块时出错：libpq.so.5：无法打开共享对象文件：没有这样的文件或目录 6

Elastic Beanstalk ssh 表示找不到我的 SSH 密钥文件 6

AWS step-function mapState iterate over large payloads 6

Amazon S3 静态站点提供旧内容 5

如何从当前的Git工作树中删除本地(未跟踪)文件？ 6561

使用jQuery禁用/启用输入？ 2216

有没有办法对字符串进行子串？ 1995

如果目录尚不存在,如何mkdir？ 1784

'real','user'和'sys'在time(1)的输出中意味着什么？ 1622

如何迭代Pandas中的DataFrame中的行？ 1551

修复一个Git分离的头？ 1318

如何在Java中连接两个数组？ 1299

如何在Android应用程序中的活动之间传递数据？ 1293

将图像加载到Bitmap对象时出现奇怪的内存不足问题 1252