为文件输入创建dcg的一般模式是什么?

use*_*815 5 prolog fasta swi-prolog dcg

我似乎总是很难写DCG来解析输入文件.但它似乎应该很简单?有什么提示或技巧可以考虑这个问题吗?

举一个具体的例子,假设我要解析一个fasta文件.(https://en.wikipedia.org/wiki/FASTA_format).我想在回溯上阅读每个描述和每个序列.

:- use_module(library(pio)).
:- use_module(library(dcg/basics)).
:- portray_text(true).
:- set_prolog_flag(double_quotes, codes).
:- set_prolog_flag(back_quotes,string).

fasta_file([]) -->[].
fasta_file([Section|Sections]) -->
   fasta_section(Section),
   fasta_file(Sections).


fasta_section(Section) -->
    fasta_description(Description),
    fasta_seq(Sequence),
    {Section =.. [section,Description,Sequence]}.

fasta_description(Description) -->
    ">",
    string(Description),
    {no_gt(Description),
     no_nl(Description)}.


fasta_seq([]) --> [].
fasta_seq(Seq) -->
    nt([S]),
    fasta_seq(Ss),
    {S="X"->Seq =Ss;Seq=[S|Ss]}.

 nt("A") --> "A".
 nt("C") --> "C".
 nt("G") --> "G".
 nt("T") --> "T".
 nt("X") --> "\n".

 no_gt([]).
 no_gt([E|Es]):-
     dif([E],">"),
     no_gt(Es).

 no_nl([]).
 no_nl([E|Es]):-
     dif([E],"\n"),
     no_nl(Es).
Run Code Online (Sandbox Code Playgroud)

现在这显然是错误的.我想要的行为是

 ?-phrase(fasta_section(S),">frog\nACGGGGTACG\n>duck\nACGTTAG").
 S = section("frog","ACGGGGTACG");
 S = section("duck","ACGTTAG");
 false.
Run Code Online (Sandbox Code Playgroud)

但是,如果我做了phrase(fasta_file(Sections),">frog\nACGGGGTACG\n>duck\nACGTTAG). Sections与一个/ 2的列表统一,这是我想要的,但我当前的代码似乎很hacky-我如何处理换行符例如.

Cap*_*liC 1

当然,存在“小”打字问题:

nt("A") -->"A",
nt("C") -->"C",
nt("G") -->"G",
nt("T") -->"T". 
Run Code Online (Sandbox Code Playgroud)

应该

nt("A") -->"A".
nt("C") -->"C".
nt("G") -->"G".
nt("T") -->"T". 
Run Code Online (Sandbox Code Playgroud)

无论如何,我在调试 DCG 时也遇到了问题,我编写了一个解析器来在 Prolog 中加载 MySQL 转储(实际上是普通 SQL),并且当发现意外情况(例如转义字符串或 UTF8(?))奇怪的编码时,我感到很痛苦。

我建议使用phrase/3,看看是否有无法解析的尾部。此外,可以帮助在已知的、行为良好的序列之后放置一些调试输出。

当然,我假设您已经尝试使用 SWI-Prolog 调试器。

另外,请注意

...
dif([E],">"),
...
Run Code Online (Sandbox Code Playgroud)

您是否为双引号设置了适当的标志?在 DCG 主体中,重写机制负责匹配,但默认情况下 SWI-Prolog 中的代码序列与双引号字符串不匹配...

编辑

我认为这并不能解决你对总体策略的疑问......无论如何,这就是我处理问题的方式......

fasta_file([]) -->[].
fasta_file([Section|Sections]) -->
    fasta_section(Section),
    fasta_file(Sections).

fasta_section(section(Description,Sequence)) -->
    fasta_description(Description),
    fasta_seq(SequenceCs), {atom_codes(Sequence, SequenceCs)}, !.

fasta_description(Description) -->
    ">", string(DescriptionCs), "\n", {atom_codes(Description, DescriptionCs)}.

fasta_seq([S|Seq]) --> nt(S), fasta_seq(Seq).
fasta_seq([]) --> "\n" ; []. % optional \n at EOF

nt(0'A) --> "A".
nt(0'C) --> "C".
nt(0'G) --> "G".
nt(0'T) --> "T".
Run Code Online (Sandbox Code Playgroud)

现在

?- phrase(fasta_file(S), `>frog\nACGGGGTACG\n>duck\nACGTTAG`).
S = [section(frog, 'ACGGGGTACG'), section(duck, 'ACGTTAG')] ;
false.
Run Code Online (Sandbox Code Playgroud)

注意:子句 fasta_seq//1 的顺序很重要,因为它实现了“热切”解析 - 主要是为了效率。正如我所说,我必须解析 SQL,几个 MB 是很常见的。

编辑

?- phrase((string(_),fasta_section(S)), `>frog\nACGGGGTACG\n>duck\nACGTTAG`,_).
S = section(frog, 'ACGGGGTACG') ;
S = section(duck, 'ACGTTAG') ;
false.
Run Code Online (Sandbox Code Playgroud)

fasta_section//1的意思是匹配一个确定的序列。为了全面了解回溯,我们必须提供一个回溯点。在这种情况下,来自库(dcg/basics)的 string//1 可以完成这项工作