用自己的语言编写编译器

Question

用自己的语言编写编译器

Dón*_*nal 196 compiler-construction bootstrapping

直观地说,似乎语言的编译器Foo本身不能用Foo编写.更具体地说,语言的第一个编译器Foo不能用Foo编写,但可以编写任何后续的编译器Foo.

但这是真的吗？我对一种语言的阅读非常模糊,这种语言的第一个编译器是用"本身"编写的.这是可能的,如果是这样的话怎么样？

Answer 1

这称为"自举".您必须首先使用其他语言(通常是Java或C)为您的语言构建编译器(或解释器).完成后,您可以用Foo语言编写新版本的编译器.您使用第一个引导编译器来编译编译器,然后使用此编译的编译器来编译其他所有内容(包括其自身的未来版本).

大多数语言确实以这种方式创建,部分原因是语言设计者喜欢使用他们正在创建的语言,并且因为非平凡的编译器通常作为语言"完整"的有用基准.

这方面的一个例子是Scala.它的第一个编译器是由Martin Odersky的实验性语言Pizza创建的.从2.0版开始,编译器完全在Scala中重写.从那时起,旧的Pizza编译器可能被完全丢弃,因为新的Scala编译器可以用于编译自己以用于将来的迭代.

@piertoni，将编译器后端重新定位到新的微处理器通常会更容易。 (5认同)
也许是一个愚蠢的问题：如果您想将编译器移植到另一种微处理器架构，引导程序应该从该架构的工作编译器重新启动。这是正确的吗？如果这是正确的，这意味着最好保留第一个编译器，因为将编译器移植到其他体系结构可能很有用（特别是如果是用某种“通用语言”（如 C）编写的）？ (2认同)

Answer 2

Ala*_*lan 74

我记得听过一个软件工程电台播客,其中Dick Gabriel谈到了通过在LISP 上写一个简单的版本在纸上并将其组装成机器代码来引导原始的LISP解释器.从那时起,其余的LISP功能都是用LISP编写和解释的.

Answer 3

Fed*_*oni 47

为先前的答案添加好奇心.

这里引用了Linux From Scratch手册,其中一个开始从源代码开始构建GCC编译器.(Linux From Scratch是一种安装Linux的方法,与安装发行版完全不同,因为你必须编译目标系统的每一个二进制文件.)

make bootstrap
Run Code Online (Sandbox Code Playgroud)
'bootstrap'目标不只是编译GCC,而是编译几次.它使用第一轮编译的程序第二次编译自己,然后第三次编译.然后它比较这些第二和第三个编译,以确保它可以完美地再现自己.这也意味着它被正确编译.

使用'bootstrap'目标的动机是,用于构建目标系统的工具链的编译器可能没有与目标编译器完全相同的版本.以这种方式进行,确保在目标系统中获得可以自己编译的编译器.

"你必须编译目标系统的每一个二进制文件",但你必须从你从某个地方获得的gcc二进制文件开始,因为源代码无法自行编译.我想知道你是否追溯了用于重新编译每个连续gcc的每个gcc二进制文件的谱系,你会一直回到K&R的原始C编译器吗？ (10认同)

Answer 4

Aar*_*lla 43

当您为C编写第一个编译器时,可以用其他语言编写它.现在,你有一个C编译器,比如汇编器.最终,您将到达必须解析字符串的位置,特别是转义序列.您将编写代码以转换\n为十进制代码10(以及\r13等)的字符.

在编译器准备好之后,您将开始在C中重新实现它.此过程称为" bootstrapping" ".

字符串解析代码将变为:

...
if (c == 92) { // backslash
    c = getc();
    if (c == 110) { // n
        return 10;
    } else if (c == 92) { // another backslash
        return 92;
    } else {
        ...
    }
}
...

归档时间：	17 年，2 月前
查看次数：	35025 次
最近记录：	6 年，2 月前

用自己的语言编写编译器

更新1

LISP 2 树和列表

使用基于 LISP 2 的生成器函数进行解析

符号和符号属性

生成机器独立代码

将其链接在一起

代码生成和起源的简短总结

成功实现主要编程语言

更多关于编译器然后通常谈论

解析器编程语言