Python 中的递归数据类型

İdi*_*dil 6 python haskell type-hinting recursive-datastructures algebraic-data-types

Python 中最接近 Haskell 中的递归数据类型的是什么?(即在定义自身时使用类型自己的定义。)

编辑:

为了给出递归类型的更具体的定义,下面是 Haskell 中的二叉树:

data Tree a             = Leaf a | Branch (Tree a) (Tree a) 
Run Code Online (Sandbox Code Playgroud)

我的阅读方式如下:二叉树可以是叶子,也可以包含两个子树,这两个子树又是类型树本身。

有关Haskell中递归类型的更多信息,可以参考这里: https: //www.haskell.org/tutorial/goodies.html

我实际上想到的是将 Haskell 中的单词树定义转换为 Python。WordTree这是我的一个旧项目中的定义:

data WordTree = Word String | Subword String [WordTree] | Root [WordTree]
Run Code Online (Sandbox Code Playgroud)

AWordTree是一个 n 叉树结构,其中单词的公共前缀存储在双亲中,其余部分以排序的方式存储在树的叶子中。我相信这种类型定义有点类似于 Trie。然而,由于 Haskell 是一种函数式编程语言,它允许这种类型定义是递归的。Python 中(或者一般来说,在面向对象的编程中)对于这种类型的定义最接近的可能是什么?

Ela*_*zar 6

由于 Python 是动态类型的,因此定义您需要的任何类都没有问题。

class Tree:
    left = None
    right = None
    def __init__(self, left, right):
        self.left = left
        self.right = right
Run Code Online (Sandbox Code Playgroud)

即使您有兴趣输入这些定义,您也可以像使用任何其他基于类的面向对象语言一样执行此操作:

from typing import Union

class Tree:
    left: Union['Tree', int]
    right: Union['Tree', int]
    def __init__(self, left: Union['Tree', int], right: Union['Tree', int]) -> None:
        self.left = left
        self.right = right
Run Code Online (Sandbox Code Playgroud)

请注意使用字符串作为类型名称(在较新的 Python 版本中可以避免使用字符串)。

有关直接递归代数类型,请参阅 mypy 中的此未决问题,例如

Tree = Union[Tuple['Tree', 'Tree'], int]
Run Code Online (Sandbox Code Playgroud)

定义您描述的最常见(尽管不一定推荐)的方法WordTree是使用超类和浅层层次结构:

from typing import List, final

class WordTree: pass

@final
class Word(WordTree):
    word: str

@final
class Subword(WordTree):
    subword: str
    children: List[WordTree]

@final
class Root(WordTree):
    children: List[WordTree]
Run Code Online (Sandbox Code Playgroud)

使用这样的实现可能需要使用isinstance检查(尽管 Python3.10 为您提供了很好的糖分)。本例中省略了构造函数以避免混乱;您可能想轻松地使用dataclass它们来获取它们以及其他类型的行为。

迄今为止,Python 还没有办法禁止不相关的类继承自WordTree,从而破坏了静态推理此类程序的一些能力。

其他一些 OOP 语言,例如 Scala 和 Kotlin 以及(即将推出的)Java,可以采用这样的定义(使用sealed),并为您提供类似于 Haskell 等函数式语言所提供的类型检查和语法结构。


据我所知,这种设计通常只推荐用于纯数据类,例如 AST。它不太适合定义面向用户的容器(例如 trie),因为它公开了数据结构的内部工作原理。因此,即使您采用该设计,您也可能希望将其用作实现细节,并使用另一个类 ,Trie以便客户端代码通过定义良好的 API 使用。该类可以有一个WordTree字段,或实现相同逻辑的任何其他方式。

在我看来,这对于面向对象设计与功能设计的区别至关重要。后者侧重于数据流和静态推理,而前者侧重于 API、可扩展性和解耦。我认为在语言和环境之间进行移植时,注意这一点很有帮助 - 尽管如上所述,某些语言尝试启用这两种设计方法。