聊天/对话数据库

Fré*_*ell 2 database hadoop chat

出于个人兴趣,我尝试定义一个模拟 AI,它基于他学到的信息和互联网搜索,以便提供比系统知道的更多的细节。

我举了一个孩子的例子,当他出生时他需要学习一切,他听了很多,然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。

为了做到这一点,我想在 hadoop 系统中存储大量聊天对话,并解析所有这些对话,以确定哪些是最常见的答案。有了这个,我想构建一个神经元数据库,其中包含具有确定答案的对话类型。

所以我的问题是我可以在互联网上合法地找到任何格式的一个或多个聊天/对话数据库吗?(文件,数据库,csv,...)

我拥有的最多数据是能够正确确定答案的机会;)

感谢您的帮助和欢呼,弗雷德里克

PS:英语不是我的母语

小智 5

有一个会话数据集的集合。其中大部分是从公开来源收集的。对您来说,最有趣的可能是 Santa Barbara 语料库(尽管它是语音对话的抄本)或电影对话数据集。

  • 这是另一个全面的数据集集合:https://breakend.github.io/DialogDatasets/ (2认同)