我应该编写代码,当给出一个文本文件(源代码)作为输入时,将输出哪种编程语言.这是问题的最基本定义.更多限制如下:
如果能够以一种方式编写代码,即添加用于识别的新语言相当容易并且仅涉及为该特定语言添加"设置/数据",那将是非常好的.我可以使用任何可用的东西 - 启发式,神经网络,黑魔法.任何东西.我甚至被允许使用现有的解决方案,但是:解决方案必须是免费的,开源的并允许商业用途.它必须以易于集成的源代码或静态库的形式出现 - 没有DLL.但是,我更喜欢编写自己的代码或只使用其他解决方案的片段,我厌倦了整合其他代码.最后一点:也许你们中的一些人会建议FANN(快速人工神经网络库) - 这是我唯一不能使用的东西,因为这是我们使用ALREADY的东西,我们想要替换它.
现在的问题是:你将如何处理这样的任务,你会做什么?有任何建议如何实现这个或使用什么?
编辑:根据评论和答案,我必须强调一些我忘记的事情:速度是非常关键的,因为这将获得数千个文件,并且应该快速回答,所以查看一千个文件应该为所有这些文件生成答案最多几秒钟(文件的大小当然很小,每个几KB).所以试图编译每一个都是不可能的.问题是,我真的想要每种语言的概率 - 所以我宁愿知道该文件可能是C或C++,但它是bash脚本的可能性非常低.由于代码混淆,评论等我认为寻找100%准确的代码是一个坏主意,事实上并不是这个目标.
最近,我有必要创建ANTLR语言语法,以实现编译器的目的(将一种脚本语言转换为另一种脚本语言)。在我看来,Google翻译在翻译自然语言方面做得很好。我们拥有各种各样的递归神经网络模型,LSTM和GPT-2,它们会生成语法正确的文本。
问题:是否有足够的模型来训练语法/代码示例组合,以便在给定任意示例源代码的情况下输出新的语法文件?
grammar machine-learning code-translation language-recognition transpiler