如何检测片段的编程语言?

Mar*_*lez 2 ruby github-linguist

我有一个包含一些文本的字符串。文本可能是也可能不是代码。使用 Github 的语言学家,只有当我给它一个候选列表时,我才能检测到可能的编程语言。

# test_linguist_1.rb
#!/usr/bin/env ruby

require 'linguist'

s = "int main(){}"
candidates = [Linguist::Language["Python"], Linguist::Language["C"], Linguist::Language["Ruby"]]
b = Linguist::Blob.new('', s)
langs = Linguist::Classifier.call(b, candidates)
puts langs.inspect
Run Code Online (Sandbox Code Playgroud)

执行:

$ ./test_linguist_1.rb 
[#<Linguist::Language name=C>, #<Linguist::Language name=Python>, #<Linguist::Language name=Ruby>]
Run Code Online (Sandbox Code Playgroud)

请注意,我给了它一份候选人名单。 如何避免必须定义候选人列表?

我尝试了以下方法:

# test_linguist_2.rb
#!/usr/bin/env ruby

require 'linguist'

s = "int main(){}"
candidates = Linguist::Language.all
# I also tried only Popular
# candidates = Linguist.Language.popular
b = Linguist::Blob.new('', s)
langs = Linguist::Classifier.call(b, candidates)
puts langs.inspect    
Run Code Online (Sandbox Code Playgroud)

执行:

$ ./test_linguist_2.rb 
/home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:131:in `token_probability': undefined method `[]' for nil:NilClass (NoMethodError)
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:120:in `block in tokens_probability'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:119:in `each'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:119:in `inject'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:119:in `tokens_probability'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:105:in `block in classify'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:104:in `each'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:104:in `classify'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:78:in `classify'
from /home/marvelez/.rvm/gems/ruby-2.2.1/gems/github-linguist-4.8.9/lib/linguist/classifier.rb:20:in `call'
from ./test_linguist.rb:21:in `block in <main>'
from ./test_linguist.rb:14:in `each'
from ./test_linguist.rb:14:in `<main>'
Run Code Online (Sandbox Code Playgroud)

额外的:

  1. 这是使用 Github Linguist 的最佳方式吗?FileBlob 是 Blob 的替代方案,但这需要将我的字符串写入文件。这是有问题的,有两个原因:1)它很慢,2)选择的文件扩展名然后指导语言学家,我们不知道正确的文件扩展名。
  2. 有没有更好的工具来做到这一点?Github Linguist 可能适用于文件,但不适用于字符串。

mwp*_*mwp 5

快速浏览一下Linguist 的源代码,它似乎使用了多种策略来确定语言,并依次调用每个策略。Classifier是最后一个被调用的策略,到那时它已经(希望)从先前的策略中选择了语言“候选人”(正如你自己发现的那样)。所以我认为对于您与我们共享的特定示例,您必须传递某种文件名,即使文件实际上并不存在,或者语言候选列表。如果两者都不是您的选择,这可能不是您问题的可行解决方案。

$ ruby -r linguist -e 'p Linguist::Blob.new("foo.c", "int main(){}").language'
#<Linguist::Language name=C>
Run Code Online (Sandbox Code Playgroud)

它返回nil没有文件名,并#<Linguist::Language name=C++>带有“foo.cc”和相同的代码示例。

好消息是您选择了一个非常糟糕的样本进行测试。:-) 其他策略着眼于模型线和 shebang,因此更复杂的样本有更好的成功机会。看看这些:

$ ruby -r linguist -e 'p Linguist::Blob.new("", "#!/usr/bin/env perl
print q{Hello, world!};
").language'
#<Linguist::Language name=Perl>
$ ruby -r linguist -e 'p Linguist::Blob.new("", "# vim: ft=ruby
puts %q{Hello, world!}
").language'
#<Linguist::Language name=Ruby>
Run Code Online (Sandbox Code Playgroud)

但是,如果没有shebang 或modeline,我们仍然不走运。事实证明,有一个训练数据集在安装时计算并序列化到磁盘,并在语言检测期间自动加载。不幸的是,我认为库中存在一个错误,如果到这一步时还没有任何候选人,则该错误会阻止使用此训练数据集。修复错误让我这样做:

$ ruby -Ilib -r linguist -e 'p Linguist::Blob.new("", "int main(){}").language'
#<Linguist::Language name=XC>
Run Code Online (Sandbox Code Playgroud)

(我不知道 XC 是什么,但在字符串中添加一些其他标记,例如#include <stdio.h>int argc, char* argv[]给出 C。我相信您的大多数样本都会有更多的肉需要分析。)

这是一个非常简单的修复,我已经为它提交了一个PR。在此期间,如果您愿意,可以使用我的 Gem 叉。否则,我们将需要考虑直接使用 Linguist::Classify,正如您已经开始探索的那样,但这有可能变得混乱。

要使用我的 fork,请添加/修改您的 Gemfile 以读取如下内容:

gem 'github-linguist',
  require: 'linguist',
  git: 'https://github.com/mwpastore/linguist.git',
  branch: 'fix-no-candidates'
Run Code Online (Sandbox Code Playgroud)

当 PR 已合并并且新版本的 Gem 已发布修复程序时,我会尝试回来更新此答案。如果我必须执行任何强制推送来满足存储库指南和/或让维护者满意,您可能必须执行 abundler update来反映更改。如果您有任何问题,请告诉我。