当我在这里问一个问题时,自动搜索返回的问题的工具提示给出了问题的第一点,但是它们中的相当一部分没有给出任何对理解问题更有用的文本而不是标题.有没有人知道如何制作一个过滤器来修剪问题的无用位?
我的第一个想法是修剪任何只包含某些列表中的单词的主要句子(例如,停止单词,加上标题中的单词,加上SO语料库中与标签具有非常弱相关性的单词,这同样可能是无论标签是什么,都会出现在任何问题中)
statistics text-processing nlp heuristics
heuristics ×1
nlp ×1
statistics ×1
text-processing ×1