Pan*_*cus 13 computer-science entropy information-theory
杰夫阿特伍德最近发布了一个链接到CodeReview帖子,他想知道社区是否可以改善他的" 计算字符串熵 "代码片段.他解释说,"我们正在计算Stack Overflow中几个字符串的熵,作为低质量的标志."
他的方法的要点似乎是,如果计算字符串中唯一字符的数量,则表示熵(代码取自PieterG的答案):
int uniqueCharacterCount = string.Distinct().Count();
Run Code Online (Sandbox Code Playgroud)
我不明白唯一字符数如何表示字符串的熵,以及字符串的熵如何表示低质量.我想知道在这方面有更多知识的人是否可以解释阿特伍德先生想要完成的事情.
谢谢!
混淆似乎来自于这被用来阻止发布帖子的想法 - 事实并非如此.
它只是用于查找可能的低质量帖子的几种算法之一,显示在主持人工具的低质量帖子标签 (需要10k代表)上.实际人类仍然需要查看帖子.
这个想法是抓岗位像~~~~~~No.~~~~~~
或者FUUUUUUUU------
,没有赶上所有的低质量的帖子.
至于"独特的字符数如何表示熵?" - 它不是,真的.最受欢迎的答案完全忽略了这一点.
请参阅https://codereview.stackexchange.com/questions/868#878和https://codereview.stackexchange.com/questions/868#926
归档时间: |
|
查看次数: |
7372 次 |
最近记录: |