一串英文文本的熵如何表示低质量?

Pan*_*cus 13 computer-science entropy information-theory

杰夫阿特伍德最近发布了一个链接到CodeReview帖子,他想知道社区是否可以改善他的" 计算字符串熵 "代码片段.他解释说,"我们正在计算Stack Overflow中几个字符串的熵,作为低质量的标志."

他的方法的要点似乎是,如果计算字符串中唯一字符的数量,则表示熵(代码取自PieterG的答案):

int uniqueCharacterCount = string.Distinct().Count();
Run Code Online (Sandbox Code Playgroud)

我不明白唯一字符数如何表示字符串的熵,以及字符串的熵如何表示低质量.我想知道在这方面有更多知识的人是否可以解释阿特伍德先生想要完成的事情.

谢谢!

Blu*_*eft 8

混淆似乎来自于这被用来阻止发布帖子的想法 - 事实并非如此.

它只是用于查找可能的低质量帖子的几种算法之一,显示在主持人工具的低质量帖子标签 (需要10k代表)上.实际人类仍然需要查看帖子.

这个想法是抓岗位像~~~~~~No.~~~~~~或者FUUUUUUUU------,没有赶上所有的低质量的帖子.


至于"独特的字符数如何表示熵?" - 它不是,真的.最受欢迎的答案完全忽略了这一点.

请参阅https://codereview.stackexchange.com/questions/868#878https://codereview.stackexchange.com/questions/868#926


900*_*000 6

字符串'aaaaaaaaaaaaaaaaaaaaaaaaaa'具有非常低的熵,并且相当无意义.

String'blah blah blah blah blah blah blah blah blah'有更高的熵,但仍然相当愚蠢,可以成为攻击的一部分.

具有与这些字符串相当的熵的帖子或评论可能不合适; 它不能包含任何有意义的消息,甚至是垃圾链接.这样的帖子可以被过滤掉或保证额外的验证码.