我们中的许多人需要处理用户输入,搜索查询以及输入文本可能包含亵渎语言或不良语言的情况.通常需要将其过滤掉.
哪里可以找到各种语言和方言的咒骂词?
是否有可用于包含良好列表的源的API?或者也许一个API只是简单地说"是的这是干净的"或"没有这是脏的"一些参数?
有什么好方法可以让人们试图欺骗系统,比如$$,azz或a55?
如果您提供PHP解决方案,则可获得奖励积分.:)
例如,我认为这种过滤器有一个位置,例如,用户可以使用公共图像搜索来查找添加到敏感社区池的图片.如果他们可以搜索"阴茎",那么他们很可能会得到许多照片,是的.如果我们不想要那些图片,那么防止这个词作为搜索词是一个很好的看门人,尽管不可否认这不是一个万无一失的方法.首先获取单词列表是真正的问题.
所以我真的指的是一种方法来弄清楚单个令牌是否脏,然后简单地禁止它.我不打算像完全搞笑的"长颈长颈鹿"参考那样阻止一种情绪.你无能为力.:)
您是否了解任何开源/免费的.NET亵渎过滤器(确切地说是ASP.NET MVC)?我搜索谷歌,但我无法想出任何.如果可能的话,我想避免完全依靠我自己实现它.犯错误或忽略某些事情很容易.
我想的是:
foreach (var word in paragraph.split(' ')) {
if (badWordArray.Contains(word) {
// do something about it
}
}
Run Code Online (Sandbox Code Playgroud)
但我确信有更好的方法.
提前致谢!
UPDATE 我不希望自动...删除淫秽我的web应用程序,我想如果我认为"糟糕"一词是用来通知.然后我会自己检查以确保它是合法的.一种自动标记系统.