有趣的NLP /机器学习风格项目 - 分析隐私政策

bgc*_*ode 6 language-agnostic nlp artificial-intelligence machine-learning

我想要一些有关我已被分配的有趣问题的输入.任务是分析数百个,最后是数千个隐私策略,并确定它们的核心特征.例如,他们是否占用了用户的位置?他们是否与第三方共享/销售?等等.

我和几个人谈过,阅读了很多关于隐私政策的内容,并亲自考虑过这个问题.这是我目前的攻击计划:

首先,阅读大量隐私,找到满足某种特征的主要"线索"或指标.例如,如果数百个隐私政策具有相同的行:"我们将采取您的位置.",该行可能是一个提示,100%确信该隐私政策包括获取用户的位置.其他提示会对某个特征提供更小的置信度.例如,"位置"一词的存在可能会增加用户位置存储25%的可能性.

我们的想法是不断开发这些线索,以及他们适当的置信区间,以便我可以高度自信地对所有隐私政策进行分类.这里可以对电子邮件垃圾邮件捕获系统进行类比,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件.

我想问一下你们是否认为这是解决这个问题的好方法.你究竟会如何解决这样的问题?此外,您是否建议使用任何特定工具或框架.欢迎任何输入.这是我第一次做一个涉及人工智能的项目,特别是机器学习和NLP.

Fre*_*Foo 4

我们的想法是不断开发这些线索及其适当的置信区间,直到我可以高度自信地对所有隐私政策进行分类。这里可以与垃圾邮件捕获系统进行类比,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件。

这就是文本分类。鉴于每个文档有多个输出类别,它实际上是多标签分类。标准方法是使用要预测的类/标签手动标记一组文档,然后根据文档的特征训练分类器;通常是单词或 n-gram 出现次数或计数,可能由 tf-idf 加权。

用于文档分类的流行学习算法包括朴素贝叶斯和线性支持向量机,尽管其他分类器学习器也可能起作用。任何分类器都可以通过一对一(OvR)结构扩展到多标签分类器。