人工智能,文本分类器

Mil*_*nki 7 c# artificial-intelligence bayesian winforms neural-network

我是AI的新手.我正在通过机器学习来处理文本分类的应用程序.应用程序需要对HTML文档的不同部分进行分类.例如,大多数网页都有头部,菜单,侧边栏,页脚,主要内容等.我想使用文本分类器对HTML文档的这些部分进行分类,并在页面上标识不同类型的表单.

  1. 如果任何人都可以提供关于这个主题的详细指导,将会非常有帮助.
  2. 类似应用的例子也会非常有帮助.

我正在寻找有关代码和实现的更多技术建议.

我可以为html标签属性分配标签,例如class或id

<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
Run Code Online (Sandbox Code Playgroud)

喜欢第一项:

TrainClassifier(标签:"菜单",值:"menu-1",属性:"class",position-in-string:"21%",tag:"div");

输入:

  1. "menu-1"(属性值)
  2. 项目清单
  3. "class"(属性名称)
  4. "21"(字符串中的标记位置)
  5. "div"(标签名称)

产量

  1. "菜单"(分类为标签)

什么神经网络库,可以采取上述输入,并将它们分类到标签(即菜单).

所有用户都无法创建正则表达式或xpath,他们需要更简单的方法,因此重要的是,要使软件智能化,用户可以使用webbrowser控件突出显示他/她需要的部分html文档,并训练软件直到它可以独自工作.

但我不知道如何使用AI制作软件列车,

我正在寻找的AI,就像它应该能够接受各种输入,并在此基础上进行分类,正如我已经说过AI的新内容,对它不太了解.

如果我能回答我提出的问题,比如我应该使用哪个库,以及如何实现,建议使用Xpath或Regex或其他方法的答案,那么对我来说会有所帮助.建议,但你需要的.

Don*_*eba 0

如果您有必须为其分配标签的数据片段,分类可以为您提供帮助。不是这种情况。您最好手动编写 XPath 规则来分解文档。