小编You*_*sef的帖子

Java文本分类问题

我有一组Books对象,类Book定义如下:

Class Book{

String title;
ArrayList<tags> taglist;

}
Run Code Online (Sandbox Code Playgroud)

标题是本书的标题,例如:使用Javascript傻瓜.

taglist是我们示例的标签列表:Javascript,jquery,"web dev",..

正如我所说,有一套书谈论不同的东西:IT,生物,历史......每本书都有一个标题和一组描述它的标签.

我必须按主题自动将这些书分类为分开的集合,例如:

IT书籍:

  • Java for dummies
  • Javascript for dummies
  • 在30天内学习闪光灯
  • C++编程

历史书:

  • 世界大战
  • 美国在1960年
  • 马丁路德金的一生

生物学书籍:

  • ....

你们知道一种分类算法/方法来申请这类问题吗?

解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西班牙语,英语.

java text-processing nlp classification machine-learning

11
推荐指数
1
解决办法
1万
查看次数

排序"描述表"查询结果的最简洁方法是什么?

我正在研究"描述表"输出以显示字段列表及其类型,我希望我的主键位于列表的顶部..我认为没有办法使用SQL对描述结果进行排序(类似'命令'通过')而不是在PHP中排序.

你们觉得怎么样 ?谢谢

php mysql describe

11
推荐指数
2
解决办法
4276
查看次数

如何使用C++ Boost的regex_iterator()

我使用Boost来匹配字符串中的子串.Io迭代结果,我需要使用regex_iterator().

这是我找到的唯一用法示例,但我不理解回调.有人可以给我一个功能的例子吗?


让我们假设我的输入文本是:

"Hello everybody this is a sentense
Bla bla 14 .. yes 
date 04/15/1986 
"
Run Code Online (Sandbox Code Playgroud)

我想得到:

"Hello" "everybody" "this" "is" "a" "sentense" "bla" "yes" "date"
Run Code Online (Sandbox Code Playgroud)

c++ regex boost iterator

8
推荐指数
1
解决办法
7143
查看次数

检测并删除噪音文本

给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是:

  • fghfghfghfg
  • qsdqsdqsd
  • rtyrtyrty

噪音存储在"名称"字段中.

我正在使用Java标准结构处理数据.

java text noise

5
推荐指数
2
解决办法
1773
查看次数

针对各种设备和屏幕尺寸的最佳做法

如你所知,Android今天有许多版本,许多构造函数,许多屏幕尺寸,......

今天的开发人员很难编写针对大部分设备的程序.

什么是开发人员必须知道的做法?

  • 流体布局的提示.
  • 用于开发任何Android版本的"标准".
  • ...

还有其他想法吗?

android device

3
推荐指数
1
解决办法
569
查看次数

帮助C++ Boost :: regex

我想在C++中使用Boost :: regex来获取字符串中的所有单词.

这是我的意见:

"你好,网络 - bla bla hoho"

使用此代码:

      regex rgx("[a-z]+",boost::regex::perl|boost::regex::icase);

      regex_search(input, result, rgx);

       for(unsigned int j=0; j<result.size(); ++j)
       {
         cout << result[j] << endl;
       }
Run Code Online (Sandbox Code Playgroud)

我只得到第一个单词"你好"..我的代码有什么问题?result.size()返回1.

谢谢.

c++ regex boost

2
推荐指数
1
解决办法
1423
查看次数

大型数据库上的文本挖掘(数据挖掘)

我有一个大型数据库的简历(CV),并有一定的表的技巧把所有用户的技能.

在该表中,有一个字段skill_text,用于描述全文技能.

我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语,以便构建一个具有标准化技能的新表.

以下是从DB中提取的一些示例技能:

  • 部门和竞争分析
  • 业务发展(包括国际环境)
  • 具体结构和道路设计软件 - Microstation,澳门,AutoCAD(基础知识)
  • 创意作品(Photoshop,In-Design,Illustrator)
  • 检查并报告活动进度
  • 组织和参加活动和展览
  • 开发:Aptana Studio,PHP,HTML,CSS,JavaScript,SQL,AJAX
  • 学科:一对一营销,电子营销(SEO和SEA,展示,电子邮件,联盟计划)混合营销,病毒式营销,社交网络营销.

输出应该是这样的:

  • 部门和竞争分析
  • 业务发展
  • 具体结构和道路设计软件 -
  • 澳门
  • AutoCAD的
  • Photoshop中
  • 在-设计
  • 插画
  • 组织活动
  • 发展
  • Aptana工作室
  • PHP
  • HTML
  • CSS
  • JavaScript的
  • SQL
  • AJAX
  • 混合营销
  • 病毒式营销
  • 社交网络营销
  • 电子邮件
  • SEO
  • 一对一营销

如你所见,只有技能仍然没有其他表示文字.

我知道这可以使用文本挖掘技术,但如何做到这一点?数据库真的很大..这是一件好事,因为我们可以计算文本频率并决定它是真正的技能还是只是无意义的文本......最大的问题是......如何确定"blablabla"是一种技能?

编辑:请不要告诉我使用标准的东西,如文本tokinzer,或正则表达式..因为用户以非常随意的方式输入技能!!

谢谢

database data-mining text-mining

2
推荐指数
1
解决办法
2944
查看次数