我有一组Books对象,类Book定义如下:
Class Book{
String title;
ArrayList<tags> taglist;
}
Run Code Online (Sandbox Code Playgroud)
当标题是本书的标题,例如:使用Javascript傻瓜.
和taglist是我们示例的标签列表:Javascript,jquery,"web dev",..
正如我所说,有一套书谈论不同的东西:IT,生物,历史......每本书都有一个标题和一组描述它的标签.
我必须按主题自动将这些书分类为分开的集合,例如:
IT书籍:
历史书:
生物学书籍:
你们知道一种分类算法/方法来申请这类问题吗?
解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西班牙语,英语.
我正在研究"描述表"输出以显示字段列表及其类型,我希望我的主键位于列表的顶部..我认为没有办法使用SQL对描述结果进行排序(类似'命令'通过')而不是在PHP中排序.
你们觉得怎么样 ?谢谢
我使用Boost来匹配字符串中的子串.Io迭代结果,我需要使用regex_iterator().
这是我找到的唯一用法示例,但我不理解回调.有人可以给我一个功能的例子吗?
让我们假设我的输入文本是:
"Hello everybody this is a sentense
Bla bla 14 .. yes
date 04/15/1986
"
Run Code Online (Sandbox Code Playgroud)
我想得到:
"Hello" "everybody" "this" "is" "a" "sentense" "bla" "yes" "date"
Run Code Online (Sandbox Code Playgroud) 给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是:
噪音存储在"名称"字段中.
我正在使用Java标准结构处理数据.
如你所知,Android今天有许多版本,许多构造函数,许多屏幕尺寸,......
今天的开发人员很难编写针对大部分设备的程序.
什么是开发人员必须知道的做法?
还有其他想法吗?
我想在C++中使用Boost :: regex来获取字符串中的所有单词.
这是我的意见:
"你好,网络 - bla bla hoho"
使用此代码:
regex rgx("[a-z]+",boost::regex::perl|boost::regex::icase);
regex_search(input, result, rgx);
for(unsigned int j=0; j<result.size(); ++j)
{
cout << result[j] << endl;
}
Run Code Online (Sandbox Code Playgroud)
我只得到第一个单词"你好"..我的代码有什么问题?result.size()返回1.
谢谢.
我有一个大型数据库的简历(CV),并有一定的表的技巧把所有用户的技能.
在该表中,有一个字段skill_text,用于描述全文技能.
我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语,以便构建一个具有标准化技能的新表.
以下是从DB中提取的一些示例技能:
输出应该是这样的:
如你所见,只有技能仍然没有其他表示文字.
我知道这可以使用文本挖掘技术,但如何做到这一点?数据库真的很大..这是一件好事,因为我们可以计算文本频率并决定它是真正的技能还是只是无意义的文本......最大的问题是......如何确定"blablabla"是一种技能?
编辑:请不要告诉我使用标准的东西,如文本tokinzer,或正则表达式..因为用户以非常随意的方式输入技能!!
谢谢