标签: text-processing

Java文本分类问题

我有一组Books对象,类Book定义如下:

Class Book{

String title;
ArrayList<tags> taglist;

}
Run Code Online (Sandbox Code Playgroud)

标题是本书的标题,例如:使用Javascript傻瓜.

taglist是我们示例的标签列表:Javascript,jquery,"web dev",..

正如我所说,有一套书谈论不同的东西:IT,生物,历史......每本书都有一个标题和一组描述它的标签.

我必须按主题自动将这些书分类为分开的集合,例如:

IT书籍:

  • Java for dummies
  • Javascript for dummies
  • 在30天内学习闪光灯
  • C++编程

历史书:

  • 世界大战
  • 美国在1960年
  • 马丁路德金的一生

生物学书籍:

  • ....

你们知道一种分类算法/方法来申请这类问题吗?

解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西班牙语,英语.

java text-processing nlp classification machine-learning

11
推荐指数
1
解决办法
1万
查看次数

使用换行符粘贴文本/返回格式化文本

我想做一个格式化用于邮寄地址的列,我不能获取换行符/返回载体或<br/>在制作新列时工作.

name = c("John Smith", "Patty Smith", "Sam Smith")
address = c("111 Main St.", "222 Main St.", "555 C Street")
cityState = c("Portland, OR 97212", "Portland, OR 95212", "Portland, OR 99212")
df <- data.frame(name, address, cityState)
Run Code Online (Sandbox Code Playgroud)

我想创建一个格式化地址标签中数据的列:John Smith 111 Main st.波特兰,OR 97212

每个新列:每行后都会有一个返回:所以它总是3行.其他3列中的每一列都有一行.

# example of what I am trying to do... 
paste0(name, "return", address, "return", cityState).  Everything I have tried does not work for making a newline.
Run Code Online (Sandbox Code Playgroud)

text text-processing r

11
推荐指数
2
解决办法
2万
查看次数

寻找字典单词

我有很多复合字符串,它们是两个或三个英文单词的组合.

    e.g. "Spicejet" is a combination of the words "spice" and "jet"
Run Code Online (Sandbox Code Playgroud)

我需要将这些单独的英语单词与这些复合字符串分开.我的字典将包含大约100000个单词.

什么是最有效的,我可以将单个英语单词与这些复合字符串分开.

algorithm text-processing data-structures

10
推荐指数
3
解决办法
2943
查看次数

给定一个文档,选择一个相关的片段

当我在这里问一个问题时,自动搜索返回的问题的工具提示给出了问题的第一点,但是它们中的相当一部分没有给出任何对理解问题更有用的文本而不是标题.有没有人知道如何制作一个过滤器来修剪问题的无用位?

我的第一个想法是修剪任何只包含某些列表中的单词的主要句子(例如,停止单词,加上标题中的单词,加上SO语料库中与标签具有非常弱相关性的单词,这同样可能是无论标签是什么,都会出现在任何问题中)

statistics text-processing nlp heuristics

10
推荐指数
1
解决办法
2984
查看次数

如何在CMake变量中去掉尾部空格?

我们正在努力改进CMake生产的makefile.对于Clang,GCC和ICC,我们想补充一下-march=native.这样做的块看起来像:

# -march=native for GCC, Clang and ICC on i386, i486, i586, i686 and x86_64.
message(STATUS, "1")
message(STATUS, "Compiler: x${CMAKE_CXX_COMPILER_ID}x")
if ("${CMAKE_CXX_COMPILER_ID}" STREQUAL "Clang" OR "${CMAKE_CXX_COMPILER_ID}" STREQUAL "GNU" OR "${CMAKE_CXX_COMPILER_ID}" STREQUAL "Intel")
    message(STATUS, "2")
    message(STATUS, "Machine: x${UNAME_MACHINE}x")
    if (("${UNAME_MACHINE}" MATCHES "i.86") OR ("${UNAME_MACHINE}" STREQUAL "x86_64"))
            message(STATUS, "3")
        if (CMAKE_VERSION VERSION_LESS 2.8.12)
            add_definitions(-march=native)
        else()
            add_compile_options(-march=native)
        endif()
    endif()
endif()
Run Code Online (Sandbox Code Playgroud)

消息语句显示机器字符串来自uname具有尾随换行符:

STATUS,1
STATUS,Compiler: xGNUx
STATUS,2
STATUS,Machine: xx86_64
x
Run Code Online (Sandbox Code Playgroud)

要生产的块UNAME_MACHINE是:

# We need the output 'uname -m' for …
Run Code Online (Sandbox Code Playgroud)

text-processing cmake uname

10
推荐指数
3
解决办法
8460
查看次数

如何在Java中识别文本文档的语言?

是否有现有的Java库可以告诉我String是否包含英语语言文本(例如,我需要能够区分法语或意大利语文本 - 该函数需要为法语和意大利语返回false,对于英语是真的) ?

java text text-processing dictionary

9
推荐指数
2
解决办法
3800
查看次数

在Python中确定数组的频率

我有一个填充浮点数的示例文件,如下所示:

    -0.02  3.04  3.04  3.02  3.02  3.06  3.04  3.02  3.04  3.02  3.04  3.02
     3.04  3.02  3.04  3.04  3.04  3.02  3.04  3.02  3.04  3.02  3.04  3.02
     3.06  3.02  3.04  3.02  3.04  3.02  3.02  3.06  3.04  3.02  3.04  3.02
     3.04  3.02  3.04  3.04  3.04  3.02  3.04  3.02  3.02  3.06  3.04  3.02
     3.06  3.02  3.04 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.04 -0.02 -0.04
Run Code Online (Sandbox Code Playgroud)

这些数字放在文本文件中.我正在尝试读取文本文件并确定此信号的频率.该数据从数字示波器捕获.我可以在范围显示中看到频率,但我也想通过在Python中处理它来验证它.我在PC端使用Python从设备捕获数据.

即使我可以在Python中做一些低级的东西,我也是文本处理的新手.我想我需要先将文件中的数据加载到数组中,然后执行FFT或更简单的算法,该算法将产生以Hz为单位的整数.

从理论上讲,我知道如何进行傅里叶分析,我可以用任何特定信号在纸上进行分析.我不知道从哪里开始在给定数据集的Python.我已经尝试过scipy-numpy的文档,但对我来说效果不好.

我希望有经验的用户提供指导.

python text-processing fft transform

9
推荐指数
1
解决办法
1万
查看次数

词干对术语频率的影响?

术语频率(TF)和反向文档频率(IDF)如何受到停用词删除和词干的影响?

谢谢!

text-processing stemming data-mining stop-words tf-idf

9
推荐指数
1
解决办法
6889
查看次数

Python:PyEnchant和64位Python

我在做文字处理.我需要PyEnchant库来验证文本中的特定单词是否是有效的英语单词.但是,它仅适用于32位的Python安装.我需要64位Python来处理大文本文件的内存问题.

有没有办法可以为64位Python安装PyEnchant?如果没有,我可以用什么其他库来完成类似的任务?我查看了NLTK的wordnet但是读到它的功能不如PyEnchant.

python text-processing pyenchant

9
推荐指数
1
解决办法
2694
查看次数

从文本中提取表情符号

我需要从使用Python文本中提取文本表情符号,我一直在寻找一些解决方案,这样做,但他们大多像这样这样只涉及简单的表情符号.我需要解析所有这些.

目前我正在使用一个表情符号列表,我为我处理的每个文本进行迭代,但这样效率很低.你知道更好的解决方案吗?也许是一个可以处理这个问题的Python库?

python regex text-processing emoticons

9
推荐指数
1
解决办法
2302
查看次数