标签: text-processing

Java文本分类问题

我有一组Books对象,类Book定义如下:

Class Book{

String title;
ArrayList<tags> taglist;

}

Run Code Online (Sandbox Code Playgroud)

当标题是本书的标题,例如:使用Javascript傻瓜.

和taglist是我们示例的标签列表:Javascript,jquery,"web dev",..

正如我所说,有一套书谈论不同的东西:IT,生物,历史......每本书都有一个标题和一组描述它的标签.

我必须按主题自动将这些书分类为分开的集合,例如:

IT书籍:

Java for dummies
Javascript for dummies
在30天内学习闪光灯
C++编程

历史书:

世界大战
美国在1960年
马丁路德金的一生

生物学书籍:

....

你们知道一种分类算法/方法来申请这类问题吗？

解决方案是使用外部API来定义文本的类别,但问题在于书籍使用不同的语言:法语,西班牙语,英语.

java text-processing nlp classification machine-learning

You*_*sef

2010 05-13

11
推荐指数

1
解决办法

1万
查看次数

使用换行符粘贴文本/返回格式化文本

我想做一个格式化用于邮寄地址的列,我不能获取换行符/返回载体或<br/>在制作新列时工作.

name = c("John Smith", "Patty Smith", "Sam Smith")
address = c("111 Main St.", "222 Main St.", "555 C Street")
cityState = c("Portland, OR 97212", "Portland, OR 95212", "Portland, OR 99212")
df <- data.frame(name, address, cityState)

Run Code Online (Sandbox Code Playgroud)

我想创建一个格式化地址标签中数据的列:John Smith 111 Main st.波特兰,OR 97212

每个新列:每行后都会有一个返回:所以它总是3行.其他3列中的每一列都有一行.

# example of what I am trying to do... 
paste0(name, "return", address, "return", cityState).  Everything I have tried does not work for making a newline.

Run Code Online (Sandbox Code Playgroud)

text text-processing r

Spr*_*and

2016 10-15

11
推荐指数

2
解决办法

2万
查看次数

寻找字典单词

我有很多复合字符串,它们是两个或三个英文单词的组合.

    e.g. "Spicejet" is a combination of the words "spice" and "jet"

Run Code Online (Sandbox Code Playgroud)

我需要将这些单独的英语单词与这些复合字符串分开.我的字典将包含大约100000个单词.

什么是最有效的,我可以将单个英语单词与这些复合字符串分开.

algorithm text-processing data-structures

Man*_*nas

2009 08-18

10
推荐指数

3
解决办法

2943
查看次数

给定一个文档,选择一个相关的片段

当我在这里问一个问题时,自动搜索返回的问题的工具提示给出了问题的第一点,但是它们中的相当一部分没有给出任何对理解问题更有用的文本而不是标题.有没有人知道如何制作一个过滤器来修剪问题的无用位？

我的第一个想法是修剪任何只包含某些列表中的单词的主要句子(例如,停止单词,加上标题中的单词,加上SO语料库中与标签具有非常弱相关性的单词,这同样可能是无论标签是什么,都会出现在任何问题中)

statistics text-processing nlp heuristics

BCS*_*BCS

2010 05-14

10
推荐指数

1
解决办法

2984
查看次数

如何在CMake变量中去掉尾部空格？

我们正在努力改进CMake生产的makefile.对于Clang,GCC和ICC,我们想补充一下-march=native.这样做的块看起来像:

# -march=native for GCC, Clang and ICC on i386, i486, i586, i686 and x86_64.
message(STATUS, "1")
message(STATUS, "Compiler: x${CMAKE_CXX_COMPILER_ID}x")
if ("${CMAKE_CXX_COMPILER_ID}" STREQUAL "Clang" OR "${CMAKE_CXX_COMPILER_ID}" STREQUAL "GNU" OR "${CMAKE_CXX_COMPILER_ID}" STREQUAL "Intel")
    message(STATUS, "2")
    message(STATUS, "Machine: x${UNAME_MACHINE}x")
    if (("${UNAME_MACHINE}" MATCHES "i.86") OR ("${UNAME_MACHINE}" STREQUAL "x86_64"))
            message(STATUS, "3")
        if (CMAKE_VERSION VERSION_LESS 2.8.12)
            add_definitions(-march=native)
        else()
            add_compile_options(-march=native)
        endif()
    endif()
endif()

Run Code Online (Sandbox Code Playgroud)

消息语句显示机器字符串来自uname具有尾随换行符:

STATUS,1
STATUS,Compiler: xGNUx
STATUS,2
STATUS,Machine: xx86_64
x

Run Code Online (Sandbox Code Playgroud)

要生产的块UNAME_MACHINE是:

# We need the output 'uname -m' for …

Run Code Online (Sandbox Code Playgroud)

text-processing cmake uname

jww*_*jww

2017 09-18

10
推荐指数

3
解决办法

8460
查看次数

如何在Java中识别文本文档的语言？

是否有现有的Java库可以告诉我String是否包含英语语言文本(例如,我需要能够区分法语或意大利语文本 - 该函数需要为法语和意大利语返回false,对于英语是真的) ？

java text text-processing dictionary

作者

2012 06-08

9
推荐指数

2
解决办法

3800
查看次数

在Python中确定数组的频率

我有一个填充浮点数的示例文件,如下所示:

    -0.02  3.04  3.04  3.02  3.02  3.06  3.04  3.02  3.04  3.02  3.04  3.02
     3.04  3.02  3.04  3.04  3.04  3.02  3.04  3.02  3.04  3.02  3.04  3.02
     3.06  3.02  3.04  3.02  3.04  3.02  3.02  3.06  3.04  3.02  3.04  3.02
     3.04  3.02  3.04  3.04  3.04  3.02  3.04  3.02  3.02  3.06  3.04  3.02
     3.06  3.02  3.04 -0.02 -0.02 -0.02 -0.02 -0.02 -0.02 -0.04 -0.02 -0.04

Run Code Online (Sandbox Code Playgroud)

这些数字放在文本文件中.我正在尝试读取文本文件并确定此信号的频率.该数据从数字示波器捕获.我可以在范围显示中看到频率,但我也想通过在Python中处理它来验证它.我在PC端使用Python从设备捕获数据.

即使我可以在Python中做一些低级的东西,我也是文本处理的新手.我想我需要先将文件中的数据加载到数组中,然后执行FFT或更简单的算法,该算法将产生以Hz为单位的整数.

从理论上讲,我知道如何进行傅里叶分析,我可以用任何特定信号在纸上进行分析.我不知道从哪里开始在给定数据集的Python.我已经尝试过scipy-numpy的文档,但对我来说效果不好.

我希望有经验的用户提供指导.

python text-processing fft transform

y33*_*33t

2012 01-08

9
推荐指数

1
解决办法

1万
查看次数