标签: text-processing

优化文本添加和删除列表

我有一个包含文本添加和删除位置的列表,如下所示:

     Type   Position   Text/Length
1.   +      2          ab          // 'ab' was added at position 2
2.   +      1          cde         // 'cde' was added at position 1
3.   -      4          1           // a character was deleted at position 4
Run Code Online (Sandbox Code Playgroud)

为了更清楚,这就是这些操作将要做的事情:

    1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
    ---------------------------------
    t | e | x | t |   |   |   |   |  
1.  t | a | b | e | x | …
Run Code Online (Sandbox Code Playgroud)

algorithm optimization text-processing

9
推荐指数
1
解决办法
231
查看次数

我应该使用哪个函数将非结构化文本文件读入R?

这是我在这里的第一个问题,我是R的新手,试图找出我如何进行数据处理的第一步,请保持简单:)

我想知道在R中加载非结构化文本数据以进行进一步处理的最佳功能和有用的数据结构是什么.例如,假设我将一本书存储为文本文件,其中没有新的行字符.

read.delim()在列表中使用和存储数据是一个好主意吗?或者是一个更好的角色向量,我将如何定义它?

先感谢您.

PN

PS如果我使用"." 作为我的界限,它会对待像"先生"这样的事情 作为一个单独的句子.虽然这只是一个例子而且我并不关心这个缺陷,仅仅是出于教育目的,我仍然很好奇你是如何解决这个问题的.

text-processing r file-read readlines

9
推荐指数
1
解决办法
1万
查看次数

使用Stanford NER从文本文档中提取地址?

我正在寻找斯坦福NER并考虑使用JAVA Apis来从文本文档中提取邮政地址.该文件可以是任何有邮政地址部分的文件,例如电费单,电费单.

所以我的想法是,

  1. 使用LOCATION和其他原始命名实体将邮政地址定义为命名实体.
  2. 定义细分和其他子流程.

我试图找到一个相同的示例管道(需要详细的步骤是什么),任何人之前都做过这个?建议欢迎.

java text-processing stanford-nlp

9
推荐指数
1
解决办法
1273
查看次数

测量文本宽度(Python/PIL)

我正在使用以下两种方法来计算设置字体类型和大小的示例字符串的渲染宽度:

font = ImageFont.truetype("/usr/share/fonts/truetype/dejavu/DejaVuSans.ttf", 14)
sample = "Lorem ipsum dolor sit amet, partem periculis an duo, eum lorem paulo an, mazim feugiat lobortis sea ut. In est error eirmod vituperata, prima iudicabit rationibus mel et. Paulo accumsan ad sit, et modus assueverit eum. Quod homero adversarium vel ne, mel noster dolorum te, qui ea senserit argumentum complectitur. Duo at laudem explicari deterruisset, eu quo hinc mnesarchum. Vel autem insolens atomorum at, dolorum suavitate voluptatum duo ex."
#METHOD 1 …
Run Code Online (Sandbox Code Playgroud)

python text-processing python-imaging-library pillow

9
推荐指数
1
解决办法
6248
查看次数

Python和Java中的语音拼写

我正在尝试构建一个接受文本并输出本文单词的拼音拼写的系统.关于哪些库可以在Python和Java中使用的任何想法?

python java text-processing spelling text-mining

8
推荐指数
1
解决办法
4810
查看次数

如何在Bash中使用反向引用

我有一个带有反向引用的正则表达式.如何在bash脚本中使用它?

比如我想打印匹配的内容(.*)

grep -E "CONSTRAINT \`(.*)\` FOREIGN KEY" temp.txt 
Run Code Online (Sandbox Code Playgroud)

如果应用它

CONSTRAINT `fk_dm` FOREIGN KEY
Run Code Online (Sandbox Code Playgroud)

我想输出

fk_dm
Run Code Online (Sandbox Code Playgroud)

regex unix grep text-processing

8
推荐指数
1
解决办法
7665
查看次数

使用Java删除文件的最后一行

我有一个.txt文件,我想用Java处理.我想删除它的最后一行.

我需要有关如何实现这一点的想法,而无需将整个内容复制到另一个文件中并忽略最后一行.有什么建议?

java file-io text-processing

8
推荐指数
1
解决办法
7792
查看次数

sed如何删除文件中的前17行和后8行

我有一个150GB的大文件CSV文件,我想删除前17行和后8行.我尝试了以下但似乎没有正常工作

sed -i -n -e :a -e '1,8!{P;N;D;};N;ba' 
Run Code Online (Sandbox Code Playgroud)

sed -i '1,17d' 
Run Code Online (Sandbox Code Playgroud)

我想知道是否有人可以帮助sed或awk,一个班轮会很棒吗?

linux bash text-processing sed

8
推荐指数
2
解决办法
9806
查看次数

如何提高Clojure中的文本处理性能?

我正在Clojure中编写一个简单的桌面搜索引擎,以此来了解有关该语言的更多信息.到目前为止,我的程序文本处理阶段的表现非常糟糕.

在文本处理期间,我要:

  • 清理不需要的字符;
  • 将字符串转换为小写;
  • 拆分文档以获取单词列表;
  • 构建一个地图,将每个单词与其在文档中的出现相关联.

这是代码:

(ns txt-processing.core
  (:require [clojure.java.io :as cjio])
  (:require [clojure.string :as cjstr])
  (:gen-class))

(defn all-files [path]
  (let [entries (file-seq (cjio/file path))]
    (filter (memfn isFile) entries)))

(def char-val
  (let [value #(Character/getNumericValue %)]
    {:a (value \a) :z (value \z)
     :A (value \A) :Z (value \Z)
     :0 (value \0) :9 (value \9)}))

(defn is-ascii-alpha-num [c]
  (let [n (Character/getNumericValue c)]
    (or (and (>= n (char-val :a)) (<= n (char-val :z)))
        (and (>= n (char-val :A)) (<= n (char-val :Z))) …
Run Code Online (Sandbox Code Playgroud)

text-processing clojure lazy-sequences

8
推荐指数
1
解决办法
1410
查看次数

LSTM如何关注可变长度输入

LSTM的注意机制是直的softmax前馈网络,它接收编码器的每个时间步的隐藏状态和解码器的当前状态.

这两个步骤似乎是矛盾的,无法解决这个问题:1)需要预先定义前馈网络的输入数量2)编码器的隐藏状态数量是可变的(取决于期间的步骤数量)编码).

我误会了什么吗?培训是否与培训常规编码器/解码器网络相同或者我是否必须单独培训注意机制?

提前致谢

text-processing machine-learning neural-network lstm recurrent-neural-network

8
推荐指数
1
解决办法
3177
查看次数