R文本挖掘 - 将段落一个接一个地组合而不会混淆句子

Question

R文本挖掘 - 将段落一个接一个地组合而不会混淆句子

R和文本挖掘的初学者.目前使用tm包.

我试图将两个不同文档的文本一起添加到语料库中.当我使用像

 c(corpus.doc[[1]],corpus.doc[[2]])

Run Code Online (Sandbox Code Playgroud)

或粘贴声明

  paste(corpus.doc[[1]],corpus.doc[[2]])

Run Code Online (Sandbox Code Playgroud)

我得到了每行合并的文本结果.

例如:if

> corpus.doc[[1]] 

He visits very often 
and 
sometimes more

> corpus.doc[[2]]) 

She also 
stays

Run Code Online (Sandbox Code Playgroud)

我对这些陈述的看法是这样的

He visits very often She also
and stays
sometimes more

Run Code Online (Sandbox Code Playgroud)

我怎样才能防止这种情况发生

He visits very often
and 
sometimes more
She also 
stays

Run Code Online (Sandbox Code Playgroud)

或者是否有一种简单的方法来组合R tm包中的文档？先感谢您!

附加信息

当我使用
< - c(corpus.doc [[1]],corpus.doc [[2]]时,recursive = TRUE)

我认为a成为一个包含两个文档的语料库,因此每个文档的文本仍未合并.我希望如此

a[[1]]

Run Code Online (Sandbox Code Playgroud)

给了我corpus.doc [[1]]和corpus.doc [[2]]的组合文本.

str(corpus.doc)

Run Code Online (Sandbox Code Playgroud)

显示这样的事情

 List of 4270
 $ CREC-2011-01-05-pt1-PgE1-2.htm   :Classes     'PlainTextDocument',   'TextDocument', 
      'character'  atomic [1:74] html head titlecongression record volume  issue  
 head  ...
 .. ..- attr(*, "Author")= chr(0) 
 .. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
 .. ..- attr(*, "Description")= chr(0) 
 . . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"

Run Code Online (Sandbox Code Playgroud)

它一直在继续......

Answer 1

42-*_*42- 2

pkg:tm 中的帮助说有一个 c.Corpus 函数，其“递归”的默认设置为 FALSE，但如果设置为 TRUE 可能会导致“智能”合并。如果您认为 copus.doc 是语料库类对象的列表，您可以尝试：

c( corpus.doc[[1]], corpus.doc[[2]], recursive=TRUE)

Run Code Online (Sandbox Code Playgroud)

...但尚不清楚您是否真的拥有“Corpus”级对象。

str(corpus.doc)   # see above

Run Code Online (Sandbox Code Playgroud)

因此，这个很长的列表中的第一个元素不是Corpus类对象，而是 PlaintextDocument。

归档时间：	13 年，9 月前
查看次数：	2763 次
最近记录：	13 年，7 月前