使用rmongodb在R中运行高级MongoDB查询

Rap*_*ter 5 r mongodb rmongodb

由于MySQL让我疯狂,我试图让自己熟悉我的第一个"NoSQL"DBMS,它恰好是MongoDB.我通过rmongodb连接到它.

我使用rmongodb越多,运行高级查询就会遇到更多问题/问题.

首先介绍一些示例数据,然后再详细介绍我无法正确指定的不同类型的查询.

示例数据

这个例子来自MongoDB网站,并且已经简化了一些.

pkg <- "rmongodb"
if (!require(pkg, character.only=TRUE)) {
    install.packages(pkg)
    require(pkg, character.only=TRUE)   
}

# Connect to DB
db <- "test"
ns <- "posts"
mongo <- mongo.create(db=db)

# Insert document to collection 'test.users'
b <- mongo.bson.from.list(list(
    "_id"="alex", 
    name=list(first="Alex", last="Benisson"),
    karma=1.0,
    age=30,
    test=c("a", "b")
))
mongo.insert(mongo, "test.users", b)

# Insert document to collection 'test.posts'
b <- mongo.bson.from.list(list(
        "_id"="abcd",
        when=mongo.timestamp.create(strptime("2011-09-19 02:00:00",
            "%Y-%m-%d %H:%M:%s"), increment=1),
        author="alex",
        title="Some title",
        text="Some text.",
        tags=c("tag.1", "tag.2"),
        votes=5,
        voters=c("jane", "joe", "spencer", "phyllis", "li"),
        comments=list(
            list(
                who="jane", 
                when=mongo.timestamp.create(strptime("2011-09-19 04:00:00",
                    "%Y-%m-%d %H:%M:%s"), increment=1),
                comment="Some comment."
            ),
            list(
                who="meghan", 
                when=mongo.timestamp.create(strptime("2011-09-20 13:00:00",
                    "%Y-%m-%d %H:%M:%s"), increment=1),
                comment="Some comment."
            )
        )
    )
)
b
mongo.insert(mongo, "test.posts", b)
Run Code Online (Sandbox Code Playgroud)

与插入JSON/BSON对象有关的两个问题:

  1. 文档'test.posts',字段voters:c()在这种情况下使用是否正确?
  2. 文档'test.posts',字段comments:指定这个的正确方法是什么,c()或者list()

顶级查询:他们是一种享受

顶级查询工作正常:

# Get all posts by 'alex' (only titles)
res <- mongo.find(mongo, "test.posts", query=list(author="alex"), 
    fields=list(title=1L))
out <- NULL
while (mongo.cursor.next(res))
    out <- c(out, list(mongo.bson.to.list(mongo.cursor.value(res))))

> out
[[1]]
                       _id                      title 
                     "abcd"            "No Free Lunch" 
Run Code Online (Sandbox Code Playgroud)

问题1:基本子级查询

如何运行一个简单的"子级别查询"(而不是顶级查询),需要进入JSON/BSON样式的MongoDB对象的任意深度子级别?这些子级查询使用MongoDB的点表示法,我似乎无法弄清楚如何将其映射到有效的rmongodb查询

在简单的MongoDB语法中,类似于

> db.posts.find( { comments.who : "meghan" } )
Run Code Online (Sandbox Code Playgroud)

会工作.但我无法弄清楚如何用rmongodb函数做到这一点

这是我到目前为止所尝试的内容

# Get all comments by 'meghan' from 'test.posts'

#--------------------
# Approach 1)
#--------------------
res <- mongo.find(mongo, "test.posts", query=list(comments=list(who="meghan")))
out <- NULL
while (mongo.cursor.next(res))
    out <- c(out, list(mongo.bson.to.list(mongo.cursor.value(res))))

> out
NULL
# Does not work

#--------------------
# Approach 2) 
#--------------------
buf <- mongo.bson.buffer.create()
mongo.bson.buffer.start.object(buf, "comments")
mongo.bson.buffer.append(buf, "who", "meghan")
mongo.bson.buffer.finish.object(buf)
query <- mongo.bson.from.buffer(buf)
res <- mongo.find(mongo, "test.posts", query=query)
out <- NULL
while (mongo.cursor.next(res))
    out <- c(out, list(mongo.bson.to.list(mongo.cursor.value(res))))

> out
NULL
# Does not work
Run Code Online (Sandbox Code Playgroud)

问题2:使用$运算符查询

这些工作

查询1

buf <- mongo.bson.buffer.create()
mongo.bson.buffer.start.object(buf, "age")
mongo.bson.buffer.append(buf, "$lte", 30)
mongo.bson.buffer.finish.object(buf)
criteria <- mongo.bson.from.buffer(buf)
criteria

> mongo.find.one(mongo, "test.users", query=criteria)
    _id : 2      alex
    name : 3     
        first : 2    Alex
        last : 2     Benisson

    karma : 1    1.000000
    age : 1      30.000000
    test : 4     
        0 : 2    a
        1 : 2    b
Run Code Online (Sandbox Code Playgroud)

查询2

buf <- mongo.bson.buffer.create()
mongo.bson.buffer.start.object(buf, "test")
mongo.bson.buffer.append(buf, "$in", c("a", "z"))
mongo.bson.buffer.finish.object(buf)
criteria <- mongo.bson.from.buffer(buf)
criteria
mongo.find.one(mongo, "test.users", query=criteria)
Run Code Online (Sandbox Code Playgroud)

但是,请注意原子集将导致返回值为 NULL

mongo.bson.buffer.append(buf, "$in", "a")
# Instead of 'mongo.bson.buffer.append(buf, "$in", c("a", "z"))'
Run Code Online (Sandbox Code Playgroud)

尝试与子级别查询相同,我再次失去了

buf <- mongo.bson.buffer.create()
mongo.bson.buffer.start.object(buf, "name")
mongo.bson.buffer.start.object(buf, "first")
mongo.bson.buffer.append(buf, "$in", c("Alex", "Horst"))
mongo.bson.buffer.finish.object(buf)
mongo.bson.buffer.finish.object(buf)
criteria <- mongo.bson.from.buffer(buf)
criteria <- mongo.bson.from.buffer(buf)
> criteria
    name : 3     
        first : 3    
            $in : 4      
                0 : 2    Alex
                1 : 2    Horst

> mongo.find.one(mongo, "test.users", query=criteria)
NULL
Run Code Online (Sandbox Code Playgroud)

Ger*_*sly 7

c()或list()都可以.取决于组件是否已命名以及它们是否都具有相同的类型(对于列表).最好的办法是查看生成的BSON,看看你是否得到了你想要的东西.为了最好地控制生成的对象,请使用mongo.bson.buffer以及对其进行操作的函数.实际上,这就是子查询失败的原因.'comments'被创建为子对象而不是数组.mongo.bson.from.list()很方便,但它没有给你相同的控制,有时它猜测从复杂结构生成什么是错误的.

对其他数据集的查询可以像这样更正:

buf <- mongo.bson.buffer.create()
mongo.bson.buffer.start.object(buf, "name.first")
mongo.bson.buffer.append(buf, "$in", c("Alex", "Horst"))
mongo.bson.buffer.finish.object(buf)
criteria <- mongo.bson.from.buffer(buf)
Run Code Online (Sandbox Code Playgroud)

请注意,你肯定需要在这里使用一个缓冲区,因为R会阻塞虚线名称.

我希望这能解决你的问题.如果您有任何其他问题,请与我们联系.