从 SimpleHTTPServer 解析 GET 请求数据

met*_*rsk 1 python simplehttpserver

所以我通过这样做在端口 8000 上的 Ubuntu 机器上创建了一个简单的服务器:

python -m SimpleHTTPServer

10.127.11.18 - - [14/Aug/2014 15:11:55] "GET / HTTP/1.1" 200 -
10.127.11.18 - - [14/Aug/2014 15:11:55] code 404, message File not found
10.127.11.18 - - [14/Aug/2014 15:11:55] "GET /favicon.ico HTTP/1.1" 404 -
10.127.11.18 - - [14/Aug/2014 15:12:02] "GET /crazysean/ HTTP/1.1" 200 -
10.127.11.18 - - [14/Aug/2014 15:12:37] "GET /crazysean/ HTTP/1.1" 200 -
10.127.11.18 - - [14/Aug/2014 15:12:52] "GET /crazysean/?url=www.google.com&x=200&y=400 HTTP/1.1" 301 -
10.127.11.18 - - [14/Aug/2014 15:12:52] "GET /crazysean/?url=www.google.com&x=200&y=400/ HTTP/1.1" 200 -
10.127.11.18 - - [14/Aug/2014 15:13:10] "GET /crazysean/?url=www.google.com&x=200&y=400/ HTTP/1.1" 200 -
Run Code Online (Sandbox Code Playgroud)

我正在尝试解析GET发送的数据,例如 URL、x 位置和 y 位置。

我假设我的第一步应该是创建一个新脚本,如下所示:

import SimpleHTTPServer
import SocketServer

PORT = 8000

Handler = SimpleHTTPServer.SimpleHTTPRequestHandler

httpd = SocketServer.TCPServer(("", PORT), Handler)

print "serving at port", PORT
httpd.serve_forever()
Run Code Online (Sandbox Code Playgroud)

但我不确定如何修改此脚本以捕获GET数据,因为最终我想将数据转储到 sqlite3 db 中。

aba*_*ert 5

认为这是一个XY问题。您对解析 GET 请求或对日志执行任何操作没有兴趣;您想要的是“捕获 GET 数据”,其方式与SimpleHTTPServer使用该数据为请求提供服务的方式完全相同,因此您可以将其存储在数据库中。你只是认为唯一的方法是解析某些东西某处,但你不确定是什么。

显然,SimpleHTTPServer必须已经在解析GET数据,并且必须拥有您想要的可用内容。那么,它在哪里?

正如文档在顶部所说:

很多工作,比如解析请求,都是由基类完成的BaseHTTPServer.BaseHTTPRequestHandler。此类实现do_GET()do_HEAD()功能。

按照该链接,你会看到:

处理程序将解析请求和标头,然后调用特定于请求类型的方法。方法名称是根据请求构造的。例如,对于请求方法SPAM,该do_SPAM()方法将不带参数调用。所有相关信息都存储在处理程序的实例变量中……

所以,一切都被解析为实例变量;下面那一段下面有一个很好的清单。

所以:

class DBLoggingHandler(SimpleHTTPServer.SimpleHTTPRequestHandler):
    def __init__(self, *args, **kwargs):
        super(DBLoggingHandler, self).__init__(*args, **kwargs)
        self.db = sqlite3.connect(dbpath)
    def do_GET(self):
        self.db.execute("INSERT INTO GetLog (command, vers, path) VALUES (?, ?, ?)",
                        (self.command, self.request_version, self.path))
        return super(DBLoggingHandler, self).do_GET()
Run Code Online (Sandbox Code Playgroud)

如果要将其解析path为单独的组件,则可以使用urlparse

    def do_GET(self):
        bits = urlparse.urlpase(self.path)
        self.db.execute("""INSERT INTO GetLog (command, vers, scheme, netloc, 
                                               path, params, query, fragment,
                                               username, password, hostname, port)
                           VALUES(?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)""",
                        (self.command, self.request_version, bits.scheme, bits.netloc,
                         bits.path, bits.params, bits.query, bits.fragment,
                         bits.username, bits.password, bits.hostname, bits.port))
        return super(DBLoggingHandler, self).do_GET()
Run Code Online (Sandbox Code Playgroud)

另外,请记住,请求可以不仅仅是命令行;它们通常有标题,也可能有正文(尽管通常不是 for GET)。看到headersrfile为此。对于不是 HTTP 请求的一部分,而是套接字连接的一部分的信息,或有关服务器的信息等,也有相应的属性。