我似乎找不到任何关于如何让Selenium以隐身模式打开浏览器的文档.
我是否必须在浏览器中设置自定义配置文件或?
我创建了一个小屏幕刮板,一切似乎工作得很好,信息被拉出并保存在数据库中.我遇到的唯一问题是有时Python不使用driver.back()它,所以它然后尝试获取错误页面上的信息并崩溃.我试过添加一个,time.sleep(5)但有时它仍然无法正常工作.我试图优化它以尽可能少的时间.让它睡30秒并不是一个好的解决方案.
所以我一直在阅读以下内容:
如何操纵MySQL全文搜索相关性以使一个字段比另一个字段更"有价值"?
我对以下回复感兴趣,并尝试成功实施.
SELECT url, keywords, title,
MATCH (keywords) AGAINST ('green watermelon') AS rel1,
MATCH (title) AGAINST ('green watermelon') AS rel2
FROM straight
WHERE MATCH (keywords,title) AGAINST ('green watermelon')
ORDER BY (rel1)+(rel2*1.5)
Run Code Online (Sandbox Code Playgroud)
我唯一的问题是以下几点.
如果用户要搜索说"绿色西瓜",它匹配表中有2列的3行,如下所示:
+------------+------------+ | Keyword | Title | +------------+------------+ | Green | Green | | Green | Watermelon | | Watermelon | Watermelon | +------------+------------+
我希望第二个记录首先是"排名",因为它是最相关的,但由于"绿色"在关键字和标题中使用两次,它们对于搜索术语"绿色西瓜"都具有相同的相关性.
我认为可以解决这个问题的最佳方法是,如果它发现单词为绿色,一旦它增加相关性为1,而任何其他时间它看到单词为绿色它会增加0然后如果它看到西瓜它会做同样的事情.这将使第二个结果的相关性得分为2,其他2个行的相关性为1.因此,使其更具相关性.在更大的数据库中搜索时,这将适用于更长的搜索项.
编辑:
如果可能的话,我可以创建另一个既包含标题又包含关键字的列,所以说该列称为"mashup",该表现在看起来更像:
+------------+------------+-----------------------+ | Keyword | Title | Mashup | +------------+------------+-----------------------+ | Green | Green | Green Green | | Green …
我理解以下问题可能不是最佳做法.
我有一个具有以下结构的表,关键字列和标题列连接到mashup列.
+------------+------------+-----------------------+ | Keyword | Title | Mashup | +------------+------------+-----------------------+ | Green | Green | Green Green | | Green | Watermelon | Green Watermelon | | Watermelon | Watermelon | Watermelon Watermelon | +------------+------------+-----------------------+
我想知道是否有一种"重复删除"字符串的方法.所以我的表格看起来更像下面的内容:
+------------+------------+-----------------------+ | Keyword | Title | Mashup | +------------+------------+-----------------------+ | Green | Green | Green | | Green | Watermelon | Green Watermelon | | Watermelon | Watermelon | Watermelon | +------------+------------+-----------------------+
这可能吗?我似乎无法找到解决方案.谢谢!
编辑:
+------------+------------+-------------+-----------------------------+ | Keyword | Title | Another | Mashup …
所以我试图从Youtube拉缩略图和我得到这个表格的例子在这里:
https://www.youtube.com/results?search_query=funny
所以xpath找到每个图像的链接,这是我正在寻找的,但是当它通过python运行它说"没有图像"python由于某种原因无法看到xpath即使我可以看到它崩溃后如果我做一个测试.
try:
thumbnail = browser.find_element_by_xpath("/html/body/div[2]/div[3]/div/div[5]/div/div/div/div[1]/div/div[2]/div[2]/ol/li/ol/li[1]/div/div/div[1]/a/div/img/@src").text
except NoSuchElementException:
print "NO image"
thumbnail = 'n/a'
Run Code Online (Sandbox Code Playgroud)
有人有任何想法吗?
python ×3
selenium ×3
mysql ×2
browser ×1
concat ×1
if-statement ×1
sql ×1
sql-update ×1
xpath ×1