doc*_*ock 3 javascript google-chrome browser-history google-chrome-extension
我正在尝试使用Chrome扩展历史记录API根据输入的搜索字词获取用户的历史记录。但是在某些情况下,搜索无法正常进行。例如,当我输入术语“ bi”时,未给出任何结果,但是当我搜索“位”时,给出了一些结果,但不是全部,我通过在chrome历史记录搜索中对其进行了验证来检查了它,并显示了更多结果。历史API是这样工作的还是我做错了什么?这是我的代码-
window.onload = function() {
function getHistory() {
var list = document.getElementById('list');
var box = document.getElementById("box").value;
if (box === '') {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing To Search.';
}
else {
var microseconds = 1000 * 60 * 60 * 24 * 365 * 45;
var start = (new Date).getTime() - microseconds;
chrome.history.search({text: box, startTime: 0, maxResults: 50000}, function(data) {
if(Object.keys(data).length === 0) {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing Found.';
}
else {
list.innerHTML = '';
data.forEach(function(page) {
list.innerHTML = list.innerHTML + '<li><p>'+page.title+'</p> <a href='+page.url+' target="_blank"><p>'+page.url+'</p></a></li> <hr>';
});
}
});
}
}
document.getElementById('search').onclick = getHistory;
}
Run Code Online (Sandbox Code Playgroud)
谢谢。
我看到的是与我正在编写的扩展名相同的行为。这确实很烦人,所以我深入研究了Chromium源代码,以找出其与历史记录结果匹配的真正作用。
简短的回答: 从源代码看来,这种行为是有意的,因此,如果我们要检索文本查询的所有匹配项,则必须坚持检索所有历史记录结果并在JavaScript中自己搜索匹配项。附带说明一下,别忘了仔细检查开始/结束时间,并确保您的“ maxResults”属性足够大,因为任何这些属性的错误值都可能会给您带来意想不到的结果。
长答案
免责声明:我没有太多的C ++经验,所以如果错误,请更正我的评估。
在您使用非空文本查询调用chrome.history.search之后,最终会调用以下函数(在history_backend.cc中)。
bool URLDatabase::GetTextMatchesWithAlgorithm(
const base::string16& query,
query_parser::MatchingAlgorithm algorithm,
URLRows* results) {
query_parser::QueryNodeVector query_nodes;
query_parser_.ParseQueryNodes(query, algorithm, &query_nodes);
results->clear();
sql::Statement statement(GetDB().GetCachedStatement(SQL_FROM_HERE,
"SELECT" HISTORY_URL_ROW_FIELDS "FROM urls WHERE hidden = 0"));
while (statement.Step()) {
query_parser::QueryWordVector query_words;
base::string16 url = base::i18n::ToLower(statement.ColumnString16(1));
query_parser_.ExtractQueryWords(url, &query_words);
GURL gurl(url);
if (gurl.is_valid()) {
// Decode punycode to match IDN.
base::string16 ascii = base::ASCIIToUTF16(gurl.host());
base::string16 utf = url_formatter::IDNToUnicode(gurl.host());
if (ascii != utf)
query_parser_.ExtractQueryWords(utf, &query_words);
}
base::string16 title = base::i18n::ToLower(statement.ColumnString16(2));
query_parser_.ExtractQueryWords(title, &query_words);
if (query_parser_.DoesQueryMatch(query_words, query_nodes)) {
URLResult info;
FillURLRow(statement, &info);
if (info.url().is_valid())
results->push_back(info);
}
}
return !results->empty();
}
Run Code Online (Sandbox Code Playgroud)
query_parser::MatchingAlgorithm传递给此函数的算法引用下面显示的枚举(来自query_parser.h),并且根据我的判断,它永远不会明确设置,因此它将是该DEFAULT值。
enum class MatchingAlgorithm {
// Only words long enough are considered for prefix search. Shorter words are
// considered for exact matches.
DEFAULT,
// All words are considered for a prefix search.
ALWAYS_PREFIX_SEARCH,
};
Run Code Online (Sandbox Code Playgroud)
阅读DEFAULT选项上方的注释-
“只有足够长的单词才被视为前缀搜索。较短的单词才被视为完全匹配”
该算法本身(query_parser.cc)分解您的文本查询,并将原始URL结果分成用空格或标点符号分隔的“单词”列表,并检查每对之间的“前缀匹配”。这解释了为什么如果您的历史记录中有多个页面,URL中带有文本“ chromium”,那么如果您搜索“ hromium”将不会获得任何结果,但是如果您搜索“ chro”会得到所有的结果。
在您的情况下,我认为搜索“ bi”不会返回任何结果,因为该算法仅会查找短期内完全匹配的单词,这意味着“ bi”将需要用URL /标题中的空格或标点符号包围。如果您在Google中搜索“ bi”,然后再次在历史记录中查询“ bi”,则可以确认这一点。google搜索历史记录项将匹配,因为在google搜索的URL中,“ bi”被标点符号和空白包围:
https://www.google.ca/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q= bi
资料来源
| 归档时间: |
|
| 查看次数: |
570 次 |
| 最近记录: |