使用Indextank进行网站搜索

Question

使用Indextank进行网站搜索

gio*_*gio 5 php indexing search web-crawler indextank

我正在寻找免费的易于实施和无广告的Google CSE替代品.

我发现了indextank,它看起来像一种简单的索引内容的方式,但它不会抓取你的网站.我想我设想能够将它传递给Google CSE.

因此,有一种简单的方法可以设置PHP脚本来执行爬网部分吗？即传递一个URL并让它索引该域上的所有网页.

最终结果是我可以在我的网站上进行网站搜索.

Answer 1

Iva*_*van 1

我在我的网站中实现了此功能。基本上我有一个 HTML 表单，用户可以在其中查询：

<form method="post" action="[_LINK_HELP_SEARCH_]">
  <div class="static-text">(_INTRO_)</div>
  <input class="inline" name="q" id="search" type="text" value="[_QUERY_]" />
  <input class="inline" type="submit" value="(_SEARCH_)" />
  <div class="micro-text">(_EXAMPLE_)</div>
</form>

Run Code Online (Sandbox Code Playgroud)

注意：所有 [XXX] 和 (YYY) 都是模板字段，您应该在代码中替换。

发送表单后，PHP 文件将查询拆分为单词：

$query = preg_replace('/\s{2,}/', ' ', $query);
$words = explode(' ', $query);

Run Code Online (Sandbox Code Playgroud)

搜索目标文件夹中的每个文件（

$help_files = _get_all_files('help');
$help_files = array_slice($help_files, 0, MAX_RESULTS);
foreach($help_files as $file) {

Run Code Online (Sandbox Code Playgroud)

请注意，我仅在“帮助”文件夹中搜索，您应该根据自己的需要进行调整。另请注意，_get_all_files 是一个自定义函数，仅列出给定文件夹中的所有 PHP 文件。

然后加载并解析文本：

$text_file = '';
$filename = $file['page'];
if (_file_exists($filename)) {
    $text_file = _read_php_file($filename);
}

$text_file = strtolower($text_file);
$text_file = strip_tags($text_file);
$text_file = preg_replace('/\[_(.*?)_\]/', '...', $text_file);
$text_file = preg_replace(array('/\s{2,}/', '[\t\n]'), ' ', $text_file);

Run Code Online (Sandbox Code Playgroud)

请注意，_read_php_file 读取 PHP 内容文件，即用户调用该文件时将获得相同的结果。这是因为我使用模板并且我的 HTML 文件不是直接的。如果您使用静态 HTML，则可以使用readfile()或类似方法。

接下来，搜索词：

$score = 0;
foreach ($words as $word) {
    if (strpos($text_file, $word) !== false) {
        $score++;
    }
}

Run Code Online (Sandbox Code Playgroud)

我知道它可以优化，但目前没有必要。基本上，这段代码对文本中找到的每个单词进行计数并获得分数。

接下来您可能有兴趣创建文本摘录：

$pos = strpos($text_file, $words[0]);
$cut_ini = max($pos - RESUME_LIMIT/2, 0);
$extract = substr($text_file, $cut_ini, RESUME_LIMIT);
$extract = "...$extract...";

Run Code Online (Sandbox Code Playgroud)

最后，如果分数有意义，我将所有这些信息存储在输出数组中（对于找到的每个文件）：

if (($score > 0) && (count($words) / $score > 0.7)) {
    $result = array (
        'extract'   => $extract,
        'title'     => $file['title'],
        'link'      => $file['page'],
        'score'     => $score
    );
    $results[] = $result;
}

Run Code Online (Sandbox Code Playgroud)

当然，必须对要索引的每个文件重复所有这一切，最后，您必须对数组进行排序：

usort($results, "_search_sort");

Run Code Online (Sandbox Code Playgroud)

有了这个功能：

function _search_sort($a, $b) {
    if ($a['score'] == $b['score']) {
        return 0;
    }
    return ($a['score'] > $b['score']) ? -1 : 1;
}

Run Code Online (Sandbox Code Playgroud)

最后，您将得到一个包含搜索结果的排序数组。我希望这有帮助。

归档时间：	14 年，7 月前
查看次数：	378 次
最近记录：	14 年，2 月前