标签: search-engine

哪个是Lucene的最佳替代品?

它可以在Unix上运行,它将用于电子邮件搜索(Dovecot,Postfix和maildir).

Lucene不是问题,我只是在分析一些替代品.

lucene search-engine

26
推荐指数
3
解决办法
3万
查看次数

使用HTML5语义标记搜索结果列表

制作搜索结果列表(比如Google)并不是很难,只要你需要一些有用的东西.但是,现在,我希望利用HTML5语义的优势完美地完成它.目标是定义标记搜索结果列表的事实方式,该列表可能被任何未来的搜索引擎使用.

对于每一次打击,我想

  • 通过增加数量来订购它们
  • 显示可点击的标题
  • 显示一个简短的摘要
  • 显示其他数据,如类别,发布日期和文件大小

我的第一个想法是这样的:

<ol>
  <li>
    <article>
      <header>
        <h1>
          <a href="url-to-the-page.html">
            The Title of the Page
          </a>
        </h1>
      </header>
      <p>A short summary of the page</p>
      <footer>
        <dl>
          <dt>Categories</dt>
          <dd>
            <nav>
               <ul>
                  <li><a href="first-category.html">First category</a></li>
                  <li><a href="second-category.html">Second category</a></li>
                </ul>
            </nav>
          </dd>
          <dt>File size</dt>
          <dd>2 kB</dd>
          <dt>Published</dt>
          <dd>
            <time datetime="2010-07-15T13:15:05-02:00" pubdate>Today</time>
          </dd>
        </dl>
      </footer>
    </article>
  </li>
  <li>
    ...
  </li>
  ...
</ol>
Run Code Online (Sandbox Code Playgroud)

我不是真正的快乐关于<article/><li/>.首先,搜索结果命中本身并不是一篇文章,而只是一篇非常简短的摘要.其次,我甚至不确定你是否可以在列表中放置一篇文章.

Maybe the <details/> and <summary/> tags are more suitable than <article/>, but …

html5 search-engine semantic-markup

25
推荐指数
2
解决办法
8887
查看次数

没有配额的JSON搜索引擎API列表,比如Bing?

我想显示一些自定义搜索结果.

我查看了Google和Microsoft(Bing)的JSON API.不幸的是,谷歌每天的查询数量有限制(最多一万次查询需要50美元).但是,Bing每天允许"无限制"的查询量,免费.

还有其他服务,例如Bing的JSON API,没有Google的API这样的查询限制吗?

一个相关的问题可能是Metacrawler这样的服务如何组合来自多个搜索引擎的搜索结果,而这些引擎的服务条款明确指出这些结果可能只能通过这种(付费)API获得,而不是通过爬行获得.

search-engine google-search bing

24
推荐指数
2
解决办法
2万
查看次数

通过Linux命令行连接到SphinxQL

我试图通过Linux 命令行以这种方式连接到SphinxQL服务器:

> mysql -P 9306

ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)
Run Code Online (Sandbox Code Playgroud)

我的Sphinx配置文件有2个监听条目:

listen                  = 9312
listen                  = 9306:mysql41
Run Code Online (Sandbox Code Playgroud)

searchd守护程序正在运行:

> ps ax | grep searchd
10727 ?        S      0:00 /usr/local/sphinx/bin/searchd
10728 ?        Sl     0:00 /usr/local/sphinx/bin/searchd
Run Code Online (Sandbox Code Playgroud)

常规搜索查询完美运行:

> /usr/local/sphinx/bin/search StackOverflow | more

Sphinx 2.0.4-release (r3135)
Copyright (c) 2001-2012, Andrew Aksyonoff
Copyright (c) 2008-2012, Sphinx Technologies Inc (http://sphinxsearch.com)

using config file '/usr/local/sphinx/etc/sphinx.conf'...
index 'test1': query 'StackOverflow ': returned 2 matches of 2 total …
Run Code Online (Sandbox Code Playgroud)

mysql command-line sphinx search-engine

24
推荐指数
2
解决办法
2万
查看次数

PHP/mySQL中类似Google的搜索引擎

我们已经删除了数千页的报纸文章.每页的报纸,问题,日期,页码和OCR文本都已放入mySQL数据库.

我们现在想要在PHP中构建类似Google的搜索引擎,以查找给定查询的页面.它必须快速,并且任何搜索都不会超过一秒钟.

我们该怎么做?

php mysql search-engine

23
推荐指数
3
解决办法
4万
查看次数

在全文搜索中使用索引进行多字查询(例如,网络搜索)

我知道全文搜索的一个基本方面是使用倒排索引.因此,使用反向索引,单字查询变得微不足道.假设索引的结构如下:

some-word - > [doc385,doc211,doc39977,...](按等级排序,降序排序)

要回答该单词的查询,解决方案就是在索引中找到正确的条目(需要O(log n)时间)并从索引中指定的列表中显示一些给定数量的文档(例如前10个).

但是那些返回与两个单词相匹配的文档的查询呢?最直接的实现如下:

  1. 将A设置为具有单词1的文档集(通过搜索索引).
  2. 将B设置为具有单词2(同上)的文档集.
  3. 计算A和B的交点.

现在,第三步可能需要O(n log n)时间来执行.对于非常大的A和B,可能使查询缓慢回答.但像谷歌这样的搜索引擎总会在几毫秒内回复他们的答案.所以这不是完整的答案.

一个明显的优化是,由于像谷歌这样的搜索引擎无论如何都没有返回所有匹配的文档,我们不必计算整个交集.我们可以从最小的集合(例如B)开始,并找到足够的条目,这些条目也属于另一个集合(例如A).

但是,我们还不能有以下最糟糕的情况吗?如果我们设置A是与普通单词匹配的文档集,并且集合B是与另一个常用单词匹配的文档集,则可能仍然存在A∩B非常小的情况(即,组合很少).这意味着搜索引擎必须线性地遍历B的所有元素x成员,检查它们是否也是A的元素,以找到符合这两个条件的少数元素.

线性不快.并且您可以使用两个以上的单词进行搜索,因此仅使用并行性肯定不是整个解决方案.那么,这些案例如何优化?大型全文搜索引擎是否使用某种复合索引?布隆过滤器?有任何想法吗?

algorithm indexing search-engine full-text-indexing inverted-index

23
推荐指数
2
解决办法
4752
查看次数

搜索引擎蜘蛛可以看到我使用jQuery添加的内容吗?

我现在有类似的东西

<p class="test"></p>

<script type="text/javascript">
    $(document).ready(function() {
          $(".test").html("hey");
    });
</script>
Run Code Online (Sandbox Code Playgroud)

搜索引擎能否抓住"嘿"文字?如果是,我可以使用什么方法来防止这种情况.

html javascript jquery search-engine

22
推荐指数
2
解决办法
2697
查看次数

什么是一些搜索服务器?

我想从Apache Software Foundation 找到Solr的替代品.

对于那些不知道的人,Solr是一个企业搜索服务器.客户端应用程序使用类似于界面的Web服务来提交用于索引的文档以及执行搜索查询.Solr具有内置的其他功能,如缓存和复制.我相信它最初是由CNet开始的,然后是开源的.

我正在寻找可能被视为竞争对手的其他搜索服务器.

search solr full-text-search search-engine

21
推荐指数
1
解决办法
1万
查看次数

什么是一个很好的源代码搜索引擎?

我工作的代码库是巨大的,并且它需要大约20分钟.我正在寻找一个很好的基于网络的源代码搜索引擎..类似于koders.com的内部网版本.

我发现的唯一的东西是Krugle企业版,它没有发布它的价格......如果你不得不问,你买不起.

我真的更喜欢一个普通的旧搜索引擎,没有很多其他的花里胡哨.

源代码主要是ASP.NET/C#和Javascript.

development-environment search-engine code-search-engine

21
推荐指数
3
解决办法
1万
查看次数

你会如何设计一个好的搜索UI?

我想为我的用户提供一个"高级"搜索引擎.我基本上有很多搜索条件可供选择:

  • 一些非常简单/常见,并将在很大程度上使用(即时间段,项目ID)
  • 有些人不那么主流
  • 有些不会被大量使用,但我仍然想提供它们

总的来说,我有大约30多个标准可供选择

结果是我在网格中显示的数据集.

我在互联网上寻找灵感,甚至谷歌似乎也没有一个很好的高级搜索解决方案.

我过去曾设计过这种工具,虽然用户最终能够非常有效地使用它,但我对结果并不满意.

  • 您是否认为搜索面板应始终可见(即显示在我的结果网格顶部)或以单独的形式提供(这样可以让我为所有控件使用更多位置)

  • 您是否认为最好显示所有搜索条件,或者如果用户希望查看/使用更多条件,则让用户点击"高级"

  • 你会如何组织标准?按使用频率,或者更确切地说按区域(即与用户,地点,时间等有关的标准)

  • 我应该在哪里放置"搜索"按钮?旁边是更常见的搜索控件,还是底部或两者?

更一般地说,您是否有关于如何设计一个漂亮的搜索UI的技巧?在这种"高级"搜索引擎中,您通常会错过哪些功能?

usability user-interface search-engine

21
推荐指数
4
解决办法
1万
查看次数