问题列表 - 第37214页 | 那些遇到过的问题

搜索引擎如何找到相关内容？

Google在解析网络时如何找到相关内容？

比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容？

我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.

假设我们有这个网址:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

Run Code Online (Sandbox Code Playgroud)

现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!

当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.

我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.

是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复？

我想到的一些想法是:

按纯文本长度查找所有段落和顺序
以某种方式找到div容器的宽度和高度,并按(W + H) - @Benoit排序
检查元关键字,标题,描述并检查段落中的相关性
查找所有图像标签,并按主要段落的最大节点和节点长度排序
检查对象数据,例如视频,并从最大段落/内容div中计算节点
找出解析过的前几页的相似之处

我之所以需要这些信息:

我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.

图像(如果适用)
来自最佳文本片段的<255段
将用于我们的搜索引擎的关键字,(Stack Overflow风格)
元数据关键字,描述,所有图像,更改日志(用于审核和管理目的)

希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.

我不是要求商业机密,我问你的个人方法是什么.

php parsing screen-scraping relevance

Rob*_*itt

2012 07-03

60
推荐指数

3
解决办法

4932
查看次数

更改视图的默认位置+ ASP.net MVC2的自定义ViewEngine时,R#"无法解析视图"

我们在ASP.net MVC2中有一个项目,我们有自己的ViewEngine覆盖视图位置.问题是Resharper 5.1当然没有拿到这个.有没有人知道如何扩展R#来接这个？

我不想禁用R#而不尝试使用R#注释全局或本地解析视图.我想要完整的工具支持.

asp.net-mvc resharper asp.net-mvc-2

Ein*_*sen

2010 10-19

9
推荐指数

1
解决办法

779
查看次数

请求句柄solrconfig.xml拼写检查程序

根据solr文档,我正在尝试设置拼写检查程序.但是当我测试时,我没有任何建议.我的代码如下:

 <searchComponent name="spellcheck" class="solr.SpellCheckComponent">

    <str name="queryAnalyzerFieldType">textSpell</str>

    <lst name="spellchecker">
      <str name="classname">solr.IndexBasedSpellChecker</str>
      <str name="name">default</str>
      <str name="field">name</str>
      <str name="spellcheckIndexDir">./spellchecker</str>
    </lst>
    <str name="queryAnalyzerFieldType">textSpell</str>

  </searchComponent>


 <requestHandler name="/spellcheck" class="solr.SearchHandler">
    <lst name="defaults">
      <str name="echoParams">explicit</str>
      <!-- Optional, must match spell checker's name as defined above, defaults to "default" -->
      <str name="spellcheck.dictionary">default</str>
      <!-- omp = Only More Popular -->
      <str name="spellcheck.onlyMorePopular">false</str>
      <!-- exr = Extended Results -->
      <str name="spellcheck.extendedResults">false</str>
      <!--  The number of suggestions to return -->
      <str name="spellcheck.count">1</str>
    </lst>
    <arr name="last-components">
      <str>spellcheck</str>
    </arr>
  </requestHandler>

Run Code Online (Sandbox Code Playgroud)

我发送给Solr的查询:
q …

solr spell-checking

Bla*_*dez

2010 10-20

6
推荐指数

1
解决办法

5540
查看次数

在iPhone上实现路由的标准/最佳方式是什么？

我已经阅读了一些关于想要在iPhone上绘制地图路线的开发人员的帖子,但没有令人满意的答案,如何最好地实现这一点.您可以使用Route-Me库,在顶部MKMapView上添加图层或将坐标发送到手机地图软件,然后从您的应用程序导航,我认为这是糟糕的用户体验.这些都没有以一种好的方式解决问题.

一些邮报写道,存在法律障碍,其他人写道,这是关于许可资金.这必须是一个非常普遍的要求,因此是实现的共同特征.那么事实上的标准方法是什么呢？

有经验的人可以分享他们对这个问题的见解吗？

BR // Christoffer

iphone google-maps objective-c

Chr*_*fer

2010 10-20

5
推荐指数

1
解决办法

1379
查看次数

在XML文件中设置编码

哪些是有效的xml编码字符串？例如,指定UTF-8的方式是什么:

encoding="utf8"
encoding="utf8"
等等

或Windows 1251:

encoding="windows-1251"
encoding="windows1251"
encoding="cp-1251"
等等

我正在制作一个字符解码器以及一个xml解析器.因此,我需要能够根据encoding属性中的值设置StreamReader的编码.

我能找到官方编码字符串列表的任何想法？

我能找到的最好的是这个,但它似乎是IE特有的.

谢谢!

xml encoding

Alb*_*ore

lucky-day

4
推荐指数

1
解决办法

8869
查看次数

C#:如何检查打开的文件是否已更新

例如,您知道该功能,C:\test.txt如果您在另一个编辑器中也有相同的文件,并且在那里编辑它,则在您返回时,应用程序将提示文件已更改,无论您是否要更新它.如何检查文件是否已更新？

UPDATE

问一个姐妹问题" 使用FileSystemWatcher来监视文件的变化 "

c# io filesystemwatcher

Jie*_*eng

2017 05-23

3
推荐指数

2
解决办法

4164
查看次数

与django共享社交页面

在我的django应用程序中,我在整个网站上有不同的内容.现在我想在每个页面上添加"分享给...(Facebook,Twitter,Buzz)"链接.但是,我不想重定向到社交应用页面,而是打开弹出窗口(如果需要)记录/添加可能性.如何开始？我需要执行哪些步骤/操作以及可以使用哪些现成的应用程序？我已经创建了一个Twitter应用程序和Facebook应用程序,并拥有所有的密钥.

我的意思是像这里的链接http://mashable.com/awards/(左侧).

django integration facebook social-networking google-buzz

sas*_*h90

2010 10-19

5
推荐指数

2
解决办法

8386
查看次数