Google在解析网络时如何找到相关内容?
比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容?
我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.
假设我们有这个网址:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Run Code Online (Sandbox Code Playgroud)
现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!
当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.
我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.
是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复?
我想到的一些想法是:
div容器的宽度和高度,并按(W + H) - @Benoit排序我之所以需要这些信息:
我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.
希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.
我不是要求商业机密,我问你的个人方法是什么.
我们在ASP.net MVC2中有一个项目,我们有自己的ViewEngine覆盖视图位置.问题是Resharper 5.1当然没有拿到这个.有没有人知道如何扩展R#来接这个?
我不想禁用R#而不尝试使用R#注释全局或本地解析视图.我想要完整的工具支持.
根据solr文档,我正在尝试设置拼写检查程序.但是当我测试时,我没有任何建议.我的代码如下:
<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
<str name="queryAnalyzerFieldType">textSpell</str>
<lst name="spellchecker">
<str name="classname">solr.IndexBasedSpellChecker</str>
<str name="name">default</str>
<str name="field">name</str>
<str name="spellcheckIndexDir">./spellchecker</str>
</lst>
<str name="queryAnalyzerFieldType">textSpell</str>
</searchComponent>
<requestHandler name="/spellcheck" class="solr.SearchHandler">
<lst name="defaults">
<str name="echoParams">explicit</str>
<!-- Optional, must match spell checker's name as defined above, defaults to "default" -->
<str name="spellcheck.dictionary">default</str>
<!-- omp = Only More Popular -->
<str name="spellcheck.onlyMorePopular">false</str>
<!-- exr = Extended Results -->
<str name="spellcheck.extendedResults">false</str>
<!-- The number of suggestions to return -->
<str name="spellcheck.count">1</str>
</lst>
<arr name="last-components">
<str>spellcheck</str>
</arr>
</requestHandler>
Run Code Online (Sandbox Code Playgroud)
我发送给Solr的查询:
q …
我已经阅读了一些关于想要在iPhone上绘制地图路线的开发人员的帖子,但没有令人满意的答案,如何最好地实现这一点.您可以使用Route-Me库,在顶部MKMapView上添加图层或将坐标发送到手机地图软件,然后从您的应用程序导航,我认为这是糟糕的用户体验.这些都没有以一种好的方式解决问题.
一些邮报写道,存在法律障碍,其他人写道,这是关于许可资金.这必须是一个非常普遍的要求,因此是实现的共同特征.那么事实上的标准方法是什么呢?
有经验的人可以分享他们对这个问题的见解吗?
BR // Christoffer
哪些是有效的xml编码字符串?例如,指定UTF-8的方式是什么:
encoding="utf8"encoding="utf8"或Windows 1251:
encoding="windows-1251"encoding="windows1251"encoding="cp-1251"我正在制作一个字符解码器以及一个xml解析器.因此,我需要能够根据encoding属性中的值设置StreamReader的编码.
我能找到官方编码字符串列表的任何想法?
我能找到的最好的是这个,但它似乎是IE特有的.
谢谢!
例如,您知道该功能,C:\test.txt如果您在另一个编辑器中也有相同的文件,并且在那里编辑它,则在您返回时,应用程序将提示文件已更改,无论您是否要更新它.如何检查文件是否已更新?
UPDATE
问一个姐妹问题" 使用FileSystemWatcher来监视文件的变化 "
在我的django应用程序中,我在整个网站上有不同的内容.现在我想在每个页面上添加"分享给...(Facebook,Twitter,Buzz)"链接.但是,我不想重定向到社交应用页面,而是打开弹出窗口(如果需要)记录/添加可能性.如何开始?我需要执行哪些步骤/操作以及可以使用哪些现成的应用程序?我已经创建了一个Twitter应用程序和Facebook应用程序,并拥有所有的密钥.
我的意思是像这里的链接http://mashable.com/awards/(左侧).
这是一个专门针对Eclipse平台的插件开发的问题:
我需要实现持久性而不用硬编码我正在使用的数据存储区的名称.我希望能够在我的插件与独立数据存储器同时运行的情况下拥有多个eclipse实例.
这样做的一种方法是使用工作空间的文件路径来生成/查找与该特定工作空间相关的数据存储的名称.
我已经尝试过org.eclipse.core.resources.ResourcesPlugin.getWorkspace(),但这似乎没有办法获得该字符串.
为了避免任何混淆,我知道-data和-showlocation - 我想在运行时在eclipse插件中访问showlocation的文本.
我正在使用eclipse 3.5.2来完成我当前的项目.
提前致谢!
我正在尝试捕获当我将具有给定用户名的已存在用户插入我的数据库时抛出的异常.正如标题所说,我正在使用EF.当我尝试将用户插入到db时抛出的唯一异常是"UpdateException" - 如何提取此异常以识别它是重复的异常还是别的?
我想点击一下按钮打开一个PDF文件.我将PDF文件保存在项目的解决方案/命名空间中.任何人都可以给我这个解决方案吗?
c# ×2
.net-3.5 ×1
asp.net-mvc ×1
django ×1
eclipse ×1
encoding ×1
exception ×1
facebook ×1
google-buzz ×1
google-maps ×1
integration ×1
io ×1
iphone ×1
java ×1
objective-c ×1
parsing ×1
persistence ×1
php ×1
plugins ×1
relevance ×1
resharper ×1
solr ×1
wpf ×1
xml ×1