关于搜索引擎和SEO,我看到AngularJS应用程序存在两个问题:
1)自定义标签会发生什么?搜索引擎会忽略这些标签中的所有内容吗?即假设我有
<custom>
<h1>Hey, this title is important</h1>
</custom>
Run Code Online (Sandbox Code Playgroud)
<h1>即使是在自定义标签内,也会被编入索引?
2)有没有办法避免索引{{}}的搜索引擎字面上绑定?即
<h2>{{title}}</h2>
Run Code Online (Sandbox Code Playgroud)
我知道我可以做点什么
<h2 ng-bind="title"></h2>
Run Code Online (Sandbox Code Playgroud)
但是,如果我想让爬虫"看到"标题怎么办?服务器端渲染是唯一的解决方案吗?
我知道GitHub Web界面允许您搜索所有存储库以查找具有特定路径名的文件(例如,搜索path:/app/models/user.rb产量> 109k结果),但有没有办法搜索所有存储库以查找与其子目录位置无关的文件名?我尝试在path论证中使用星号,这似乎不起作用.
Google对使用$和#等字符搜索逐字字符串不友好.是否有搜索引擎支持搜索逐字字符串?
我知道这个问题刚才被问过,但没有得到任何好的答案.如果我仍然无法得到答案,我准备好了.当然,完全有可能没有一个,但我想确定:)
编辑:行情不起作用.Google甚至在引用时也会删除符号.
示例查询:为makefile中的$ <变量创建"$ <".
我正在构建一个需要搜索功能的Django项目,直到有了django.contrib.search,我必须选择一个搜索应用程序.那么哪个最好?"最好的"我的意思是......
以下是我听过的一些应用程序,如果您知道任何其他应用程序,请建议其他人:
我还想避免使用第三方搜索引擎(如Google SiteSearch),因为我想索引的一些数据仅供网站成员使用,不应公开.
据我所知,浏览器的默认主页/搜索提供商没有公开API曝光.那么谷歌如何知道这一点呢?只有当Google不是我浏览器上的默认主页/默认搜索提供商时,它才会出现.
我只能假设他们是从众多变量推断出来的,例如推荐者.我无法成功地深入了解Google编译的JavaScript.我甚至不确定它是在客户端还是服务器端检测到的.
我在Firefox 44上,但我也在Chrome上看过这些横幅.
抓取和网络抓取之间有区别吗?
如果存在差异,那么为了收集一些网络数据以供以后在定制搜索引擎中使用的数据库,最好的方法是什么?
我遇到了一个采访问题"如果你正在设计一个网络爬虫,你将如何避免进入无限循环?"我试图回答它.
这一切从一开始就是如何开始的.比如谷歌开始时,一些中心页面上说有数百个(首先如何找到这些中心页面是一个不同的子问题).当Google跟踪来自页面的链接等时,它是否继续制作哈希表以确保它不遵循先前访问过的页面.
如果同一页面有2个名称(URL),如果我们有URL缩短器等,那么该怎么办呢?
我以谷歌为例.虽然谷歌没有泄漏其网络爬虫算法和页面排名等的工作方式,但任何猜测?
search-engine large-data-volumes web-crawler google-search data-structures
尽管我阅读了Elasticsearch的文档以了解过滤器是什么.我仍然难以理解它的含义以及在简单的术语中使用它的位置.任何人都可以向我提供更多细节吗?
我正在开发一个项目,需要提供一个通用的仪表板,用户可以在不同的领域进行不同类型的分组,过滤和深入分析.为此,我们正在寻找一个允许切片和数据切片的搜索商店.
将有多个数据源,并将其存储在搜索存储中.源数据可能需要一些预先计算,这可以由中间组件完成.
我查看了几个博客,了解ES是否也可以可靠地用作主数据存储区.它主要取决于我们正在寻找的用例.有关我们使用的用例的一些信息:
一些博客称它足够可靠,可用作主要数据存储 -
一些博客称ES没有什么限制 -
有没有人使用Elastic Search作为数据的唯一真相,而没有像PostgreSQL,DynamoDB或RDS这样的主存储?我已经查明ES存在某些问题,例如分裂大脑和索引损坏,其中可能存在数据丢失问题.所以,我想知道是否有人使用过ES并且遇到了数据方面的麻烦
谢谢.
我有几个网站,我不记得我写了一些代码行.由于我的网页被Google编入索引,我想知道Google是否提供了在HTML源代码/标记本身内进行搜索的工具,而不仅仅是允许在视觉,呈现的页面内进行搜索?
谢谢
search-engine ×10
search ×3
web-crawler ×3
angularjs ×1
browser ×1
django ×1
github ×1
html5 ×1
java ×1
javascript ×1
keyword ×1
lucene ×1
nosql ×1
python ×1
seo ×1
web-scraping ×1
webpage ×1