如何解析HTML/XML并从中提取信息?
好吧,我正在努力开发Nodes中的一个项目,我遇到了一个关于对象文字中的键的小问题,我有以下设置:
var required = {
directories : {
this.applicationPath : "Application " + this.application + " does not exists",
this.applicationPath + "/configs" : "Application config folder does not exists",
this.applicationPath + "/controllers" : "Application controllers folder does not exists",
this.applicationPath + "/public" : "Application public folder does not exists",
this.applicationPath + "/views" : "Application views folder does not exists"
},
files : {
this.applicationPath + "/init.js" : "Application init.js file does not exists",
this.applicationPath + "/controllers/index.js" : "Application index.js controller …Run Code Online (Sandbox Code Playgroud) Google在解析网络时如何找到相关内容?
比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容?
我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.
假设我们有这个网址:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Run Code Online (Sandbox Code Playgroud)
现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!
当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.
我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.
是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复?
我想到的一些想法是:
div容器的宽度和高度,并按(W + H) - @Benoit排序我之所以需要这些信息:
我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.
希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.
我不是要求商业机密,我问你的个人方法是什么.
所以这是我们都应该知道的事情,并且在我第一次看到它时就在我的脑海中浮现.
我知道这mysql_escape_string是从5.3推荐的,但实际的差异是什么mysql_real_escape_string.
我认为这mysql_real_escape_string是完全相同的mysql_escape_string除了mysql_real_escape_string为mysql资源采取第二个参数.
所以我认为,如何处理字符串必须有一些区别,因为不需要2个函数.
所以我认为差异完全取决于语言环境和字符编码.?
任何人都可以为我清除这个吗?
我创建了一个名为ProxyMonitor的Windows服务,我目前处于安装和卸载服务的阶段,就像我想要的那样.
所以我像这样执行应用程序:
C:\\Windows\\Vendor\\ProxyMonitor.exe /install
Run Code Online (Sandbox Code Playgroud)
非常自我解释,然后我得到services.msc并开始服务,但当我这样做时,我收到以下消息:
本地计算机上的代理监视器服务已启动,然后停止.如果没有工作要做,某些服务会自动停止,例如,性能日志和警报服务
我的代码看起来像这样:
public static Main(string[] Args)
{
if (System.Environment.UserInteractive)
{
/*
* Here I have my install logic
*/
}
else
{
ServiceBase.Run(new ProxyMonitor());
}
}
Run Code Online (Sandbox Code Playgroud)
然后在ProxyMonitor类中我有:
public ProxyMonitor()
{
}
protected override void OnStart(string[] args)
{
base.OnStart(args);
ProxyEventLog.WriteEntry("ProxyMonitor Started");
running = true;
while (running)
{
//Execution Loop
}
}
Run Code Online (Sandbox Code Playgroud)
而onStop()我只是改变running变量false;
我需要做些什么来使服务保持活跃,因为我需要监控我需要跟踪变化等的网络.
更新:1
protected override void OnStart(string[] args)
{
base.OnStart(args);
ProxyEventLog.WriteEntry("ProxyMonitor Started");
Thread = new …Run Code Online (Sandbox Code Playgroud) 我正在使用jquery datepicker(http://jqueryui.com/demos/datepicker/).
演示页面上的日期选择器小而紧凑.但是,当我在我的网站上使用datepicker时,日历是巨大的.我估计每个日期都使用12磅字体.
如何让日子缩小?
有时我需要将一些原始HTML代码注入到Wordpress帖子中,有时我需要注释掉那段代码.
使用纯文本编辑器,我可以使用<!-- Comment -->我想要隐藏的块.
但是当我在WP帖子中尝试这个时,它会隐藏代码,但我仍然会看到"结束注释标记" -->.
如果可能的话,在WP帖子中注释掉代码的正确方法是什么?
谢谢!
好吧,我有一个想法,我想仔细阅读,但在我做之前,我需要完全理解一些事情.
首先,我认为我要继续使用这个系统的方法是拥有3个服务器,如下所述:
在第一台服务器将是我的web 前端,这是将要监听连接和响应客户端的服务器,该服务器将有8个内核和16GB的RAM.
本次服务器将是数据库服务器,非常自我解释真的,连接到主机,并设置/获取数据.
在第三个服务器将是我的存储服务器,这将是在那里下载的文件存储.
我的第一个问题是:
我的第二个问题是:
最后一个问题:
我终于说服了我的雇主node.js非常快,它是最新的编程技术,我们应该为我们的Intranet系统投资一个平台,但他已经要求详细记录如何在当前硬件上扩展它们有空的.
目前正在追踪Mongoose和MongoDB的一个项目,但遇到了一个API尚不清楚的部分.
我有一个模型,其中包含几个键和文档,以及其中一个键被调用watchList.这是一个用户正在观看的ID数组,但我需要确保这些值保持独特.
以下是一些示例代码:
var MyObject = new Mongoose.Schema({
//....
watching : {type: Array, required: false},
//....
});
Run Code Online (Sandbox Code Playgroud)
所以我的问题是如何确保推入数组的值只存储一个,所以使值唯一,我可以使用unique: true吗?
谢谢
当我从多个表中选择数据时,我曾经经常使用JOINS,最近我开始使用另一种方式,但从长远来看,我不确定其影响.
例子:
SELECT * FROM table_1 LEFT JOIN table_2 ON (table_1.column = table_2.column)
Run Code Online (Sandbox Code Playgroud)
所以这是跨表的基本LEFT JOIN,但请看下面的查询.
SELECT * FROM table_1,table_2 WHERE table_1.column = table_2.column
Run Code Online (Sandbox Code Playgroud)
就个人而言,如果我加入,请说7个数据表,我宁愿在JOINS上这样做.
但是这两种方法有什么优缺点吗?
php ×3
parsing ×2
arrays ×1
c# ×1
coding-style ×1
comments ×1
datepicker ×1
editor ×1
escaping ×1
html-parsing ×1
javascript ×1
join ×1
jquery ×1
mongoose ×1
mysql ×1
node.js ×1
relevance ×1
scalability ×1
select ×1
unique ×1
wordpress ×1
xml ×1
xml-parsing ×1