小编Ano*_*sse的帖子

数据库集群和负载平衡

什么是数据库集群?如果允许同一数据库位于2个不同的服务器上,它们如何使数据保持同步.这与数据库服务器角度的负载均衡有何不同?

database load-balancing cluster-computing database-agnostic

142
推荐指数
4
解决办法
15万
查看次数

使用k-means聚类时如何确定k?

我一直在研究k-means聚类,有一点不清楚你是如何选择k的值的.这只是一个反复试验的问题,还是有更多的问题?

cluster-analysis k-means

136
推荐指数
6
解决办法
11万
查看次数

ImportError:没有名为dateutil.parser的模块

我在导入时收到以下错误pandasPython程序

monas-mbp:book mona$ sudo pip install python-dateutil
Requirement already satisfied (use --upgrade to upgrade): python-dateutil in /System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python
Cleaning up...
monas-mbp:book mona$ python t1.py
No module named dateutil.parser
Traceback (most recent call last):
  File "t1.py", line 4, in <module>
    import pandas as pd
  File "/Library/Python/2.7/site-packages/pandas/__init__.py", line 6, in <module>
    from . import hashtable, tslib, lib
  File "tslib.pyx", line 31, in init pandas.tslib (pandas/tslib.c:48782)
ImportError: No module named dateutil.parser
Run Code Online (Sandbox Code Playgroud)

还有这个程序:

import codecs 
from math import sqrt
import numpy …
Run Code Online (Sandbox Code Playgroud)

python pip pandas

113
推荐指数
6
解决办法
16万
查看次数

为什么Java不允许在迭代器上使用foreach(仅在迭代器上)?

可能重复:
为什么Java的迭代器不是Iterable?

在给定迭代器的情况下使用for-each循环的惯用方法?

我们可以使用for-each循环来迭代Iterator类型的对象吗?

据我所知,foreach循环是Java 5中添加的语法糖.所以

Iterable<O> iterable;
for(O o : iterable) {
    // Do something
}
Run Code Online (Sandbox Code Playgroud)

将基本上产生相同的字节码

Iterable<O> iterable;
for(Iterator<O> iter = iterable.iterator(); iter.hasNext(); /* NOOP */) {
    O o = iter.next();
    // Do something
}
Run Code Online (Sandbox Code Playgroud)

但是,如果我首先没有迭代,但只有一个迭代器(比如,因为一个类提供了两个不同的迭代器),我不能使用语法sugar foreach循环.显然我仍然可以做普通的旧式迭代.但是,我其实想做:

Iterator<O> iter;
for(O o : iter /* Iterator<O>, not Iterable<O>! */) {
     // Do something
}
Run Code Online (Sandbox Code Playgroud)

当然我可以做假的Iterable:

class Adapter<O> implements Iterable<O> {
    Iterator<O> iter;

    public Adapter(Iterator<O> iter) {
        this.iter = iter;
    }

    @Override
    public Iterator<O> iterator() {
        return iter; …
Run Code Online (Sandbox Code Playgroud)

java syntax iterator iterable language-design

68
推荐指数
4
解决办法
7万
查看次数

搜索引擎如何找到相关内容?

Google在解析网络时如何找到相关内容?

比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容?

我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.

假设我们有这个网址:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Run Code Online (Sandbox Code Playgroud)

现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!

当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.

我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.

是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复?


我想到的一些想法是:

  • 按纯文本长度查找所有段落和顺序
  • 以某种方式找到div容器的宽度和高度,并按(W + H) - @Benoit排序
  • 检查元关键字,标题,描述并检查段落中的相关性
  • 查找所有图像标签,并按主要段落的最大节点和节点长度排序
  • 检查对象数据,例如视频,并从最大段落/内容div中计算节点
  • 找出解析过的前几页的相似之处

我之所以需要这些信息:

我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.

  • 图像(如果适用)
  • 来自最佳文本片段的<255段
  • 将用于我们的搜索引擎的关键字,(Stack Overflow风格)
  • 元数据关键字,描述,所有图像,更改日志(用于审核和管理目的)

希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.

我不是要求商业机密,我问你的个人方法是什么.

php parsing screen-scraping relevance

60
推荐指数
3
解决办法
4932
查看次数

分布式并发控制

我已经在这方面工作了几天,我找到了几个解决方案,但没有一个简单或轻巧.问题基本上是这样的:我们有一个由10台机器组成的集群,每台机器在多线程ESB平台上运行相同的软件.我可以很容易地处理同一台机器上的线程之间的并发问题,但是对于不同机器上的相同数据的并发性呢?

本质上,软件接收通过Web服务将客户数据从一个企业提供给另一个企业的请求.但是,客户可能存在或可能不存在于另一个系统上.如果没有,我们通过Web服务方法创建它.所以它需要一种测试和设置,但我需要某种形式的信号量来锁定其他机器导致竞争条件.我曾经遇到过为一个本地客户创建两次远程客户的情况,这是不太理想的.

我从概念上玩弄的解决方案是:

  1. 使用我们的容错共享文件系统创建"锁定"文件,每个机器将根据客户检查这些文件

  2. 在我们的数据库中使用一个特殊的表,并锁定整个表,以便为锁记录进行"测试和设置".

  3. 使用Terracotta,一种开源服务器软件,有助于扩展,但使用中心辐射模型.

  4. 使用EHCache同步复制我的内存"锁".

我无法想象我是唯一一个遇到过这种问题的人.你是怎么解决的?你在内部做饭还是有最喜欢的第三方产品?

java concurrency scaling terracotta load-balancing

54
推荐指数
2
解决办法
2万
查看次数

如何在Python脚本中运行Scrapy

我是Scrapy的新手,我正在寻找一种从Python脚本运行它的方法.我找到了两个解释这个的来源:

http://tryolabs.com/Blog/2011/09/27/calling-scrapy-python-script/

http://snipplr.com/view/67006/using-scrapy-from-a-script/

我无法弄清楚我应该在哪里放置我的蜘蛛代码以及如何从主函数中调用它.请帮忙.这是示例代码:

# This snippet can be used to run scrapy spiders independent of scrapyd or the scrapy command line tool and use it from a script. 
# 
# The multiprocessing library is used in order to work around a bug in Twisted, in which you cannot restart an already running reactor or in this case a scrapy instance.
# 
# [Here](http://groups.google.com/group/scrapy-users/browse_thread/thread/f332fc5b749d401a) is the mailing-list discussion for this snippet. 

#!/usr/bin/python
import os
os.environ.setdefault('SCRAPY_SETTINGS_MODULE', 'project.settings') #Must be at the …
Run Code Online (Sandbox Code Playgroud)

python web-crawler scrapy web-scraping

54
推荐指数
5
解决办法
5万
查看次数

Web App:高可用性/如何防止单点故障?

有人可以向我解释高可用性("HA")如何适用于Web应用程序......因为我认为HA意味着不存在单点故障.

但是,即使使用了负载均衡器,这不是单点故障吗?

load-balancing high-availability cluster-computing uptime

46
推荐指数
2
解决办法
2万
查看次数

网页抓取 - 如何识别网页上的主要内容

鉴于新闻文章网页(来自任何主要新闻来源,如时代或布隆伯格),我想确定该页面上的主要文章内容,并抛弃其他misc元素,如广告,菜单,侧边栏,用户评论.

什么是这样做的通用方法,适用于大多数主要新闻网站?

什么是数据挖掘的好工具或库?(最好是基于python)

python webpage html-parsing web-scraping

44
推荐指数
9
解决办法
2万
查看次数

Python模块中"list = list"的作用是什么?

我在python标准库中看到了以下代码/usr/lib/python2.7/multiprocessing/dummy/__init__.py:

list = list
dict = dict
Run Code Online (Sandbox Code Playgroud)

这个成语是什么意思?我最好的猜测是:"让我们来检查是否dictlist存在".它是从远古时代遗留刚刚代码而不listdict__builtins__

我还有一个疯狂的猜测:查找速度的优化list从全局范围转移到模块范围.关于成语是否是明智的假设?我知道,如果我将它应用于多处理,那么这个假设是错误的.

python

43
推荐指数
1
解决办法
596
查看次数