小编mta*_*riq的帖子

Daemon vs Upstart for python脚本

我已经用Python编写了一个模块,并希望它在启动后连续运行,并且需要在需要更新其他模块时停止它.如果模块崩溃或者没有运行,我可能会使用monit重新启动它.

我正在经历不同的技术,如Daemon,Upstart和许多其他人.

这是最好的方法,以便我通过我的所有新模块使用这种方法来永远运行它们？

python daemon upstart monit python-daemon

mta*_*riq

2014 02-12

40
推荐指数

2
解决办法

3万
查看次数

Mysql 5.5表分区用户和朋友

我的数据库中有两个表现在有数百万行,选择和插入越来越慢.

我正在使用spring + hibernate + mysql 5.5并阅读有关分片以及对表进行分区的信息,以及分区我的表的想法,

我目前的Db结构就像

CREATE TABLE `user` (
  `id` BIGINT(20) NOT NULL,
  `name` VARCHAR(255) DEFAULT NULL,
  `email` VARCHAR(255) DEFAULT NULL,
  `location_id` bigint(20) default NULL,
  `updated_time` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY  (`id`),
  KEY `FK3DC99772C476E06B` (`location_id`),
  CONSTRAINT `FK3DC99772C476E06B` FOREIGN KEY (`location_id`) REFERENCES `places` (`id`) 
) ENGINE=INNODB DEFAULT CHARSET=utf8


CREATE TABLE `friends` (
  `id` BIGINT(20) NOT NULL AUTO_INCREMENT,
  `user_id` BIGINT(20) DEFAULT NULL,
  `friend_id` BIGINT(20) DEFAULT NULL,
  `updated_time` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY  (`id`), …

Run Code Online (Sandbox Code Playgroud)

mysql partitioning sharding database-partitioning

mta*_*riq

2012 11-30

14
推荐指数

1
解决办法

2566
查看次数

在elasticsearch中搜索带空格的名称(文本)

搜索包含空格的名称(文本),给我带来问题,我的映射类似于

"{"user":{"properties":{"name":{"type":"string"}}}}"

Run Code Online (Sandbox Code Playgroud)

理想情况下它应返回并按如下方式对结果进行排名

1) Bring on top names that exact match the search term (highest score)
2) Names that starts with the search term (high score)
3) Names that contains the exact search term as substring (medium score)
4) Names that contains any of the search term token  (lowest score)

Run Code Online (Sandbox Code Playgroud)

示例对于elasticsearch中的以下名称

Maaz Tariq
Ahmed Maaz Tariq
Maaz Sheeba
Maaz Bin Tariq
Sana Tariq
Maaz Tariq Ahmed

Run Code Online (Sandbox Code Playgroud)

搜索"Maaz Tariq",结果应按以下顺序排列

Maaz Tariq (highest score)
Maaz Tariq Ahmed (high score)
Ahmed Maaz Tariq …

Run Code Online (Sandbox Code Playgroud)

search tokenize analyzer elasticsearch

mta*_*riq

lucky-day

13
推荐指数

1
解决办法

1万
查看次数

MongoDB的Java ORM开销是多少

使用Java ORM进行MongoDB的开销是多少,或者我们在基本驱动程序级别读取或写入更好？

我们将根据我们的要求添加Mongo DB.

java
-morphia
-spring-data 有几种java ORM映射工具
- 其他

Morphia上一版本在一年多前发布,
但Spring数据得到了积极维护.如果我即将开始,应该使用哪一个,

java orm mongodb morphia spring-data

mta*_*riq

lucky-day

9
推荐指数

1
解决办法

5010
查看次数

Pydoop卡在HDFS文件的readline上

我正在读取目录中所有文件的第一行,在本地它工作正常,但在EMR上,此测试失败,卡在200-300左右的文件.另外ps -eLF表示即使在第200行打印也会将孩子增加到3000.

这是EMR上读取最大字节的一些错误吗？pydoop版本pydoop == 0.12.0

import os
import sys
import shutil
import codecs
import pydoop.hdfs as hdfs


def prepare_data(hdfs_folder):
    folder = "test_folder"
    copies_count = 700
    src_file = "file"

    #1) create a folder
    if os.path.exists(folder):
        shutil.rmtree(folder)
    os.makedirs(folder)

    #2) create XXX copies of file in folder
    for x in range(0, copies_count):
        shutil.copyfile(src_file, folder+"/"+src_file+"_"+str(x))

    #3) copy folder to hdfs
    #hadoop fs -copyFromLocal test_folder/ /maaz/test_aa
    remove_command = "hadoop fs -rmr "+ hdfs_folder
    print remove_command
    os.system(remove_command)
    command = "hadoop fs -copyFromLocal "+folder+" "+ hdfs_folder
    print …

Run Code Online (Sandbox Code Playgroud)

python hadoop emr

mta*_*riq

lucky-day

7
推荐指数

1
解决办法

1034
查看次数

CSS正在减慢页面渲染速度

我们有一个页面,用户可以浏览最多2000个配置文件,我们添加20个配置文件作为用户滚动到页面底部.在500个元素之后,添加配置文件变慢,在1000之后很难向下滚动.

我们首先认为这是DOM对象太多的结果,但经过调试后发现这CSS是实际问题,如果我们从页面滚动中删除CSS变得非常流畅,直到2000个配置文件.任何人都可以告诉我为什么CSS这样做？以及我们如何改进它以显示2000个配置文件.

我们的个人资料仅包含一个图片,没有文字.

CSS如下.

.profileCard {
  width: 25rem;
  height: 10rem;
  float: left;
}
.profileCard .imageHolder {
  width: 9.9rem;
  height: 9.9rem;
  float: left;
}
.profileCard .imageHolderSecondary {
  height: 100%;
  padding-left: 0.5rem;
  padding-right: 0.5rem;
  padding-top: 0.5rem;
  padding-bottom: 0.5rem;
}
.profileCard .imageHolderSecondaryTwo {
  width: 100%;
  height: 100%;
  overflow: hidden;
}

.imageCard .profileCard {
   width: 18.75rem;
   height: 18.75rem;
   background-color: white;
}
.imageCard .profileCard .imageHolder {
   width: 100%;
   height: 100%;
 }
.imageCard .profileCard .imageHolder .profileImage {
   min-width: 18.75rem;
   min-height: 18.75rem;
 }

Run Code Online (Sandbox Code Playgroud)

HTML …

html css html5 dom css3

mta*_*riq

lucky-day

6
推荐指数

1
解决办法

664
查看次数

使用Neo4j批量插入

我从表中导入了2.3亿个关系,导入速度不是很快,每小时需要5Million才能完成迁移需要20天.我听说过neo4j批量插入和批量插入实用程序.该实用程序通过从csv文件导入来做有趣的事情,但最新的代码是一些破坏和不运行的.

我在neo4j中有大约100M的关系,我必须检查是否没有重复的关系.

我怎样才能加快neo4j的速度

按当前代码就好

begin transaction
for 50K relationships
create or get user node for user A
create or get user node for user B
check there is relationship KNOW between A to B if not create the relationhsip
end transaction

Run Code Online (Sandbox Code Playgroud)

我还阅读了以下内容:

java mysql graph batch-processing neo4j

mta*_*riq

2017 05-23

5
推荐指数

1
解决办法

2229
查看次数

Solr 4.0存储和搜索规范化Profile的数据

我正在评估Solr 4.0和Elastic Search 0.20.5以进行linkedin类型搜索,并想知道如何存储用户配置文件的Normalize数据,这可以使用嵌套文档在elasticsearch中轻松实现.

例如
Person Json

{
    first_name: abc,
    last_name: xyz,
    school: [{
      name: some school,
      degree: x-Degree,
      startDate:12-02-2009
   },
   {
      name: some school2,
      degree: x-Degree-2,
      startDate:12-02-2012
   }
   ]

}

Run Code Online (Sandbox Code Playgroud)

我想搜索用户学校名称,学位和目前学习类似于linkedin搜索,

在Solr中索引和搜索它的最佳方法是什么？

indexing search solr search-engine

mta*_*riq

2013 03-04

5
推荐指数

1
解决办法

516
查看次数

Elasticsearch中的分析

我正在使用Analytic of events,我使用hadoop处理日志并将一些结果存储在Mysql中.由于日志不断出现,因此可伸缩性问题现在无法正常工作.

我们需要显示每年,每月,每周,每天,每小时的统计数据以及过滤功能我们的样本可以为10万用户增长,每个小时每小时使用20个网站
100,000(用户)*20(独特网站)*2(位置)*24 (小时)= 96,000,000(每天最多9600万条记录)

我们的表看起来像
event_src_id,时间,用户,网站,位置,一些统计数据

一些查询示例是

1) select website, sum(stats), count(distinct(user_id)) from table group by website;
2) select website, sum(stats), count(distinct(user_id)) from table where YEAR(Time) = 2009 group by website, MONTH(Time);
3) select website, sum(stats), count(distinct(user_id)) from table group by website where event_src_id=XXXXXXXXXXX;
4) select website, sum(stats), count(distinct(user_id)) from table group by website where time > 1 jan 2014 and time <=31 jan 2014;
5) select website, location, sum(stats), count(distinct(user_id)) from table group by website, location; …

Run Code Online (Sandbox Code Playgroud)

hadoop aggregate olap-cube elasticsearch

mta*_*riq

2014 09-23

4
推荐指数

1
解决办法

2046
查看次数