我的数据库中有两个表现在有数百万行,选择和插入越来越慢.
我正在使用spring + hibernate + mysql 5.5并阅读有关分片以及对表进行分区的信息,以及分区我的表的想法,
我目前的Db结构就像
CREATE TABLE `user` (
`id` BIGINT(20) NOT NULL,
`name` VARCHAR(255) DEFAULT NULL,
`email` VARCHAR(255) DEFAULT NULL,
`location_id` bigint(20) default NULL,
`updated_time` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`),
KEY `FK3DC99772C476E06B` (`location_id`),
CONSTRAINT `FK3DC99772C476E06B` FOREIGN KEY (`location_id`) REFERENCES `places` (`id`)
) ENGINE=INNODB DEFAULT CHARSET=utf8
CREATE TABLE `friends` (
`id` BIGINT(20) NOT NULL AUTO_INCREMENT,
`user_id` BIGINT(20) DEFAULT NULL,
`friend_id` BIGINT(20) DEFAULT NULL,
`updated_time` TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`), …
Run Code Online (Sandbox Code Playgroud) 搜索包含空格的名称(文本),给我带来问题,我的映射类似于
"{"user":{"properties":{"name":{"type":"string"}}}}"
Run Code Online (Sandbox Code Playgroud)
理想情况下它应返回并按如下方式对结果进行排名
1) Bring on top names that exact match the search term (highest score)
2) Names that starts with the search term (high score)
3) Names that contains the exact search term as substring (medium score)
4) Names that contains any of the search term token (lowest score)
Run Code Online (Sandbox Code Playgroud)
示例对于elasticsearch中的以下名称
Maaz Tariq
Ahmed Maaz Tariq
Maaz Sheeba
Maaz Bin Tariq
Sana Tariq
Maaz Tariq Ahmed
Run Code Online (Sandbox Code Playgroud)
搜索"Maaz Tariq",结果应按以下顺序排列
Maaz Tariq (highest score)
Maaz Tariq Ahmed (high score)
Ahmed Maaz Tariq …
Run Code Online (Sandbox Code Playgroud) 使用Java ORM进行MongoDB的开销是多少,或者我们在基本驱动程序级别读取或写入更好?
我们将根据我们的要求添加Mongo DB.
java
-morphia
-spring-data 有几种java ORM映射工具
- 其他
Morphia上一版本在一年多前发布,
但Spring数据得到了积极维护.如果我即将开始,应该使用哪一个,
我正在读取目录中所有文件的第一行,在本地它工作正常,但在EMR上,此测试失败,卡在200-300左右的文件.另外ps -eLF表示即使在第200行打印也会将孩子增加到3000.
这是EMR上读取最大字节的一些错误吗?pydoop版本pydoop == 0.12.0
import os
import sys
import shutil
import codecs
import pydoop.hdfs as hdfs
def prepare_data(hdfs_folder):
folder = "test_folder"
copies_count = 700
src_file = "file"
#1) create a folder
if os.path.exists(folder):
shutil.rmtree(folder)
os.makedirs(folder)
#2) create XXX copies of file in folder
for x in range(0, copies_count):
shutil.copyfile(src_file, folder+"/"+src_file+"_"+str(x))
#3) copy folder to hdfs
#hadoop fs -copyFromLocal test_folder/ /maaz/test_aa
remove_command = "hadoop fs -rmr "+ hdfs_folder
print remove_command
os.system(remove_command)
command = "hadoop fs -copyFromLocal "+folder+" "+ hdfs_folder
print …
Run Code Online (Sandbox Code Playgroud) 我们有一个页面,用户可以浏览最多2000个配置文件,我们添加20个配置文件作为用户滚动到页面底部.在500个元素之后,添加配置文件变慢,在1000之后很难向下滚动.
我们首先认为这是DOM对象太多的结果,但经过调试后发现这CSS
是实际问题,如果我们从页面滚动中删除CSS变得非常流畅,直到2000个配置文件.任何人都可以告诉我为什么CSS这样做?以及我们如何改进它以显示2000个配置文件.
我们的个人资料仅包含一个图片,没有文字.
CSS如下.
.profileCard {
width: 25rem;
height: 10rem;
float: left;
}
.profileCard .imageHolder {
width: 9.9rem;
height: 9.9rem;
float: left;
}
.profileCard .imageHolderSecondary {
height: 100%;
padding-left: 0.5rem;
padding-right: 0.5rem;
padding-top: 0.5rem;
padding-bottom: 0.5rem;
}
.profileCard .imageHolderSecondaryTwo {
width: 100%;
height: 100%;
overflow: hidden;
}
.imageCard .profileCard {
width: 18.75rem;
height: 18.75rem;
background-color: white;
}
.imageCard .profileCard .imageHolder {
width: 100%;
height: 100%;
}
.imageCard .profileCard .imageHolder .profileImage {
min-width: 18.75rem;
min-height: 18.75rem;
}
Run Code Online (Sandbox Code Playgroud)
HTML …
我从表中导入了2.3亿个关系,导入速度不是很快,每小时需要5Million才能完成迁移需要20天.我听说过neo4j批量插入和批量插入实用程序.该实用程序通过从csv文件导入来做有趣的事情,但最新的代码是一些破坏和不运行的.
我在neo4j中有大约100M的关系,我必须检查是否没有重复的关系.
我怎样才能加快neo4j的速度
按当前代码就好
begin transaction
for 50K relationships
create or get user node for user A
create or get user node for user B
check there is relationship KNOW between A to B if not create the relationhsip
end transaction
Run Code Online (Sandbox Code Playgroud)
我还阅读了以下内容:
我正在评估Solr 4.0和Elastic Search 0.20.5以进行linkedin类型搜索,并想知道如何存储用户配置文件的Normalize数据,这可以使用嵌套文档在elasticsearch中轻松实现.
例如
Person Json
{
first_name: abc,
last_name: xyz,
school: [{
name: some school,
degree: x-Degree,
startDate:12-02-2009
},
{
name: some school2,
degree: x-Degree-2,
startDate:12-02-2012
}
]
}
Run Code Online (Sandbox Code Playgroud)
我想搜索用户学校名称,学位和目前学习类似于linkedin搜索,
在Solr中索引和搜索它的最佳方法是什么?
我正在使用Analytic of events,我使用hadoop处理日志并将一些结果存储在Mysql中.由于日志不断出现,因此可伸缩性问题现在无法正常工作.
我们需要显示每年,每月,每周,每天,每小时的统计数据以及过滤功能我们的样本可以为10万用户增长,每个小时每小时使用20个网站
100,000(用户)*20(独特网站)*2(位置)*24 (小时)= 96,000,000(每天最多9600万条记录)
我们的表看起来像
event_src_id,时间,用户,网站,位置,一些统计数据
一些查询示例是
1) select website, sum(stats), count(distinct(user_id)) from table group by website;
2) select website, sum(stats), count(distinct(user_id)) from table where YEAR(Time) = 2009 group by website, MONTH(Time);
3) select website, sum(stats), count(distinct(user_id)) from table group by website where event_src_id=XXXXXXXXXXX;
4) select website, sum(stats), count(distinct(user_id)) from table group by website where time > 1 jan 2014 and time <=31 jan 2014;
5) select website, location, sum(stats), count(distinct(user_id)) from table group by website, location; …
Run Code Online (Sandbox Code Playgroud)