我有一个名为category的多值字段(也是一个存储字段),我需要在其中只添加不同的值
<field name="category">value1</field>
<field name="category">value2</field>
如果我按如下方式进行更新
<add>
<doc>
<field name="id">E02</field>
<field name="category" update="add">value2</field>
</doc>
</add>
我得到value2存储两次
<field name="category">value1</field>
<field name="category">value2</field>
<field name="category">value2</field>
我需要在类别字段中存储/更新分布值,这是一个多值字段.怎么做这个solr?
谢谢,Jagadesh.
什么是最快的方式(在理智的pythonicity的范围内)计算不同的值,跨越相同的列dtype
,为每一行DataFrame
?
详细信息:我DataFrame
按主题(按行)按天(按列)分类结果,类似于由以下内容生成的内容.
import numpy as np
import pandas as pd
def genSampleData(custCount, dayCount, discreteChoices):
"""generate example dataset"""
np.random.seed(123)
return pd.concat([
pd.DataFrame({'custId':np.array(range(1,int(custCount)+1))}),
pd.DataFrame(
columns = np.array(['day%d' % x for x in range(1,int(dayCount)+1)]),
data = np.random.choice(a=np.array(discreteChoices),
size=(int(custCount), int(dayCount)))
)], axis=1)
Run Code Online (Sandbox Code Playgroud)
例如,如果数据集告诉我们每个顾客在每次访问商店时订购了哪种饮料,我想知道每个顾客的不同饮料数量.
# notional discrete choice outcome
drinkOptions, drinkIndex = np.unique(['coffee','tea','juice','soda','water'],
return_inverse=True)
# integer-coded discrete choice outcomes
d = genSampleData(2,3, drinkIndex)
d
# custId day1 day2 day3
#0 1 1 4 1
#1 2 3 2 …
Run Code Online (Sandbox Code Playgroud) 我有一个唯一的字符串列表(最初的想法是表中的列名).任务是执行列表的最大可能缩写,因此列表保持不同.
例如AAA, AB
可以缩写为AA, AB
.(但不是A, AB
- A
可能是两者的前缀AAA
和AB
).
AAAA, BAAAA
可以缩短到A, B
.但A1, A2
根本不能缩写.
以下是示例数据
create table tab as
select 'AAA' col from dual union all
select 'AABA' col from dual union all
select 'COL1' col from dual union all
select 'COL21' col from dual union all
select 'AAAAAA' col from dual union all
select 'BBAA' col from dual union all
select 'BAAAA' col from dual union all …
Run Code Online (Sandbox Code Playgroud) 我想对 df 进行子集化,以仅包含任何行中包含特定值的列。
例如,如果我有:
year = c(1990,1991,1992,1993,1994,1995,1996,1997,1998,1999)
apple = c(1,4,6,8,9,9,2,4,7,4)
orange = c(7,1,5,5,2,1,7,1,3,8)
banana = c(9,9,4,8,1,3,6,7,5,9)
lemon = c(8,3,3,3,2,5,6,7,2,4)
df = data.frame(year,apple,orange,banana,lemon)
df
Run Code Online (Sandbox Code Playgroud)
我只想选择列中任意位置有 9 的列,这样我的 df 将只包含苹果和香蕉列。
这可能吗?到目前为止我找到的所有答案都只能根据列名称选择列,但我想根据列中的单元格值进行选择。谢谢你!
我有以下表格:
ID Data
1 A
2 A
2 B
3 A
3 B
4 C
5 D
6 A
6 B
Run Code Online (Sandbox Code Playgroud)
换句话说,我每个ID都有一组数据.您会注意到数据组(A,B)多次出现.我想要一个可以识别不同数据组并对其进行编号的查询,例如:
DataID Data
101 A
102 A
102 B
103 C
104 D
Run Code Online (Sandbox Code Playgroud)
因此,DataID 102将类似于数据(A,B),DataID 103将类似于数据(C)等.为了能够以这种形式重写我的原始表:
ID DataID
1 101
2 102
3 102
4 103
5 104
6 102
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到这一点?
PS.用于生成第一个表的代码:
CREATE TABLE #t1 (id INT, data VARCHAR(10))
INSERT INTO #t1
SELECT 1, 'A'
UNION ALL SELECT 2, 'A'
UNION ALL SELECT 2, 'B'
UNION ALL SELECT 3, …
Run Code Online (Sandbox Code Playgroud) 我需要计算 Cassandra 中的一堆“东西”。我需要每隔几秒左右增加约 100-200 个计数器。
但是我需要计算不同的“事物”。
为了不计算两次,我在 CF 中设置了一个键,该程序在增加计数器之前读取,例如:
result = get cf[key];
if (result == NULL){
set cf[key][x] = 1;
incr counter_cf[key][x];
}
Run Code Online (Sandbox Code Playgroud)
但是,此读取操作会大大降低集群速度。我尝试使用几列减少读取,例如:
result = get cf[key];
if (result[key1]){
set cf[key1][x] = 1;
incr counter_cf[key1][x];
}
if (result[key2]){
set cf[key2][x] = 1;
incr counter_cf[key2][x];
}
//etc....
Run Code Online (Sandbox Code Playgroud)
然后我将读取次数从 200+ 减少到大约 5-6,但它仍然减慢了集群的速度。
我不需要精确计数,但我不能使用位掩码,也不能使用布隆过滤器,因为会有 1M+++ 计数器,有些可能会超过 4 000 000 000。
我知道 Hyper_Log_Log 计数,但我也没有看到将它与这么多计数器(1M+++)一起使用的简单方法。
目前我正在考虑使用 Tokyo Cabinet 作为外部键/值存储,但是这个解决方案,如果有效,将不会像 Cassandra 那样具有可扩展性。
我有一个带有三列的SQL查询.我想删除beam_current列中的任何重复值出口.如何这样做.我在sql-server2012中工作
我使用了Distinct但是我也得到了beam_current的重复值.我的sql查询是 -
select DISTINCT (beam_current), logtime, beam_energy
from INDUS2_BDS.dbo.DCCT
where logtime between '2014-08-09 01:13:03' and '2014-08-09 02:16:53'
and (beam_current like '%9.96'
or beam_current like '%9.97'
... etc ...)
and beam_energy between '550' and '552'
Run Code Online (Sandbox Code Playgroud)
EDIT-1 我的输出是 -
在第一列29.98重复三次.我只想要对应于29.98的任何一行.怎么做?
我有一个有 106 列的表。其中一列是“类型”列,有 16 种类型。
我想要 16 行,其中类型不同。因此,第 1 行的类型为“建筑”,第 2 行的类型为“电梯 PVT”,依此类推。
使用 Navicat。
从到目前为止我发现(和理解)的情况来看,我不能使用 Distinct (因为它会查看所有行),我不能使用 Group By (因为那是为了聚合数据,我不想这样做),所以我被困住了。
请温柔一点——我对此真的很陌生。
下面是表格的一部分(我怎样才能正常分享这个?) - 它真的很大,所以我没有分享整个内容。下面是我正在寻找的部分结果,其中 Violation_Type 是唯一的,并且显示其余列。
明白了......谢什......(花了我一辈子,但明白了......)
D_ID B_ID V_ID V_Type S_ID c_f d_y l_u p_s du_p
------ ------ ------- -------------- ------ ----- ------ ------ ----- ------
184 117 V 032 Elevator PVT 2 8 0 0
4 140 V 100 Construction 1 8 0 0
10 116 V 122 Electric 1 8 2005 0 0
11 117 V …
Run Code Online (Sandbox Code Playgroud) 我收集了这样的文件:
{
"_id" : ObjectId("5c0685fd6afbd73b80f45338"),
"page_id" : "1234",
"category_list" : [
"football",
"sport"
],
"time_broadcast" : "09:13"
}
{
"_id" : ObjectId("5c0685fd6afbd7355f45338"),
"page_id" : "1234",
"category_list" : [
"sport",
"handball"
],
"time_broadcast" : "09:13"
}
{
"_id" : ObjectId("5c0694ec6afbd74af41ea4af"),
"page_id" : "123456",
"category_list" : [
"news",
"updates"
],
"time_broadcast" : "09:13"
}
Run Code Online (Sandbox Code Playgroud)
....
now = datetime.datetime.now().time().strftime("%H:%M")
Run Code Online (Sandbox Code Playgroud)
我想要的是:当“time_broadcast”等于“now”时,我得到每个“page_id”的不同“category_list”列表。
输出应如下所示:
{
{
"page_id" : "1234",
"category_list" : ["football", "sport", "handball"]
},
{
"page_id" : "123456",
"category_list" : ["news", "updates"]
}
}
Run Code Online (Sandbox Code Playgroud)
我已经尝试过这样的: …
我有以下模型:
\nclass Bank(model.Model):\n name: models.CharField\n ....\n
Run Code Online (Sandbox Code Playgroud)\n使用以下示例数据:
\n\xe2\x95\x94\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x97\n\xe2\x95\x91 Row ID, Name \xe2\x95\x91\n\xe2\x95\xa0\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\xa3\n\xe2\x95\x91 1, ABC \xe2\x95\x91\n\xe2\x95\x91 2, ABC \xe2\x95\x91\n\xe2\x95\x91 3, XYZ \xe2\x95\x91\n\xe2\x95\x91 4, MNO \xe2\x95\x91\n\xe2\x95\x91 5, ABC \xe2\x95\x91\n\xe2\x95\x91 6, DEF \xe2\x95\x91\n\xe2\x95\x91 7, DEF \xe2\x95\x91\n\xe2\x95\x9a\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x9d\n
Run Code Online (Sandbox Code Playgroud)\n我想提取不同的银行名称,如下所示:
\n[(\'ABC\', 3), (\'XYZ\', 1), (\'MNO\', 1), (\'DEF\', 2)]\n
Run Code Online (Sandbox Code Playgroud)\n我尝试使用 annotate 和 distect 但出现以下错误:
\nNotImplementedError: annotate() + distinct(fields) is not implemented.\n
Run Code Online (Sandbox Code Playgroud)\n我还遇到了以下问题:
\n\n其中有关于使用的答案models.Count(\'name\', distinct=True)
,但它返回重复的值。\n我如何使用 Django ORM 处理这个问题?
distinct-values ×10
r ×2
sql ×2
sql-server ×2
cassandra ×1
distinct ×1
django ×1
django-orm ×1
group-by ×1
lucene ×1
mongodb ×1
multivalue ×1
numpy ×1
oracle ×1
pandas ×1
performance ×1
python ×1
python-3.x ×1
search ×1
select ×1
solr ×1
subset ×1
t-sql ×1