标签: distinct-values

如何在solr中的多值字段中添加不同的值

我有一个名为category的多值字段(也是一个存储字段),我需要在其中只添加不同的值

<field name="category">value1</field>
<field name="category">value2</field>

如果我按如下方式进行更新
<add>
<doc>
<field name="id">E02</field>
<field name="category" update="add">value2</field>
</doc>
</add>

我得到value2存储两次
<field name="category">value1</field>
<field name="category">value2</field>
<field name="category">value2</field>

我需要在类别字段中存储/更新分布值,这是一个多值字段.怎么做这个solr？

谢谢,Jagadesh.

lucene search solr multivalue distinct-values

Jag*_*esh

2013 04-09

6
推荐指数

2
解决办法

1632
查看次数

有效计数与DataFrame列不同,按行分组

什么是最快的方式(在理智的pythonicity的范围内)计算不同的值,跨越相同的列dtype,为每一行DataFrame？

详细信息:我DataFrame按主题(按行)按天(按列)分类结果,类似于由以下内容生成的内容.

import numpy as np
import pandas as pd

def genSampleData(custCount, dayCount, discreteChoices):
    """generate example dataset"""
    np.random.seed(123)     
    return pd.concat([
               pd.DataFrame({'custId':np.array(range(1,int(custCount)+1))}),
               pd.DataFrame(
                columns = np.array(['day%d' % x for x in range(1,int(dayCount)+1)]),
                data = np.random.choice(a=np.array(discreteChoices), 
                                        size=(int(custCount), int(dayCount)))    
               )], axis=1)

Run Code Online (Sandbox Code Playgroud)

例如,如果数据集告诉我们每个顾客在每次访问商店时订购了哪种饮料,我想知道每个顾客的不同饮料数量.

# notional discrete choice outcome          
drinkOptions, drinkIndex = np.unique(['coffee','tea','juice','soda','water'], 
                                     return_inverse=True) 

# integer-coded discrete choice outcomes
d = genSampleData(2,3, drinkIndex)
d
#   custId  day1  day2  day3
#0       1     1     4     1
#1       2     3     2 …

Run Code Online (Sandbox Code Playgroud)

python performance numpy distinct-values pandas

C8H*_*4O2

2017 05-23

6
推荐指数

1
解决办法

375
查看次数

保持唯一的字符串的缩写

我有一个唯一的字符串列表(最初的想法是表中的列名).任务是执行列表的最大可能缩写,因此列表保持不同.

例如AAA, AB可以缩写为AA, AB.(但不是A, AB- A可能是两者的前缀AAA和AB). AAAA, BAAAA可以缩短到A, B.但A1, A2根本不能缩写.

以下是示例数据

create table tab as 
select 'AAA' col from dual union all
select 'AABA' col from dual union all
select 'COL1' col from dual union all
select 'COL21' col from dual union all
select 'AAAAAA' col from dual union all
select 'BBAA' col from dual union all
select 'BAAAA' col from dual union all …

Run Code Online (Sandbox Code Playgroud)

sql oracle r distinct-values

Mar*_*ber

lucky-day

6
推荐指数

1
解决办法

84
查看次数

是否可以根据列中的任何值选择 r 中的列？

我想对 df 进行子集化，以仅包含任何行中包含特定值的列。

例如，如果我有：

year = c(1990,1991,1992,1993,1994,1995,1996,1997,1998,1999)
apple = c(1,4,6,8,9,9,2,4,7,4)
orange = c(7,1,5,5,2,1,7,1,3,8)
banana = c(9,9,4,8,1,3,6,7,5,9)
lemon = c(8,3,3,3,2,5,6,7,2,4)
df = data.frame(year,apple,orange,banana,lemon)

df

Run Code Online (Sandbox Code Playgroud)

我只想选择列中任意位置有 9 的列，这样我的 df 将只包含苹果和香蕉列。

这可能吗？到目前为止我找到的所有答案都只能根据列名称选择列，但我想根据列中的单元格值进行选择。谢谢你！

select r subset distinct-values

Emi*_*ily

lucky-day

6
推荐指数

1
解决办法

1942
查看次数

SELECT DISTINCT用于数据组

我有以下表格:

ID  Data
1   A
2   A
2   B
3   A
3   B
4   C
5   D 
6   A
6   B

Run Code Online (Sandbox Code Playgroud)

换句话说,我每个ID都有一组数据.您会注意到数据组(A,B)多次出现.我想要一个可以识别不同数据组并对其进行编号的查询,例如:

DataID     Data
101        A
102        A
102        B
103        C
104        D

Run Code Online (Sandbox Code Playgroud)

因此,DataID 102将类似于数据(A,B),DataID 103将类似于数据(C)等.为了能够以这种形式重写我的原始表:

ID   DataID
1    101
2    102
3    102
4    103
5    104
6    102

Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点？

PS.用于生成第一个表的代码:

CREATE TABLE #t1 (id INT, data VARCHAR(10))
INSERT INTO #t1
SELECT 1, 'A'
UNION ALL SELECT 2, 'A'
UNION ALL SELECT 2, 'B'
UNION ALL SELECT 3, …

Run Code Online (Sandbox Code Playgroud)

sql t-sql sql-server-2008 distinct-values

tho*_*ulb

2010 11-25

5
推荐指数

1
解决办法

361
查看次数

Cassandra 不同计数

我需要计算 Cassandra 中的一堆“东西”。我需要每隔几秒左右增加约 100-200 个计数器。

但是我需要计算不同的“事物”。

为了不计算两次，我在 CF 中设置了一个键，该程序在增加计数器之前读取，例如：

result = get cf[key];
if (result == NULL){
    set          cf[key][x] = 1;
    incr counter_cf[key][x];
}

Run Code Online (Sandbox Code Playgroud)

但是，此读取操作会大大降低集群速度。我尝试使用几列减少读取，例如：

result = get cf[key];

if (result[key1]){
    set          cf[key1][x] = 1;
    incr counter_cf[key1][x];
}

if (result[key2]){
    set          cf[key2][x] = 1;
    incr counter_cf[key2][x];
}

//etc....

Run Code Online (Sandbox Code Playgroud)

然后我将读取次数从 200+ 减少到大约 5-6，但它仍然减慢了集群的速度。

我不需要精确计数，但我不能使用位掩码，也不能使用布隆过滤器，因为会有 1M+++ 计数器，有些可能会超过 4 000 000 000。

我知道 Hyper_Log_Log 计数，但我也没有看到将它与这么多计数器（1M+++）一起使用的简单方法。

目前我正在考虑使用 Tokyo Cabinet 作为外部键/值存储，但是这个解决方案，如果有效，将不会像 Cassandra 那样具有可扩展性。

cassandra distinct-values

Nic*_*ick

2015 02-17

5
推荐指数

1
解决办法

2860
查看次数

从sql查询中的所有可用列中删除仅一个列值的重复值

我有一个带有三列的SQL查询.我想删除beam_current列中的任何重复值出口.如何这样做.我在sql-server2012中工作

我使用了Distinct但是我也得到了beam_current的重复值.我的sql查询是 -

select DISTINCT (beam_current), logtime, beam_energy 
from INDUS2_BDS.dbo.DCCT 
where logtime between '2014-08-09 01:13:03' and '2014-08-09 02:16:53'
      and (beam_current like '%9.96' 
           or beam_current like '%9.97' 
           ... etc ...) 
      and beam_energy between '550' and '552'

Run Code Online (Sandbox Code Playgroud)

EDIT-1 我的输出是 -

在此输入图像描述

在第一列29.98重复三次.我只想要对应于29.98的任何一行.怎么做？

sql-server distinct-values

tid*_*ogi

2015 02-24

5
推荐指数

2
解决办法

2万
查看次数

SQL Server 查询显示所有列，但其中一列具有不同的值（不对任何内容进行分组）

我有一个有 106 列的表。其中一列是“类型”列，有 16 种类型。

我想要 16 行，其中类型不同。因此，第 1 行的类型为“建筑”，第 2 行的类型为“电梯 PVT”，依此类推。

使用 Navicat。

从到目前为止我发现（和理解）的情况来看，我不能使用 Distinct （因为它会查看所有行），我不能使用 Group By （因为那是为了聚合数据，我不想这样做），所以我被困住了。

请温柔一点——我对此真的很陌生。

下面是表格的一部分（我怎样才能正常分享这个？） - 它真的很大，所以我没有分享整个内容。下面是我正在寻找的部分结果，其中 Violation_Type 是唯一的，并且显示其余列。

明白了......谢什......（花了我一辈子，但明白了......）

  D_ID   B_ID   V_ID       V_Type      S_ID   c_f   d_y    l_u    p_s   du_p  
 ------ ------ ------- -------------- ------ ----- ------ ------ ----- ------ 
   184    117   V 032   Elevator PVT      2     8      0      0               
     4    140   V 100   Construction      1     8      0      0               
    10    116   V 122   Electric                1      8   2005     0      0  
    11    117   V …

Run Code Online (Sandbox Code Playgroud)

sql-server group-by distinct distinct-values

Avi*_*Avi

2015 09-08

5
推荐指数

1
解决办法

1095
查看次数

查找另一个字段mongodb的不同值组

我收集了这样的文件：

{
    "_id" : ObjectId("5c0685fd6afbd73b80f45338"),
    "page_id" : "1234",
    "category_list" : [  
        "football", 
        "sport"
    ],
    "time_broadcast" : "09:13"
}

{
    "_id" : ObjectId("5c0685fd6afbd7355f45338"),
    "page_id" : "1234",
    "category_list" : [ 
        "sport",
        "handball"
    ],
    "time_broadcast" : "09:13"
}

{
    "_id" : ObjectId("5c0694ec6afbd74af41ea4af"),
    "page_id" : "123456",
    "category_list" : [ 
        "news", 
        "updates"
     ],
     "time_broadcast" : "09:13"
}

Run Code Online (Sandbox Code Playgroud)

....

now = datetime.datetime.now().time().strftime("%H:%M")

Run Code Online (Sandbox Code Playgroud)

我想要的是：当“time_broadcast”等于“now”时，我得到每个“page_id”的不同“category_list”列表。

输出应如下所示：

{
   { 
     "page_id" : "1234",
     "category_list" : ["football", "sport", "handball"] 
   },

   { 
     "page_id" : "123456",
     "category_list" : ["news", "updates"] 
   }
}

Run Code Online (Sandbox Code Playgroud)

我已经尝试过这样的： …

mongodb distinct-values python-3.x

Wie*_*iem

2018 12-18

5
推荐指数

1
解决办法

2484
查看次数

Django - 如何注释不同值的 count()

我有以下模型：

class Bank(model.Model):\n    name: models.CharField\n    ....\n

Run Code Online (Sandbox Code Playgroud)\n

使用以下示例数据：

\xe2\x95\x94\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x97\n\xe2\x95\x91 Row ID, Name \xe2\x95\x91\n\xe2\x95\xa0\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\xa3\n\xe2\x95\x91 1, ABC       \xe2\x95\x91\n\xe2\x95\x91 2, ABC       \xe2\x95\x91\n\xe2\x95\x91 3, XYZ       \xe2\x95\x91\n\xe2\x95\x91 4, MNO       \xe2\x95\x91\n\xe2\x95\x91 5, ABC       \xe2\x95\x91\n\xe2\x95\x91 6, DEF       \xe2\x95\x91\n\xe2\x95\x91 7, DEF       \xe2\x95\x91\n\xe2\x95\x9a\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x90\xe2\x95\x9d\n

Run Code Online (Sandbox Code Playgroud)\n

我想提取不同的银行名称，如下所示：

[(\'ABC\', 3), (\'XYZ\', 1), (\'MNO\', 1), (\'DEF\', 2)]\n

Run Code Online (Sandbox Code Playgroud)\n

我尝试使用 annotate 和 distect 但出现以下错误：

NotImplementedError: annotate() + distinct(fields) is not implemented.\n

Run Code Online (Sandbox Code Playgroud)\n

我还遇到了以下问题：

问题1

其中有关于使用的答案models.Count(\'name\', distinct=True)，但它返回重复的值。\n我如何使用 Django ORM 处理这个问题？

django django-orm distinct-values

kin*_*aii

lucky-day

5
推荐指数

2
解决办法

3729
查看次数

标签统计

distinct-values ×10

r ×2

sql ×2

sql-server ×2

cassandra ×1

distinct ×1

django ×1

django-orm ×1

group-by ×1

lucene ×1

mongodb ×1

multivalue ×1

numpy ×1

oracle ×1

pandas ×1

performance ×1

python ×1

python-3.x ×1

search ×1

select ×1

solr ×1

sql-server-2008 ×1

subset ×1

t-sql ×1

标签 统计

标签统计