标签: data-partitioning

如何在matlab中将图像分割为64块

我想计算每个图像的颜色布局描述符（CLD）。该算法包括四个阶段。在第一阶段，我必须将每个图像分区为 64 个块 i(8\xc3\x978)n 以便计算每个块的单个代表颜色。我尝试使用（For 循环）将图像分区为 64 个块，但我获取 64 ting 图像。我想获得具有 (8\xc3\x978) 块的图像，以便通过应用 DCT 变换然后锯齿形扫描来完成算法

matlab image data-partitioning

zen*_*nab

2012 09-03

2
推荐指数

1
解决办法

8779
查看次数

具有n个部分的多少个不同分区可以由具有k个元素的集合组成？

可以用{1,2,3,4}组制成多少个具有两个部分的不同分区？此列表中有4个元素需要分为2个部分.我写了这些,总共有7种不同的可能性:

{{1},{2,3,4}}
{{2},{1,3,4}}
{{3},{1,2,4}}
{{4},{1,2,3}}
{{1,2},{3,4}}
{{1,3},{2,4}}
{{1,4},{2,3}}

现在我必须为集合{1,2,3,...,100}回答相同的问题.此列表中有100个元素需要分为2个部分.我知道分区的一部分最大可以是50(即100/2),最小的是1(因此一部分有1个数字而另一部分有99).如何在不写出每个可能组合的无关列表的情况下,确定两个部分的分区有多少种不同的可能性？答案可以简化为阶乘(例如12!)？
是否有一个通用的公式可以用来查找具有n个部分的多少个不同的分区可以由具有k个元素的集合组成？

math discrete-mathematics data-partitioning

Jar*_*red

2012 09-04

2
推荐指数

1
解决办法

1万
查看次数

当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））

打乱数据的spark sql聚合操作，即spark.sql.shuffle.partitions 200（默认情况下）。当 shuffle 分区大于 200 时，性能会发生什么变化。

当分区数量大于 2000 时，Spark 使用不同的数据结构进行随机簿记。因此，如果分区数量接近 2000，则将其增加到 2000 以上。

但我的问题是，当 shuffle 分区大于 200（假设为 300）时，会发生什么行为。

aggregate shuffle data-partitioning apache-spark

San*_*ddy

lucky-day

2
推荐指数

1
解决办法

4167
查看次数

R:将样本放入预定义大小的分区(分区样本向量)

我正在研究一个由~10 ^ 6个值组成的数据集,这些数据集聚成可变数量的二进制数.在我的分析过程中,我试图随机化我的聚类,但保持bin大小不变.作为玩具示例(伪代码),这看起来像这样:

data <- list(c(1,5,6,3), c(2,4,7,8), c(9), c(10,11,15), c(12,13,14));
sizes <- lapply(data, length);
for (rand in 1:no.of.randomizations) {
    rand.data <- partition.sample(seq(1,15), partitions=sizes, replace=F)
}

Run Code Online (Sandbox Code Playgroud)

所以,我期待像"partition.sample",将采取一个载体(如SEQ(1,15)),并随机抽样它,返回与分隔为由已经给右单元大小的数据列表的功能"大小".

我一直在尝试自己写一个这样的功能,因为这个任务似乎并不那么难.然而,矢量的分割成给定的块大小看起来这将是一个很大更快,更有效的,如果做"引擎盖下",意思可能不是本地R.所以我不知道我是否只是错过了合适的名称功能,或者是否有人可以请我指出一个智能解决方案:-)

非常感谢您的帮助和时间!:-)

最好,

Lymond

更新:

"no.of.randomizations"是指我在整个"随机化循环"中运行的实际次数.稍后,这将显然包括比实际采样更多的步骤.

此外,我还有兴趣在不更换的情况下进行上述取样专长.

在此先感谢,非常感谢您的帮助!

r sample vector data-partitioning

Lym*_*ond

2012 09-03

1
推荐指数

1
解决办法

1622
查看次数

租户ID上每个表的SQL Server分区 - 使用的磁盘空间

我们目前正在开发一个多租户Web应用程序.此应用程序将其所有数据存储在一个数据库中.

租户的数据行始终与租户ID相关.

目前我们正在考虑创建表分区,租户ID为分区键.这是有道理的,因为99.9%的所有查询都将租户ID作为where子句标准包含在内.如果我理解正确,SQL Server查询通过消除不包含分区键的表分区(在我的情况下是租户ID)来优化所有这些查询.

任何关于此策略的评论(严重的缺点,做或不使用文件组等,每个表允许的最大分区......)将不胜感激.

但我的主要问题是:我们想要计算每个租户的磁盘使用量.SQL Server支持报告每个分区的磁盘使用情况(标准报告).有没有人知道T-SQL允许我获取给定租户ID的所有表分区的磁盘使用情况？

sql-server sql-server-2008 data-partitioning

Sim*_*ets

lucky-day

1
推荐指数

1
解决办法

2561
查看次数

用于检查对不匹配的SQL

我正在使用SQL Server 2012我有以下示例数据

Date        Type    Symbol      Price
6/30/1995   gaus    313586U72   109.25
6/30/1995   gbus    313586U72   108.94
6/30/1995   csus    NES         34.5
6/30/1995   lcus    NES         34.5
6/30/1995   lcus    NYN         40.25
6/30/1995   uaus    NYN         40.25
6/30/1995   agus    SRR         10.25
6/30/1995   lcus    SRR         0.45
7/1/1995    gaus    313586U72   109.25
7/1/1995    gbus    313586U72   108.94

Run Code Online (Sandbox Code Playgroud)

我想在符号和价格匹配时过滤掉.如果类型不匹配就没问题.因此,根据上述数据,我希望只能看到

Date        Type    Symbol      Price
6/30/1995   gaus    313586U72   109.25
6/30/1995   gbus    313586U72   108.94
6/30/1995   agus    SRR         10.25
6/30/1995   lcus    SRR         0.45
7/1/1995    gaus    313586U72   109.25
7/1/1995    gbus    313586U72   108.94

Run Code Online (Sandbox Code Playgroud)

NES和NYN已被过滤掉,因为它们的符号和价格匹配.

我在考虑使用分区和行号,但我不确定如何使用该函数或其他函数对行和过滤行.

***更新我将测试回复.我应该提到我只想看到同一日期出现的符号和价格的重复.该表也称为duppri

sql sql-server sql-server-2012 data-partitioning

Jay*_*y C

2015 07-04

1
推荐指数

1
解决办法

167
查看次数

在powershell中使用2个数组中的多个值创建哈希

我想为每个键创建一个具有多个值的哈希,来自2个大小不相等的数组A和B.

$A = @('usr1','usr2', 'usr3', 'usr4')
$B = @('INC1','INC2','INC3','INC4','INC5','INC6')
$h = [ordered]@{}
for($i=0; $i -lt $B.Count; $i++)
{
    for($j=0;$j -lt $A.Count; $j++)
    {
        $h[$A[$j]] += @($B[$j])
    }
}

Run Code Online (Sandbox Code Playgroud)

`输出我得到了

Name                           Value                                           
----                           -----                                           
usr1                           {INC1, INC2, INC3, INC4...}                     
usr2                           {INC1, INC2, INC3, INC4...}                     
usr3                           {INC1, INC2, INC3, INC4...}                     
usr4                           {INC1, INC2, INC3, INC4...}

Run Code Online (Sandbox Code Playgroud)

期望的输出:

Name                           Value                                           
----                           -----                                           
usr1                           {INC1, INC5}                     
usr2                           {INC2, INC6}                     
usr3                           {INC3}           
usr4                           {INC4}

Run Code Online (Sandbox Code Playgroud)

我需要以相同的方式将数组B中的项分配给Array A成员.也就是说,$B应该在为$A一个接一个的元素命名的哈希表条目中收集元素,直到不再$B剩下任何项目为止.

我在上面的代码中做错了什么？

powershell data-partitioning

nar*_* ch

2018 12-20

1
推荐指数

1
解决办法

114
查看次数

在 powershell 中对数组（或列表）进行切片的更好方法

我如何将邮件地址导出为 CSV 文件，每个用户的范围为 30 个用户。我已经尝试过这个

    $users = Get-ADUser -Filter * -Properties Mail 
    $nbCsv = [int][Math]::Ceiling($users.Count/30)
    For($i=0; $i -le $nbCsv; $i++){
        $arr=@()
        For($j=(0*$i);$j -le ($i + 30);$j++){
            $arr+=$users[$j]
        }
        $arr|Export-Csv -Path ($PSScriptRoot + "\ASSFAM" + ("{0:d2}" -f ([int]$i)) + ".csv") -Delimiter ";" -Encoding UTF8 -NoTypeInformation
    }

Run Code Online (Sandbox Code Playgroud)

它有效，但是我认为有更好的方法来完成这项任务。你有什么想法吗？

谢谢。

powershell data-partitioning

Yan*_* F.

2019 12-12

1
推荐指数

1
解决办法

6659
查看次数

SQL-根据最大值返回分区中的行

我有下面的数据集，其中包含必须返回哪一行的注释。

INSERT INTO rates
  (country,kg_from,kg_to,value)
VALUES
  --('pl', '0', '5', '2.5'),
  --('pl', '5', '10', '4.5'),
  --('pl', '10', '15', '6'),
  --('pl', '15', '20', '8'), -- return this row
  --('de', '0', '5', '1.5'),
  --('de', '5', '10', '1.5'),
  --('de', '10', '15', '1.5'),
  --('de', '15', '45', '1.5'),  -- return this row
  --('cz', '0', '5', '5'),
  --('cz', '5', '10', '5'),
  --('cz', '10', '15', '6'),
  --('cz', '15', '30', '4') -- return this row

Run Code Online (Sandbox Code Playgroud)

逻辑是：返回每个国家分区内最大kg_to的值。

当前工作代码：

select t.country, t.kg_to, t.value
from rates t
inner join (select country, max(t2.kg_to) …

Run Code Online (Sandbox Code Playgroud)

sql postgresql data-partitioning snowflake-cloud-data-platform

mar*_*2x4

2022 08-22

1
推荐指数

1
解决办法

2307
查看次数

标签统计

data-partitioning ×9

powershell ×2

sql ×2

sql-server ×2

aggregate ×1

apache-spark ×1

discrete-mathematics ×1

image ×1

math ×1

matlab ×1

postgresql ×1

r ×1

sample ×1

shuffle ×1

snowflake-cloud-data-platform ×1

sql-server-2008 ×1

sql-server-2012 ×1

vector ×1

标签 统计

标签统计