标签: phoenix

val dfToJoin = sparkSession.createDataset(rddToJoin) val tableDf = sparkSession .read .option("table", "table") .option("zkURL", "localhost") .format("org.apache.phoenix.spark") .load() val joinedDf = dfToJoin.join(tableDf, "columnToJoinOn")
Run Code Online (Sandbox Code Playgroud)
当我执行它时，似乎整个数据库表都被加载来进行连接。

有没有办法进行这样的连接，以便在数据库上而不是在 spark 上完成过滤？

另外：dfToJoin比表小，我不知道这是否重要。

编辑：基本上我想将我的 Phoenix 表与通过 spark 创建的数据集连接起来，而不是将整个表提取到执行程序中。

Edit2：这是物理计划：

*Project [FEATURE#21, SEQUENCE_IDENTIFIER#22, TAX_NUMBER#23, WINDOW_NUMBER#24, uniqueIdentifier#5, readLength#6] +- *SortMergeJoin [FEATURE#21], [feature#4], Inner :- *Sort [FEATURE#21 ASC NULLS FIRST], false, 0 : +- Exchange hashpartitioning(FEATURE#21, 200) : +- *Filter isnotnull(FEATURE#21) : +- *Scan PhoenixRelation(FEATURES,localhost,false) [FEATURE#21,SEQUENCE_IDENTIFIER#22,TAX_NUMBER#23,WINDOW_NUMBER#24] PushedFilters: [IsNotNull(FEATURE)], ReadSchema: …
Run Code Online (Sandbox Code Playgroud)

hbase scala phoenix apache-spark apache-spark-sql

Eti*_*ibu

2017 09-20

4
推荐指数

1
解决办法

1345
查看次数

使用Apache Spark多次插入表中

我正在研究一个项目,我坚持以下方案.

我有一张桌子:superMerge(id,name,salary)

我有另外两个表:table1和table2

所有表(table1,table2和superMerge)具有相同的结构.

现在,我的挑战是从table1和table2插入/更新superMerge表.table1每10分钟更新一次,table2每20分钟更新一次因此在时间t = 20分钟我有2个工作试图更新同一个表(在这种情况下是superMerge.)

我想了解如何使用Spark或任何其他hadoop应用程序实现此并行插入/更新/合并到superMerge表中.

hadoop phoenix bigdata apache-spark

GKV*_*GKV

2017 10-30

4
推荐指数

1
解决办法

1208
查看次数

nilify_all、nothing 和 delete_all 之间的 Ecto.Schema 差异？

我正在Phoenix 应用程序中为我的模型user和role模型定义架构。角色has_many用户和用户belongs_to角色。似乎有 3 个不同的on_delete:选项：nilify_all、nothing（默认）和delete_all.

当我查看Ecto.Schema页面时，我并没有真正找到每个页面的定义。

、和-之间有什么区别nilify_all，我应该什么时候使用它们？nothingdelete_all

schema phoenix ecto

Igg*_*ggy

lucky-day

4
推荐指数

1
解决办法

758
查看次数

doctest 凤凰上下文

我是 elixir 和 phoenix 的新手，我想对新创建的上下文进行 doctest（使用mix phx.gen.context）。

我有一个Accounts带有User架构的上下文。

我添加accounts_test.exs了以下几行：

alias MyApp.Accounts.User doctest MyApp.Accounts.User, import: true
Run Code Online (Sandbox Code Playgroud)
甚至修复了默认change_user文档：

- %Ecto.Changeset{source: %User{}} + %Ecto.Changeset{data: %User{}}
Run Code Online (Sandbox Code Playgroud)
但是我仍然有很多很多错误和警告，好像它基本上不是用来进行 doctested 的...

例如，默认生成的文档放置：

即> update_user(user, %{field: new_value})
{:ok, %User{}}

这会发出：
警告：变量“new_value”不存在并且正在扩展为“new_value()”...
警告：变量“user”不存在并且正在扩展为“user()”...
test/ my_app/accounts_test.exs:45: 未定义函数 new_value/0
test/my_app/accounts_test.exs:45: 未定义函数 user/0

我的问题是：有什么我想念的吗？或者 doctest 一个人的上下文通常不常见（这可以解释为什么它不能开箱即用）

testing phoenix elixir

Geo*_*roy

2019 06-06

3
推荐指数

1
解决办法

220
查看次数

Elixir 和字符串中的多个替换字符

我是一个初学者，使用旧数据库，其中的字符?,?,?,? 被保存，就像;;;ca ...它是带有 Phoenix 框架的 Elixir 语言。我想在代码中多次替换该字符，我有一个功能：

def convert_content(content) do content = String.replace(content, ";;;ca", "?") content = String.replace(content, ";;;ea", "?") content = String.replace(content, ";;;d1", "?") content = String.replace(content, ";;;f1", "?") end
Run Code Online (Sandbox Code Playgroud)
但它很慢..我找到了https://github.com/elixir-lang/elixir/pull/4474但它不起作用。感谢帮助。

phoenix elixir

hun*_*ary

2020 02-05

3
推荐指数

2
解决办法

1319
查看次数

凤凰的盐桶数量如何选择？

Apache Phoenix 允许创建将数据分布在区域服务器上的加盐表。例如

CREATE TABLE table (a_key VARCHAR PRIMARY KEY, a_col VARCHAR) SALT_BUCKETS = 20;
Run Code Online (Sandbox Code Playgroud)
为了使用此功能，必须选择多个盐桶。这个盐桶数量怎么选？它应该基于区域服务器的数量吗？如果我打算稍后添加更多区域服务器怎么办？

hbase phoenix

Luí*_*hin

lucky-day

2
推荐指数

1
解决办法

3357
查看次数

从Elixir中的列表中删除最后一个元素？

您如何简单地从本示例的末尾删除20？

[46, 238, 64, 30, 105, 136, 98, 75, 23, 157, 11, 20]
Run Code Online (Sandbox Code Playgroud)

phoenix elixir

glu*_*ler

2018 09-14

2
推荐指数

2
解决办法

1150
查看次数

是什么？或者！最后一个 Elixir 函数做什么？

Elixir 函数末尾的!or?是什么意思？这是语言的特殊之处还是特定包的特殊之处？

ExAws.S3.list_buckets() |> ExAws.request!()
Run Code Online (Sandbox Code Playgroud)

phoenix elixir

cha*_*nor

lucky-day

2
推荐指数

1
解决办法

318
查看次数

标签统计

phoenix ×10

elixir ×4

hbase ×3

apache-spark ×2

apache-spark-sql ×1

avro ×1

bigdata ×1

brunch ×1

ecto ×1

elm ×1

hadoop ×1

java ×1

scala ×1

schema ×1

testing ×1

标签 统计

标签统计