我使用以下内容:
import java.util.Collections;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import org.apache.commons.configuration.XMLConfiguration;
Run Code Online (Sandbox Code Playgroud)
我得到:
The type org.apache.commons.lang.exception.NestableException cannot be resolved. It is indirectly referenced from required .class files
Run Code Online (Sandbox Code Playgroud)
我正在使用eclipse ...
我怎么解决这个问题?他提供我配置构建路径,但我真的不知道如何从那里解决这个碰撞.....
我正在尝试sqlcmd使用以下命令从文件运行sql脚本:
sqlcmd -S <server> -d <database> -i <input file> -o <output file>
-U <user> -P <password>
Run Code Online (Sandbox Code Playgroud)
我运行我的sql文件并输出到日志文件.
问题是这改变了sqlcmd文件的输出..我想得到输出到shell.
我想保留事件进入公交车的顺序.例如,如果event1然后event2输入到总线,那么订阅的actor将按顺序获取它们.
问题是如果这种顺序是保证的,无论是在集群节点还是在单节点演员系统上.
我有一个奇怪的SQL Server问题.
使用以下查询:
SELECT id FROM table WHERE id IN ('id1', 'id2', .......)
Run Code Online (Sandbox Code Playgroud)
当id是nchar(30)和'id1','id2'是值时,我得到的结果不在我输入的值中.
SQL Server是否可能正在搜索值中包含的字符串?
查询:
SELECT Word FROM WordDictionary WHERE Word IN ('DESPERADO', 'WWW.MYSAVINGS.COM', 'RELIED', 'GALS/GUYS....U', 'MISSOULA', 'STARING...WHY', 'OHIO,,,WHAT', 'ALEYO"MEANS', 'EXCRETE', 'POETERS', 'REMOVAL?IF', 'MOTOT', 'VIEW/SOUND', 'SCHOLD', 'FLINGS', '300000', 'BIGBANG', 'INVOKE', 'COMPLIER', 'UPNISHAD', 'FLUFF/LINT', 'DONATED?..PLEASE', 'EPHEDRINE', 'AGAIN-', 'WHUNT', 'LEVE', 'ARIEL', 'SEIZURES,AND', 'ANYON', 'WELL~AS', 'GGGGGGGGOOOOOOOOOOOOOOOOODDDDD', 'ALGERIA', 'LONDON...CAN', 'TWAIN''S', 'BUTIFUL', 'CIRRHIOSIS', 'PHP-NUKE', 'SCREWD', 'RECONNECT', 'BAND...''SIGUR', 'ROS''', 'DEFLEPOARD', 'FIHGT', 'DRE''S', 'ACQUAINTED', '77067', 'INCREASE/DECREASE', 'AWHILE..SHOULD', 'BABY???..MORE', 'CHRISTEN', 'SUNSLIFE', 'HYANCINTHS', 'NOVEMEBER', 'IEEE', 'IRENE', …Run Code Online (Sandbox Code Playgroud) 假设我有一个包含(Int,Int)元组的RDD.我希望把它变成一个Vector,其中元组中的第一个Int是索引,第二个是值.
任何想法我该怎么做?
我更新了我的问题并添加了我的解决方案以澄清:我的RDD已经被密钥减少了,并且密钥的数量是已知的.我想要一个向量来更新单个累加器而不是多个累加器.
我的最终解决方案是:
reducedStream.foreachRDD(rdd => rdd.collect({case (x: Int,y: Int) => {
val v = Array(0,0,0,0)
v(x) = y
accumulator += new Vector(v)
}}))
Run Code Online (Sandbox Code Playgroud)
Vector在文档中使用累加器示例.
我想知道使用sparks mapPartitions功能与瞬态lazy val有什么不同.
由于每个分区基本上都在不同的节点上运行,因此将在每个节点上创建一个瞬态延迟val实例(假设它在一个对象中).
例如:
class NotSerializable(v: Int) {
def foo(a: Int) = ???
}
object OnePerPartition {
@transient lazy val obj: NotSerializable = new NotSerializable(10)
}
object Test extends App{
val conf = new SparkConf().setMaster("local[2]").setAppName("test")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.parallelize(1 to 100000)
rdd.map(OnePerPartition.obj.foo)
// ---------- VS ----------
rdd.mapPartitions(itr => {
val obj = new NotSerializable(10)
itr.map(obj.foo)
})
}
Run Code Online (Sandbox Code Playgroud)
有人可能会问,为什么你甚至想它......
我想创建一个普通的容器概念运行在任何泛型集合实现我的逻辑(RDD,List,scalding pipe等),
他们都具有的"地图"一个概念,但是mapPartition是独一无二的spark.
有没有人知道为什么我仍然得到0由于:
SELECT [KnowItAll].[dbo].[VSM_CanculateTermFrequency] (
'hello hi hello by hello why'
,'hi')
GO
Run Code Online (Sandbox Code Playgroud)
哪里有VSM_CanculateTermFrequency:
CREATE FUNCTION [dbo].[VSM_CanculateTermFrequency]
(
@i_Document NCHAR(4000),
@i_Term NCHAR(30)
)
RETURNS SMALLINT
AS
BEGIN
-- Declare the return variable here
DECLARE @TermFrequency SMALLINT
DECLARE @pos INT
DECLARE @nextpos INT
SELECT @pos = 0, @nextpos = 1, @TermFrequency = 0
WHILE @nextpos > 0
BEGIN
SELECT @nextpos = CHARINDEX(@i_Term,@i_Document)
SELECT @TermFrequency = CASE
WHEN @nextpos > 0 THEN @TermFrequency + 1
ELSE @TermFrequency
END
SELECT @pos = @nextpos
END …Run Code Online (Sandbox Code Playgroud) 我正面临着一个奇怪的问题,试图从sql server迁移到oracle.在我的一个表中,我有一个列定义NVARCHAR(255)
后,我读了一下,我知道SQL服务器在oracle count字节时计算字符.所以我在oracle中将我的表定义为VARCHAR(510)255*2 = 510但是当使用sqlldr从制表符分隔文本文件加载数据时,我得到错误,表明某些条目已经超出了此列的长度.在使用以下命令检入sql server之后:
SELECT MAX(DATALENGTH(column))
FROM table
Run Code Online (Sandbox Code Playgroud)
我得到的最大数据长度是510.
我确实使用了Hebrew_CI_AS collationg,即使我不认为它会改变任何东西....我在SQL Server中检查过,如果任何条目包含TAB但没有...所以我猜它不是一个损坏的数据....任何人都有一个主意?
编辑 进一步检查后,我注意到问题是由于数据文件(除了@Justin Cave post解决的问题).
我已将行分隔符更改为"^",因为我的数据都不包含此字符和"| ^ |" 作为列分隔符.
创建控制文件如下:
load data
infile data.txt "str '^'"
badfile "data_BAD.txt"
discardfile "data_DSC.txt"
into table table
FIELDS TERMINATED BY '|^|' TRAILING NULLCOLS
(
col1,
col2,
col3,
col4,
col5,
col6
)
Run Code Online (Sandbox Code Playgroud)
问题是我的数据包含<CR>和sqlldr期望在那里的流文件失败<CR>!!!! 我不想更改数据,因为它是一个文本数据(例子的错误消息).
我猜这是一个愚蠢的问题,但我在任何地方都找不到答案。
我可以使用log4j.xml配置登录spark吗?
在spark 文档中提到的您可以使用log4j.properties配置日志记录,我希望将log4j.xml用于更高级的log4j功能,例如异步附加程序。我的工作将在通过oozie安排的纱线(CDH)上以群集模式运行。我知道在任何解决方案中都需要使用--files