小编Pra*_*ode的帖子

Java中的相似性字符串比较

我想比较几个字符串,找到最相似的字符串.我想知道是否有任何库,方法或最佳实践将返回我哪些字符串更类似于其他字符串.例如:

  • "快狐跳了起来" - >"狐狸跳了"
  • "快速狐狸跳了" - >"狐狸"

这种比较将返回第一个比第二个更相似.

我想我需要一些方法,例如:

double similarityIndex(String s1, String s2)
Run Code Online (Sandbox Code Playgroud)

某处有这样的事吗?

编辑:我为什么这样做?我正在编写一个脚本,将MS Project文件的输出与处理任务的某些遗留系统的输出进行比较.由于遗留系统的字段宽度非常有限,因此在添加值时,将缩写描述.我想要一些半自动的方式来查找MS Project中哪些条目与系统上的条目类似,这样我就可以获得生成的密钥.它有缺点,因为它必须仍然手动检查,但它会节省大量的工作

java string-comparison

103
推荐指数
7
解决办法
10万
查看次数

在spark数据帧写入方法中覆盖特定分区

我想覆盖特定的分区而不是所有的火花.我正在尝试以下命令:

df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
Run Code Online (Sandbox Code Playgroud)

其中df是具有要覆盖的增量数据的数据帧.

hdfs-base-path包含主数据.

当我尝试上面的命令时,它会删除所有分区,并在hdfs路径中插入df中存在的分区.

我的要求是只覆盖指定hdfs路径中df中存在的那些分区.有人可以帮我吗?

apache-spark apache-spark-sql spark-dataframe

52
推荐指数
6
解决办法
5万
查看次数

Hbase快速计算行数

现在我ResultScanner像这样实现行计数

for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
    number++;
}
Run Code Online (Sandbox Code Playgroud)

如果数据达到数百万计算时间很大.我想实时计算我不想使用Mapreduce

如何快速计算行数.

hadoop hbase bigdata

49
推荐指数
6
解决办法
10万
查看次数

从Android上的URL简单解析JSON并在listview中显示

我正在尝试解析从我的Android应用程序中的URL获取的JSON结果...

我在互联网上尝试了一些例子,但无法让它发挥作用.JSON数据如下所示:

[
    {
        "city_id": "1",
        "city_name": "Noida"
    },
    {
        "city_id": "2",
        "city_name": "Delhi"
    },
    {
        "city_id": "3",
        "city_name": "Gaziyabad"
    },
    {
        "city_id": "4",
        "city_name": "Gurgaon"
    },
    {
        "city_id": "5",
        "city_name": "Gr. Noida"
    }
]
Run Code Online (Sandbox Code Playgroud)

获取URL并解析JSON数据的最简单方法是在列表视图中显示它

android json

47
推荐指数
3
解决办法
18万
查看次数

上传列表以从火花数据框中选择多个列

我有一个火花数据框df.有没有办法使用这些列的列表选择几列?

scala> df.columns
res0: Array[String] = Array("a", "b", "c", "d")
Run Code Online (Sandbox Code Playgroud)

我知道我可以做点什么df.select("b", "c").但是假设我有一个包含几个列名的列表val cols = List("b", "c"),有没有办法将它传递给df.select?df.select(cols)抛出错误.像df.select(*cols)python中的东西

apache-spark apache-spark-sql spark-dataframe

47
推荐指数
3
解决办法
5万
查看次数

38
推荐指数
1
解决办法
7万
查看次数

创建索引映射时出错

我试图更改索引的映射,但收到错误.以下是我创建索引的步骤

  • 通过python脚本填充索引来创建索引
  • 使用以下代码设置映射:

    PUT /myidx/orderrow/_mapping
    {
        "orderrow": {
            "properties": {
                "item_code": {
                    "type": "string", 
                    "index": "not_analyzed"
                }
            }
        }
    }
    
    Run Code Online (Sandbox Code Playgroud)

这是我收到的错误消息:

{
   "error": "MergeMappingException[Merge failed with failures {[mapper [item_code] has different index values, mapper [item_code] has different `norms.enabled` values, mapper [item_code] has different tokenize values, mapper [item_code] has different index_analyzer]}]",
   "status": 400
}
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

elasticsearch

28
推荐指数
1
解决办法
2万
查看次数

如何避免在保存DataFrame时生成crc文件和SUCCESS文件?

我使用以下代码将spark DataFrame保存到JSON文件

unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
Run Code Online (Sandbox Code Playgroud)

输出结果是:

part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
Run Code Online (Sandbox Code Playgroud)
  1. 如何生成单个JSON文件而不是每行文件?
  2. 如何避免*crc文件?
  3. 如何避免SUCCESS文件?

json apache-spark spark-dataframe

20
推荐指数
3
解决办法
1万
查看次数

如何在使用JAR运行spark-submit时将程序参数传递给main函数?

我知道这是一个微不足道的问题,但我在互联网上找不到答案.

我正在尝试使用main带有程序参数(String[] args)的函数运行Java类.

但是,当我提交作业spark-submit并使用程序参数时,就像我一样

java -cp <some jar>.jar <Some class name> <arg1> <arg2>
Run Code Online (Sandbox Code Playgroud)

它不读args.

我试过的命令是

bin/spark-submit analytics-package.jar --class full.package.name.ClassName 1234 someargument someArgument
Run Code Online (Sandbox Code Playgroud)

这给了

Error: No main class set in JAR; please specify one with --class
Run Code Online (Sandbox Code Playgroud)

当我尝试时:

bin/spark-submit --class full.package.name.ClassName 1234 someargument someArgument analytics-package.jar 
Run Code Online (Sandbox Code Playgroud)

我明白了

Warning: Local jar /mnt/disk1/spark/1 does not exist, skipping.
java.lang.ClassNotFoundException: com.relcy.analytics.query.QueryAnalytics
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.util.Utils$.classForName(Utils.scala:176)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:693)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:183)
    at …
Run Code Online (Sandbox Code Playgroud)

java apache-spark

18
推荐指数
2
解决办法
4万
查看次数

当docker-maven插件尝试构建映像时会发生什么?

我在一个docker容器中运行Jenkins,Jenkins尝试运行我的maven构建.作为构建的一部分,docker maven插件指示它构建一个docker镜像.

POM的那部分在下面.

<plugin>
    <groupId>com.spotify</groupId>
    <artifactId>docker-maven-plugin</artifactId>
    <version>0.3.8</version>
    <configuration>
        <imageName>example</imageName>
        <baseImage>java:latest</baseImage>
        <skipDockerBuild>false</skipDockerBuild>
        <cmd>["java", "-jar", "myLogThread-jar-with-dependencies.jar"]</cmd>
        <resources>
            <resource>
                <directory>target/</directory>
                <include>config.properties</include>
            </resource>
            <resource>
                <directory>${project.build.directory}</directory>
                <include>myLogThread-jar-with-dependencies.jar</include>
            </resource>
        </resources>
    </configuration>
</plugin>
Run Code Online (Sandbox Code Playgroud)

maven构建一直运行,直到它尝试构建映像,此时出现以下错误消息:

[INFO] Building image example
[INFO] I/O exception (java.io.IOException) caught when processing request to {}->unix://localhost:80: Permission denied
Run Code Online (Sandbox Code Playgroud)

我可以进入正确的目录,Dockerfile就在那里.

我也可以运行sudo docker build .,它将构建没有问题的图像.

为什么maven构建失败?对localhost有什么要求:80?我如何纠正这个,以便maven可以建立我的形象?

注意:我已将docker socket和binary安装在此容器中

permissions plugins maven jenkins docker

17
推荐指数
1
解决办法
6880
查看次数