小编vik*_*ana的帖子

如何在 apache ubuntu 12.04 中为 node.js 创建虚拟主机

我基本上是 php 开发人员，并将开始使用 Node.js。我已经在 ubuntu 12.04 上安装了 node.js。之后我测试了 http(http.js) 工作正常。这里我需要知道如何使用我的系统创建像http://192.168.1.1:5001这样的虚拟主机，以及如何使用apache服务器创建特定的路由文件（如index.php）。我参考了很多链接，但没有得到这个问题的良好解决方案。

javascript php apache ubuntu node.js

san*_*ppa

2019 08-25

6
推荐指数

1
解决办法

1397
查看次数

如何使用 PySpark 检查 Hive 表是否存在

我想使用以下命令检查schemaname.tablenameHive 中是否存在表pysparkSQL.

Scala 中有一个选项。spark.catalog.tableExists("schemaname.tablename")但是，相同的功能无法通过pySpark.

寻找一种快速而干净的方法来检查 Hive 表是否存在使用 PySpark

python-2.7 apache-spark-sql pyspark

use*_*470

2019 10-09

6
推荐指数

3
解决办法

4519
查看次数

Python-排除两个日期之间的周末

我想计算两个日期之间的差额，但想从中排除周末。以下是日期格式：

CreateDate  - 2017-08-29 10:47:00
ResolveDate - 2017-09-23 16:56:00

Run Code Online (Sandbox Code Playgroud)

python datetime python-2.7

Kar*_*nna

2019 09-02

5
推荐指数

2
解决办法

2634
查看次数

使用自定义分区器在 Pyspark 中对数据帧进行分区

寻找有关在 Pyspark 中使用自定义分区器的一些信息。我有一个包含各个国家/地区的国家/地区数据的数据框。因此，如果我对国家/地区列进行重新分区，它会将我的数据分布到 n 个分区中，并将类似的国家/地区数据保留到特定分区。当我看到 usingglom()方法时，这是在创建偏斜分区数据。

美国和中国等一些国家/地区在特定数据帧中拥有大量数据。我想重新分区我的数据帧，如果国家是美国和中国，那么它将进一步分成大约 10 个分区，其他国家的分区保持不变，如 IND、THA、AUS 等。我们可以在 Pyspark 代码中扩展分区器类吗？

我在下面的链接中读到了这个，我们可以在 scala Spark 应用程序中扩展 scala partitioner 类，并且可以修改 partitioner 类以使用自定义逻辑根据需求重新分区我们的数据。就像我所拥有的.. 请帮助在 Pyspark 中实现此解决方案.. 请参阅下面的链接按列分区但保持固定分区数的有效方法是什么？

我使用的是 Spark 版本 2.3.0.2，以下是我的 Dataframe 结构：

datadf= spark.sql("""
    SELECT    
        ID_NUMBER ,SENDER_NAME ,SENDER_ADDRESS ,REGION_CODE ,COUNTRY_CODE
    from udb.sometable
""");

Run Code Online (Sandbox Code Playgroud)

输入数据有六个国家，如数据AUS，IND，THA，RUS，CHN和USA。 CHN并且USA有偏斜数据。

所以，如果我做repartition的COUNTRY_CODE，两个分区中含有大量的数据，而其他人都很好。我使用glom()方法检查了这个。

newdf = datadf.repartition("COUNTRY_CODE")

from pyspark.sql import SparkSession
from pyspark.sql import …

Run Code Online (Sandbox Code Playgroud)

apache-spark-sql pyspark

vik*_*ana

2019 08-28

5
推荐指数

2
解决办法

4298
查看次数

对 Hive 表执行验证和检查（可能不是重复的）

我们知道 Hive 不会根据字段验证数据，用户有责任手动检查数据。我知道我们可以执行一些基本检查来验证数据。

计算记录数。
每列上的空值数
每列上唯一/不同值的数量
基于列/数据类型的列级统计数据，如最小值、最大值等
使用 Hive 的内置函数 to_date 和其他函数来检查日期列的验证

我确信我们可以执行更多的检查或验证来验证 Hive 表上的数据。任何建议最欢迎。

sql hive hiveql

vik*_*ana

2021 05-26

5
推荐指数

1
解决办法

682
查看次数

在数据框列表中查找元素

我有一个数据框“ df1”：

adj           response

beautiful    ["She's a beautiful girl/woman, and also a good teacher."]
good         ["She's a beautiful girl/woman, and also a good teacher."]
hideous      ["This city is hideous, let's move to the countryside."]

Run Code Online (Sandbox Code Playgroud)

这是对象列表：

object=["girl","teacher","city","countryside","woman"]

Run Code Online (Sandbox Code Playgroud)

码：

df1['response_split']=df1['response'].str.split(",")

Run Code Online (Sandbox Code Playgroud)

拆分后，数据框将如下所示：

adj           response_split

beautiful    ["She's a beautiful girl/woman", " and also a good teacher."]
good         ["She's a beautiful girl/woman", " and also a good teacher."]
hideous      ["This city is hideous", " let's move to the countryside."]

Run Code Online (Sandbox Code Playgroud)

我想添加另一列“ response_object”，如果他们找到响应的adj，则从列表对象中找到其对象：预期结果

adj           response_split                                               response_object …

Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

Chi*_*ing

2019 08-13

5
推荐指数

1
解决办法

71
查看次数

在 Hadoop 中使用 apache airflow 配置 MySql 时遇到问题

我试图在具有以下配置/版本的三个节点的开发 Hadoop 集群上安装和配置 apache Airflow：

\n\n

Operating System: Red Hat Enterprise Linux Server 7.7\npython 3.7.3\nanaconda 2\nspark 2.45\n\na)sudo yum install gcc gcc-c++ -y\nb)sudo yum install libffi-devel mariadb-devel cyrus-sasl-devel -y\nc)pip install \'apache-airflow[all]\'\nd)airflow initdb  -- airflow.cfgfile was created with SQLlite\n

Run Code Online (Sandbox Code Playgroud)\n\n

然后我按照下面的命令集使用 mysql 配置它

\n\n

a) rpm -Uvh\xc2\xa0https://repo.mysql.com/mysql80-community-release-el7-3.noarch.rpm \nb) sed -i \'s/enabled=1/enabled=0/\' /etc/yum.repos.d/mysql-community.repo \nc) yum --enablerepo=mysql80-community install mysql-community-server \nd) systemctl start mysqld.service\n

Run Code Online (Sandbox Code Playgroud)\n\n

在 mysql 中完成以下操作

\n\n

a) CREATE DATABASE airflow CHARACTER SET utf8 COLLATE utf8_unicode_ci; \nb) create user \'airflow\'@\'localhost\' identified by \'Airflow123\'; …

Run Code Online (Sandbox Code Playgroud)

mysql linux hadoop python-3.x airflow

vik*_*ana

2020 04-06

5
推荐指数

1
解决办法

1766
查看次数

使用 PySpark 从表中识别分区键列

我需要帮助来使用 PySpark 查找 Hive 表的唯一分区列名称。该表可能有多个分区列，并且最好输出应返回 Hive 表的分区列列表。

如果结果还包括分区列的数据类型，那就太好了。

任何建议都会有帮助。

python-2.7 apache-spark-sql pyspark

use*_*470

2019 09-27

4
推荐指数

2
解决办法

8752
查看次数

SQL Server导入向导将NULL视为文字字符串'NULL'

当我尝试将.csv逗号分隔的平面文件导入Microsoft SQL Server 2008R2 64位实例时,对于字符串列,原始数据中的NULL变为文字字符串"NULL",并且在数字列中我收到导入错误.谁能请帮忙??? 提前致谢!

sql-server csv import null flat-file

Eri*_*son

2019 09-30

3
推荐指数

2
解决办法

1万
查看次数

Apche POI在读取xlsx文件时获取单元格颜色

您好所有我读一个xlsx使用文件XSSF的Apche POI.现在我想读取单元格的颜色并在新xlsx文件上应用相同的颜色.我该怎么做我的代码是:

public void readXLSXFile(String filePath) throws FileNotFoundException, IOException
    {
        XSSFRow row;
        XSSFRow new_row;
        XSSFSheet sheet;
        XSSFCell cell;
        XSSFCell new_cell;
        XSSFCellStyle cellStyle;
        XSSFDataFormat dataFormat;
        XSSFColor color;

        XSSFWorkbook xssfWorkbook = new XSSFWorkbook(new FileInputStream(filePath));
        XSSFWorkbook workbook = new XSSFWorkbook();
        XSSFSheet new_sheet = (XSSFSheet) workbook.createSheet();
        for(int i = 0; i < xssfWorkbook.getNumberOfSheets(); i++ )
        {
            sheet = xssfWorkbook.getSheetAt(i);
            for(int j =0; j<sheet.getLastRowNum(); j++)
            {
                row = (XSSFRow) sheet.getRow(j);
                new_row = new_sheet.createRow(j);
                for(int k = …

Run Code Online (Sandbox Code Playgroud)

java apache-poi

Lal*_*tar

2019 08-22

2
推荐指数

1
解决办法

9484
查看次数