小编vik*_*ana的帖子

如何在 apache ubuntu 12.04 中为 node.js 创建虚拟主机

我基本上是 php 开发人员,并将开始使用 Node.js。我已经在 ubuntu 12.04 上安装了 node.js。之后我测试了 http(http.js) 工作正常。这里我需要知道如何使用我的系统创建像http://192.168.1.1:5001这样的虚拟主机,以及如何使用apache服务器创建特定的路由文件(如index.php)。我参考了很多链接,但没有得到这个问题的良好解决方案。

javascript php apache ubuntu node.js

6
推荐指数
1
解决办法
1397
查看次数

如何使用 PySpark 检查 Hive 表是否存在

我想使用以下命令检查schemaname.tablenameHive 中是否存在表pysparkSQL.

Scala 中有一个选项。spark.catalog.tableExists("schemaname.tablename")但是,相同的功能无法通过pySpark.

寻找一种快速而干净的方法来检查 Hive 表是否存在使用 PySpark

python-2.7 apache-spark-sql pyspark

6
推荐指数
3
解决办法
4519
查看次数

Python-排除两个日期之间的周末

我想计算两个日期之间的差额,但想从中排除周末。以下是日期格式:

CreateDate  - 2017-08-29 10:47:00
ResolveDate - 2017-09-23 16:56:00
Run Code Online (Sandbox Code Playgroud)

python datetime python-2.7

5
推荐指数
2
解决办法
2634
查看次数

使用自定义分区器在 Pyspark 中对数据帧进行分区

寻找有关在 Pyspark 中使用自定义分区器的一些信息。我有一个包含各个国家/地区的国家/地区数据的数据框。因此,如果我对国家/地区列进行重新分区,它会将我的数据分布到 n 个分区中,并将类似的国家/地区数据保留到特定分区。当我看到 usingglom()方法时,这是在创建偏斜分区数据。

美国和中国等一些国家/地区在特定数据帧中拥有大量数据。我想重新分区我的数据帧,如果国家是美国和中国,那么它将进一步分成大约 10 个分区,其他国家的分区保持不变,如 IND、THA、AUS 等。我们可以在 Pyspark 代码中扩展分区器类吗?

我在下面的链接中读到了这个,我们可以在 scala Spark 应用程序中扩展 scala partitioner 类,并且可以修改 partitioner 类以使用自定义逻辑根据需求重新分区我们的数据。就像我所拥有的.. 请帮助在 Pyspark 中实现此解决方案.. 请参阅下面的链接按列分区但保持固定分区数的有效方法是什么?


我使用的是 Spark 版本 2.3.0.2,以下是我的 Dataframe 结构:

datadf= spark.sql("""
    SELECT    
        ID_NUMBER ,SENDER_NAME ,SENDER_ADDRESS ,REGION_CODE ,COUNTRY_CODE
    from udb.sometable
""");
Run Code Online (Sandbox Code Playgroud)

输入数据有六个国家,如数据AUSINDTHARUSCHNUSACHN并且USA有偏斜数据。

所以,如果我做repartitionCOUNTRY_CODE,两个分区中含有大量的数据,而其他人都很好。我使用glom()方法检查了这个。

newdf = datadf.repartition("COUNTRY_CODE")

from pyspark.sql import SparkSession
from pyspark.sql import …
Run Code Online (Sandbox Code Playgroud)

apache-spark-sql pyspark

5
推荐指数
2
解决办法
4298
查看次数

对 Hive 表执行验证和检查(可能不是重复的)

我们知道 Hive 不会根据字段验证数据,用户有责任手动检查数据。我知道我们可以执行一些基本检查来验证数据。

  1. 计算记录数。
  2. 每列上的空值数
  3. 每列上唯一/不同值的数量
  4. 基于列/数据类型的列级统计数据,如最小值、最大值等
  5. 使用 Hive 的内置函数 to_date 和其他函数来检查日期列的验证

我确信我们可以执行更多的检查或验证来验证 Hive 表上的数据。任何建议最欢迎。

sql hive hiveql

5
推荐指数
1
解决办法
682
查看次数

在数据框列表中查找元素

我有一个数据框“ df1”:

adj           response

beautiful    ["She's a beautiful girl/woman, and also a good teacher."]
good         ["She's a beautiful girl/woman, and also a good teacher."]
hideous      ["This city is hideous, let's move to the countryside."]
Run Code Online (Sandbox Code Playgroud)

这是对象列表:

object=["girl","teacher","city","countryside","woman"]
Run Code Online (Sandbox Code Playgroud)

码:

df1['response_split']=df1['response'].str.split(",")
Run Code Online (Sandbox Code Playgroud)

拆分后,数据框将如下所示:

adj           response_split

beautiful    ["She's a beautiful girl/woman", " and also a good teacher."]
good         ["She's a beautiful girl/woman", " and also a good teacher."]
hideous      ["This city is hideous", " let's move to the countryside."]
Run Code Online (Sandbox Code Playgroud)

我想添加另一列“ response_object”,如果他们找到响应的adj,则从列表对象中找到其对象:预期结果

adj           response_split                                               response_object …
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

5
推荐指数
1
解决办法
71
查看次数

在 Hadoop 中使用 apache airflow 配置 MySql 时遇到问题

我试图在具有以下配置/版本的三个节点的开发 Hadoop 集群上安装和配置 apache Airflow:

\n\n
Operating System: Red Hat Enterprise Linux Server 7.7\npython 3.7.3\nanaconda 2\nspark 2.45\n\na)sudo yum install gcc gcc-c++ -y\nb)sudo yum install libffi-devel mariadb-devel cyrus-sasl-devel -y\nc)pip install \'apache-airflow[all]\'\nd)airflow initdb  -- airflow.cfgfile was created with SQLlite\n
Run Code Online (Sandbox Code Playgroud)\n\n

然后我按照下面的命令集使用 mysql 配置它

\n\n
a) rpm -Uvh\xc2\xa0https://repo.mysql.com/mysql80-community-release-el7-3.noarch.rpm \nb) sed -i \'s/enabled=1/enabled=0/\' /etc/yum.repos.d/mysql-community.repo \nc) yum --enablerepo=mysql80-community install mysql-community-server \nd) systemctl start mysqld.service\n
Run Code Online (Sandbox Code Playgroud)\n\n

在 mysql 中完成以下操作

\n\n
a) CREATE DATABASE airflow CHARACTER SET utf8 COLLATE utf8_unicode_ci; \nb) create user \'airflow\'@\'localhost\' identified by \'Airflow123\'; …
Run Code Online (Sandbox Code Playgroud)

mysql linux hadoop python-3.x airflow

5
推荐指数
1
解决办法
1766
查看次数

使用 PySpark 从表中识别分区键列

我需要帮助来使用 PySpark 查找 Hive 表的唯一分区列名称。该表可能有多个分区列,并且最好输出应返回 Hive 表的分区列列表。

如果结果还包括分区列的数据类型,那就太好了。

任何建议都会有帮助。

python-2.7 apache-spark-sql pyspark

4
推荐指数
2
解决办法
8752
查看次数

SQL Server导入向导将NULL视为文字字符串'NULL'

当我尝试将.csv逗号分隔的平面文件导入Microsoft SQL Server 2008R2 64位实例时,对于字符串列,原始数据中的NULL变为文字字符串"NULL",并且在数字列中我收到导入错误.谁能请帮忙??? 提前致谢!

sql-server csv import null flat-file

3
推荐指数
2
解决办法
1万
查看次数

Apche POI在读取xlsx文件时获取单元格颜色

您好所有我读一个xlsx使用文件XSSFApche POI.现在我想读取单元格的颜色并在新xlsx文件上应用相同的颜色.我该怎么做 我的代码是:

public void readXLSXFile(String filePath) throws FileNotFoundException, IOException
    {
        XSSFRow row;
        XSSFRow new_row;
        XSSFSheet sheet;
        XSSFCell cell;
        XSSFCell new_cell;
        XSSFCellStyle cellStyle;
        XSSFDataFormat dataFormat;
        XSSFColor color;

        XSSFWorkbook xssfWorkbook = new XSSFWorkbook(new FileInputStream(filePath));
        XSSFWorkbook workbook = new XSSFWorkbook();
        XSSFSheet new_sheet = (XSSFSheet) workbook.createSheet();
        for(int i = 0; i < xssfWorkbook.getNumberOfSheets(); i++ )
        {
            sheet = xssfWorkbook.getSheetAt(i);
            for(int j =0; j<sheet.getLastRowNum(); j++)
            {
                row = (XSSFRow) sheet.getRow(j);
                new_row = new_sheet.createRow(j);
                for(int k = …
Run Code Online (Sandbox Code Playgroud)

java apache-poi

2
推荐指数
1
解决办法
9484
查看次数