小编vik*_*ana的帖子

如何在Makefile中定义C++预处理器变量

我有一个像这样写的C++预处理器:

  #ifdef cpp_variable
   //x+y;
  #endif

Run Code Online (Sandbox Code Playgroud)

请有人告诉我如何在Makefile中定义它.

谢谢!

c++ makefile

Joe*_*oel

2019 09-30

41
推荐指数

4
解决办法

6万
查看次数

Flask SQLAlchemy按值或其他值过滤

我有一个Flask项目,通过Flask-SQLAlchemy与MySQL数据库交互.

我的问题是,如何根据值或其他值从数据库中选择一行.

我在SQL中想要的结果看起来像这样

SELECT id FROM users WHERE email=email OR name=name;

Run Code Online (Sandbox Code Playgroud)

如何在Flask-SQLAlchemy中实现这一目标？

python mysql flask-sqlalchemy

Mic*_*rie

2019 09-13

9
推荐指数

3
解决办法

2万
查看次数

广播哈希联接-迭代

当我们有一个足够小以适合内存的数据帧时，我们在Spark中使用广播哈希联接。当小数据框的大小小于以下时，spark.sql.autoBroadcastJoinThreshold 我对此几乎没有疑问。

我们提示广播的小数据帧的生命周期是多少？它会在内存中保留多长时间？我们如何控制它？

例如，如果我使用广播哈希连接将大型数据框与小型数据框连接了两次。第一次执行联接时，它将把小数据帧广播到工作节点并执行联接，同时避免大数据帧数据的混排。

我的问题是，执行者将保留广播数据帧的副本多长时间？它会保留在内存中直到会话结束吗？否则，一旦我们采取任何措施，它将被清除。我们可以控制还是清除它？或者我只是在错误的方向上思考...

apache-spark apache-spark-sql pyspark

vik*_*ana

2019 05-12

8
推荐指数

1
解决办法

755
查看次数

如何将数据框结果保存到数据块中的表中？

我正在尝试将已转换为数据帧的单词列表保存到 databricks 中的表中，以便稍后在集群重新启动时查看或引用它。

我已经尝试了下面的代码，但它一直给我一个错误或确实运行，但我看不到数据库中的表

myWords_External=[['this', 'is', 'my', 'world'],['this', 'is', 'the', 'problem']]
df1 = pd.DataFrame(myWords_External)
df1.write.mode("overwrite").saveAsTable("temp.eehara_trial_table_9_5_19")

Run Code Online (Sandbox Code Playgroud)

最后一行给了我以下错误

AttributeError: 'DataFrame' object has no attribute 'write'

Run Code Online (Sandbox Code Playgroud)

python nlp databricks

Eka*_*ara

2019 09-07

8
推荐指数

1
解决办法

7万
查看次数

如何仅将csv文件中的特定列加载到DataFrame中

假设我有一个包含400列的csv文件.我无法将整个文件加载到DataFrame中(不适合内存).但是,我只想要50列,这将适合内存.我没有看到任何内置的Pandas方式来做到这一点.你有什么建议？我愿意使用PyTables接口或pandas.io.sql.

最好的情况是像pandas.read_csv(....,columns = ['name','age',...,'income'])这样的函数.即我们传递将要加载的列名(或数字)列表.

python csv pandas

Ian*_*ore

2019 09-07

7
推荐指数

2
解决办法

5356
查看次数

过滤 Spark 分区表在 Pyspark 中不起作用

我正在使用 Spark 2.3，并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建 Hive 分区表。

newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table')

Run Code Online (Sandbox Code Playgroud)

这是我的表结构和分区信息。

hive> desc emp.partition_Load_table;
OK
veh_code                varchar(17)
veh_flag                varchar(1)
veh_model               smallint
veh_country             varchar(3)

# Partition Information
# col_name              data_type               comment

veh_country              varchar(3)

hive> show partitions partition_Load_table;
OK
veh_country=CHN
veh_country=USA
veh_country=RUS

Run Code Online (Sandbox Code Playgroud)

现在我正在数据框中的 pyspark 中读回该表。

    df2_data = spark.sql("""
    SELECT * 
    from udb.partition_Load_table
    """);

df2_data.show() --> is working

Run Code Online (Sandbox Code Playgroud)

但我无法使用分区键列过滤它

from pyspark.sql.functions import col
newdf = df2_data.where(col("veh_country")=='CHN')

Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息：

: java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. 
You can set the …

Run Code Online (Sandbox Code Playgroud)

hive partitioning pyspark

vik*_*ana

2018 11-19

7
推荐指数

1
解决办法

1万
查看次数

spark [dataframe].write.option("mode","overwrite").saveAsTable("foo") 如果 foo 存在，则失败并显示“已存在”

我想我在 spark 中看到了一个错误，其中不遵守“覆盖”模式，而是在尝试将 saveAsTable 执行到已经存在的表中时抛出异常（使用模式“覆盖”）。

下面是一个重现问题的小脚本。最后一条语句导致堆栈跟踪读数：

 org.apache.spark.sql.AnalysisException: Table `example` already exists.;

Run Code Online (Sandbox Code Playgroud)

任何建议非常感谢。

spark.sql("drop table if exists example ").show()
case class Person(first: String, last: String, age: Integer)
val df = List(
    Person("joe", "x", 9),
    Person("fred", "z", 9)).toDF()
df.write.option("mode","overwrite").saveAsTable("example")

val recover1 = spark.read.table("example")
recover1.show()


val df3 = List(
    Person("mouse", "x", 9),
    Person("golf", "z", 9)).toDF()

 df3.write.
    option("mode","overwrite").saveAsTable("example")      

val recover4 = spark.read.table("example")
recover4.show()

Run Code Online (Sandbox Code Playgroud)

sql scala overwrite apache-spark

Chr*_*ord

2019 08-06

7
推荐指数

1
解决办法

1万
查看次数

如何在 apache ubuntu 12.04 中为 node.js 创建虚拟主机

我基本上是 php 开发人员，并将开始使用 Node.js。我已经在 ubuntu 12.04 上安装了 node.js。之后我测试了 http(http.js) 工作正常。这里我需要知道如何使用我的系统创建像http://192.168.1.1:5001这样的虚拟主机，以及如何使用apache服务器创建特定的路由文件（如index.php）。我参考了很多链接，但没有得到这个问题的良好解决方案。

javascript php apache ubuntu node.js

san*_*ppa

2019 08-25

6
推荐指数

1
解决办法

1397
查看次数

需要一个包含至少一个数字,零个或多个字母,没有空格,最小/最大的正则表达式

我需要一个匹配包含以下内容的字符串的正则表达式:

至少一个号码
零个或多个字母
没有其他字符,如空格

该字符串也必须至少包含8个字符,最多13个字符.

在8-13字符串中放置数字和/或字母无关紧要.我还没弄明白如何确保字符串包含数字,但是这里有一些表达式不起作用,因为它们在在线工具Regexr中占用了空格:

([\ W ^ /秒]){8,13}
([A-ZA-Z0-9]){8,13}
([A-ZA-Z\d]){8,13}

我特意想要排除空格和特殊字符.链接和相关问题似乎都允许这些字符.这不是用于验证密码,而是用于检测自然语言处理中的案例编号.这不同于"密码REGEX与最少6个字符,至少一个字母和一个数字,可能包含特殊字符",因为我正在寻找至少一个数字,但零或更多的字母.我也不想返回包含任何特殊字符(包括空格)的字符串.

regex

use*_*294

2019 09-08

6
推荐指数

1
解决办法

5681
查看次数

如何在Pyspark中检查Spark分区中的特定分区数据

我在我的hive表中在pyspark中创建了两个数据帧:

data1 = spark.sql("""
   SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE
   from MODEL_TABLE1 where COUNTRY_CODE in ('IND','CHN','USA','RUS','AUS')
""");

Run Code Online (Sandbox Code Playgroud)

每个国家/地区都有数百万字母数字格式的唯一ID.

data2 = spark.sql("""
   SELECT ID,MODEL_NUMBER, MODEL_YEAR, COUNTRY_CODE
   from MODEL_TABLE2 where COUNTRY_CODE in ('IND','CHN')
""");

Run Code Online (Sandbox Code Playgroud)

我想在ID列上使用pyspark加入这两个数据帧.

我们如何重新划分数据,使其在分区中均匀分布.

我可以使用下面的数据来修复我的数据吗？

newdf1 = data2.repartition(100, "ID")
newdf2 = data2.repartition(100, "ID")

Run Code Online (Sandbox Code Playgroud)

什么是分区的最佳方式,以便加快工作？

hadoop-partitioning pyspark

vik*_*ana

2018 10-04

6
推荐指数

1
解决办法

1791
查看次数

标签统计

pyspark ×3

python ×3

apache-spark ×2

apache ×1

apache-spark-sql ×1

c++ ×1

csv ×1

databricks ×1

flask-sqlalchemy ×1

hadoop-partitioning ×1

hive ×1

javascript ×1

makefile ×1

mysql ×1

nlp ×1

node.js ×1

overwrite ×1

pandas ×1

partitioning ×1

php ×1

regex ×1

scala ×1

sql ×1

ubuntu ×1

我在SQL中想要的结果看起来像这样

标签 统计

小编vik_ana的帖子

标签统计