小编vik*_*ana的帖子

如何在Makefile中定义C++预处理器变量

我有一个像这样写的C++预处理器:

  #ifdef cpp_variable
   //x+y;
  #endif
Run Code Online (Sandbox Code Playgroud)

请有人告诉我如何在Makefile中定义它.

谢谢!

c++ makefile

41
推荐指数
4
解决办法
6万
查看次数

Flask SQLAlchemy按值或其他值过滤

我有一个Flask项目,通过Flask-SQLAlchemy与MySQL数据库交互.

我的问题是,如何根据值或其他值从数据库中选择一行.

我在SQL中想要的结果看起来像这样

SELECT id FROM users WHERE email=email OR name=name;
Run Code Online (Sandbox Code Playgroud)

如何在Flask-SQLAlchemy中实现这一目标?

python mysql flask-sqlalchemy

9
推荐指数
3
解决办法
2万
查看次数

广播哈希联接-迭代

当我们有一个足够小以适合内存的数据帧时,我们在Spark中使用广播哈希联接。当小数据框的大小小于以下时,spark.sql.autoBroadcastJoinThreshold 我对此几乎没有疑问。

我们提示广播的小数据帧的生命周期是多少?它会在内存中保留多长时间?我们如何控制它?

例如,如果我使用广播哈希连接将大型数据框与小型数据框连接了两次。第一次执行联接时,它将把小数据帧广播到工作节点并执行联接,同时避免大数据帧数据的混排。

我的问题是,执行者将保留广播数据帧的副本多长时间?它会保留在内存中直到会话结束吗?否则,一旦我们采取任何措施,它将被清除。我们可以控制还是清除它?或者我只是在错误的方向上思考...

apache-spark apache-spark-sql pyspark

8
推荐指数
1
解决办法
755
查看次数

如何将数据框结果保存到数据块中的表中?

我正在尝试将已转换为数据帧的单词列表保存到 databricks 中的表中,以便稍后在集群重新启动时查看或引用它。

我已经尝试了下面的代码,但它一直给我一个错误或确实运行,但我看不到数据库中的表

myWords_External=[['this', 'is', 'my', 'world'],['this', 'is', 'the', 'problem']]
df1 = pd.DataFrame(myWords_External)
df1.write.mode("overwrite").saveAsTable("temp.eehara_trial_table_9_5_19")
Run Code Online (Sandbox Code Playgroud)

最后一行给了我以下错误

AttributeError: 'DataFrame' object has no attribute 'write'
Run Code Online (Sandbox Code Playgroud)

python nlp databricks

8
推荐指数
1
解决办法
7万
查看次数

如何仅将csv文件中的特定列加载到DataFrame中

假设我有一个包含400列的csv文件.我无法将整个文件加载到DataFrame中(不适合内存).但是,我只想要50列,这将适合内存.我没有看到任何内置的Pandas方式来做到这一点.你有什么建议?我愿意使用PyTables接口或pandas.io.sql.

最好的情况是像pandas.read_csv(....,columns = ['name','age',...,'income'])这样的函数.即我们传递将要加载的列名(或数字)列表.

python csv pandas

7
推荐指数
2
解决办法
5356
查看次数

过滤 Spark 分区表在 Pyspark 中不起作用

我正在使用 Spark 2.3,并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建 Hive 分区表。

newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table')
Run Code Online (Sandbox Code Playgroud)

这是我的表结构和分区信息。

hive> desc emp.partition_Load_table;
OK
veh_code                varchar(17)
veh_flag                varchar(1)
veh_model               smallint
veh_country             varchar(3)

# Partition Information
# col_name              data_type               comment

veh_country              varchar(3)

hive> show partitions partition_Load_table;
OK
veh_country=CHN
veh_country=USA
veh_country=RUS
Run Code Online (Sandbox Code Playgroud)

现在我正在数据框中的 pyspark 中读回该表。

    df2_data = spark.sql("""
    SELECT * 
    from udb.partition_Load_table
    """);

df2_data.show() --> is working
Run Code Online (Sandbox Code Playgroud)

但我无法使用分区键列过滤它

from pyspark.sql.functions import col
newdf = df2_data.where(col("veh_country")=='CHN')
Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息:

: java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. 
You can set the …
Run Code Online (Sandbox Code Playgroud)

hive partitioning pyspark

7
推荐指数
1
解决办法
1万
查看次数

spark [dataframe].write.option("mode","overwrite").saveAsTable("foo") 如果 foo 存在,则失败并显示“已存在”

我想我在 spark 中看到了一个错误,其中不遵守“覆盖”模式,而是在尝试将 saveAsTable 执行到已经存在的表中时抛出异常(使用模式“覆盖”)。

下面是一个重现问题的小脚本。最后一条语句导致堆栈跟踪读数:

 org.apache.spark.sql.AnalysisException: Table `example` already exists.;
Run Code Online (Sandbox Code Playgroud)

任何建议非常感谢。

spark.sql("drop table if exists example ").show()
case class Person(first: String, last: String, age: Integer)
val df = List(
    Person("joe", "x", 9),
    Person("fred", "z", 9)).toDF()
df.write.option("mode","overwrite").saveAsTable("example")

val recover1 = spark.read.table("example")
recover1.show()


val df3 = List(
    Person("mouse", "x", 9),
    Person("golf", "z", 9)).toDF()

 df3.write.
    option("mode","overwrite").saveAsTable("example")      

val recover4 = spark.read.table("example")
recover4.show()     
Run Code Online (Sandbox Code Playgroud)

sql scala overwrite apache-spark

7
推荐指数
1
解决办法
1万
查看次数

如何在 apache ubuntu 12.04 中为 node.js 创建虚拟主机

我基本上是 php 开发人员,并将开始使用 Node.js。我已经在 ubuntu 12.04 上安装了 node.js。之后我测试了 http(http.js) 工作正常。这里我需要知道如何使用我的系统创建像http://192.168.1.1:5001这样的虚拟主机,以及如何使用apache服务器创建特定的路由文件(如index.php)。我参考了很多链接,但没有得到这个问题的良好解决方案。

javascript php apache ubuntu node.js

6
推荐指数
1
解决办法
1397
查看次数

需要一个包含至少一个数字,零个或多个字母,没有空格,最小/最大的正则表达式

我需要一个匹配包含以下内容的字符串的正则表达式:

  • 至少一个号码
  • 零个或多个字母
  • 没有其他字符,如空格

该字符串也必须至少包含8个字符,最多13个字符.

在8-13字符串中放置数字和/或字母无关紧要.我还没弄明白如何确保字符串包含数字,但是这里有一些表达式不起作用,因为它们在在线工具Regexr中占用了空格:

  • ([\ W ^ /秒]){8,13}
  • ([A-ZA-Z0-9]){8,13}
  • ([A-ZA-Z\d]){8,13}

我特意想要排除空格和特殊字符.链接和相关问题似乎都允许这些字符.这不是用于验证密码,而是用于检测自然语言处理中的案例编号.这不同于"密码REGEX与最少6个字符,至少一个字母和一个数字,可能包含特殊字符",因为我正在寻找至少一个数字,但零或更多的字母.我也不想返回包含任何特殊字符(包括空格)的字符串.

regex

6
推荐指数
1
解决办法
5681
查看次数

如何在Pyspark中检查Spark分区中的特定分区数据

我在我的hive表中在pyspark中创建了两个数据帧:

data1 = spark.sql("""
   SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE
   from MODEL_TABLE1 where COUNTRY_CODE in ('IND','CHN','USA','RUS','AUS')
""");
Run Code Online (Sandbox Code Playgroud)

每个国家/地区都有数百万字母数字格式的唯一ID.

data2 = spark.sql("""
   SELECT ID,MODEL_NUMBER, MODEL_YEAR, COUNTRY_CODE
   from MODEL_TABLE2 where COUNTRY_CODE in ('IND','CHN')
""");
Run Code Online (Sandbox Code Playgroud)

我想在ID列上使用pyspark加入这两个数据帧.

我们如何重新划分数据,使其在分区中均匀分布.

我可以使用下面的数据来修复我的数据吗?

newdf1 = data2.repartition(100, "ID")
newdf2 = data2.repartition(100, "ID")
Run Code Online (Sandbox Code Playgroud)

什么是分区的最佳方式,以便加快工作?

hadoop-partitioning pyspark

6
推荐指数
1
解决办法
1791
查看次数