小编Wal*_*Fan的帖子

熊猫 - GroupBy然后在原始表上合并

我正在尝试编写一个函数来聚合并在Pandas中的数据框上执行各种统计计算,然后将其合并到原始数据框中,但是,我正在遇到问题.这是SQL中的代码等价物:

SELECT EID,
       PCODE,
       SUM(PVALUE) AS PVALUE,
       SUM(SQRT(SC*EXP(SC-1))) AS SC,
       SUM(SI) AS SI,
       SUM(EE) AS EE
INTO foo_bar_grp
FROM foo_bar
GROUP BY EID, PCODE 
Run Code Online (Sandbox Code Playgroud)

然后加入原始表:

SELECT *
FROM foo_bar_grp INNER JOIN 
foo_bar ON foo_bar.EID = foo_bar_grp.EID 
        AND foo_bar.PCODE = foo_bar_grp.PCODE
Run Code Online (Sandbox Code Playgroud)

以下是步骤:加载数据 IN:>>

pol_dict = {'PID':[1,1,2,2],
             'EID':[123,123,123,123],
             'PCODE':['GU','GR','GU','GR'],
             'PVALUE':[100,50,150,300],
             'SI':[400,40,140,140],
             'SC':[230,23,213,213],
             'EE':[10000,10000,2000,30000],
             }


pol_df = DataFrame(pol_dict)

pol_df
Run Code Online (Sandbox Code Playgroud)

OUT:>>

   EID    EE PCODE  PID  PVALUE   SC   SI
0  123  10000    GU    1     100  230  400
1  123  10000    GR    1      50   23   40 …
Run Code Online (Sandbox Code Playgroud)

python python-2.7 pandas

27
推荐指数
2
解决办法
3万
查看次数

具有多个执行程序的Spark独立配置

我正在尝试设置独立的Spark 2.0服务器以并行处理分析功能。为此,我想要一个有多个执行程序的工人。

我正在使用 :

  • 独立Spark 2.0
  • 8芯
  • 24G RAM
  • Windows Server 2008
  • pyspark(尽管这似乎无关)

这仅仅是出于概念证明的目的,但是我想拥有8个执行器,每个核心一个。

我尝试关注该主题的其他主题,但由于某些原因,它对我不起作用。IE: Spark独立编号执行器/核心控制

我的配置如下:

conf \ spark-defaults.conf

spark.cores.max = 8
spark.executor.cores = 1
Run Code Online (Sandbox Code Playgroud)

我也尝试将我的spark-env.sh文件更改为无效。相反,发生的事情是它表明我的1个工作人员只有1个执行程序。如下所示,它仍然显示带有1个执行器和8个内核的独立执行器。

在此处输入图片说明

apache-spark pyspark

6
推荐指数
1
解决办法
4167
查看次数

无法在Windows 7上安装ibm_db

我在安装ibm_db时遇到问题.我得到一个"当该文件已经存在时无法创建文件:'tests' - >'test_2'"

我使用的是Windows 7 x64,Python 3.6.目的是使用SQLAlchemy连接到db2数据库.我已经安装了ibm-db-sa数据库.

关于如何解决这个问题的任何想法都会很棒.

(.env) C:\Users\123456789\Documents\the_funny_app>pip install ibm_db
Collecting ibm_db
  Downloading ibm_db-2.0.8.tar.gz (689kB)
    100% |????????????????????????????????| 696kB 17.1MB/s
Building wheels for collected packages: ibm-db
  Running setup.py bdist_wheel for ibm-db ... error
  Complete output from command c:\users\123456789\documents\the_funny_app\.env\scripts\py
thon.exe -u -c "import setuptools, tokenize;__file__='C:\\Users\\139206~1\\AppDa
ta\\Local\\Temp\\pip-build-xss0on0u\\ibm-db\\setup.py';f=getattr(tokenize, 'open
', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(co
de, __file__, 'exec'))" bdist_wheel -d C:\Users\139206~1\AppData\Local\Temp\tmpc
gu3awilpip-wheel- --python-tag cp36:
  Traceback (most recent call last):
    File "<string>", line 1, in <module>
    File "C:\Users\139206~1\AppData\Local\Temp\pip-build-xss0on0u\ibm-db\setup.p
y", line 17, in <module>
      os.rename('tests','test_2')
  FileExistsError: [WinError …
Run Code Online (Sandbox Code Playgroud)

db2 pip python-3.x

2
推荐指数
1
解决办法
2549
查看次数

标签 统计

apache-spark ×1

db2 ×1

pandas ×1

pip ×1

pyspark ×1

python ×1

python-2.7 ×1

python-3.x ×1