小编Wal*_*Fan的帖子

熊猫 - GroupBy然后在原始表上合并

我正在尝试编写一个函数来聚合并在Pandas中的数据框上执行各种统计计算,然后将其合并到原始数据框中,但是,我正在遇到问题.这是SQL中的代码等价物:

SELECT EID,
       PCODE,
       SUM(PVALUE) AS PVALUE,
       SUM(SQRT(SC*EXP(SC-1))) AS SC,
       SUM(SI) AS SI,
       SUM(EE) AS EE
INTO foo_bar_grp
FROM foo_bar
GROUP BY EID, PCODE

Run Code Online (Sandbox Code Playgroud)

然后加入原始表:

SELECT *
FROM foo_bar_grp INNER JOIN 
foo_bar ON foo_bar.EID = foo_bar_grp.EID 
        AND foo_bar.PCODE = foo_bar_grp.PCODE

Run Code Online (Sandbox Code Playgroud)

以下是步骤:加载数据 IN:>>

pol_dict = {'PID':[1,1,2,2],
             'EID':[123,123,123,123],
             'PCODE':['GU','GR','GU','GR'],
             'PVALUE':[100,50,150,300],
             'SI':[400,40,140,140],
             'SC':[230,23,213,213],
             'EE':[10000,10000,2000,30000],
             }


pol_df = DataFrame(pol_dict)

pol_df

Run Code Online (Sandbox Code Playgroud)

OUT:>>

   EID    EE PCODE  PID  PVALUE   SC   SI
0  123  10000    GU    1     100  230  400
1  123  10000    GR    1      50   23   40 …

Run Code Online (Sandbox Code Playgroud)

python python-2.7 pandas

Wal*_*Fan

lucky-day

27
推荐指数

2
解决办法

3万
查看次数

具有多个执行程序的Spark独立配置

我正在尝试设置独立的Spark 2.0服务器以并行处理分析功能。为此，我想要一个有多个执行程序的工人。

我正在使用：

独立Spark 2.0
8芯
24G RAM
Windows Server 2008
pyspark（尽管这似乎无关）

这仅仅是出于概念证明的目的，但是我想拥有8个执行器，每个核心一个。

我尝试关注该主题的其他主题，但由于某些原因，它对我不起作用。IE： Spark独立编号执行器/核心控制

我的配置如下：

conf \ spark-defaults.conf

spark.cores.max = 8
spark.executor.cores = 1

Run Code Online (Sandbox Code Playgroud)

我也尝试将我的spark-env.sh文件更改为无效。相反，发生的事情是它表明我的1个工作人员只有1个执行程序。如下所示，它仍然显示带有1个执行器和8个内核的独立执行器。

apache-spark pyspark

Wal*_*Fan

2017 05-23

6
推荐指数

1
解决办法

4167
查看次数

无法在Windows 7上安装ibm_db

我在安装ibm_db时遇到问题.我得到一个"当该文件已经存在时无法创建文件:'tests' - >'test_2'"

我使用的是Windows 7 x64,Python 3.6.目的是使用SQLAlchemy连接到db2数据库.我已经安装了ibm-db-sa数据库.

关于如何解决这个问题的任何想法都会很棒.

(.env) C:\Users\123456789\Documents\the_funny_app>pip install ibm_db
Collecting ibm_db
  Downloading ibm_db-2.0.8.tar.gz (689kB)
    100% |????????????????????????????????| 696kB 17.1MB/s
Building wheels for collected packages: ibm-db
  Running setup.py bdist_wheel for ibm-db ... error
  Complete output from command c:\users\123456789\documents\the_funny_app\.env\scripts\py
thon.exe -u -c "import setuptools, tokenize;__file__='C:\\Users\\139206~1\\AppDa
ta\\Local\\Temp\\pip-build-xss0on0u\\ibm-db\\setup.py';f=getattr(tokenize, 'open
', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(co
de, __file__, 'exec'))" bdist_wheel -d C:\Users\139206~1\AppData\Local\Temp\tmpc
gu3awilpip-wheel- --python-tag cp36:
  Traceback (most recent call last):
    File "<string>", line 1, in <module>
    File "C:\Users\139206~1\AppData\Local\Temp\pip-build-xss0on0u\ibm-db\setup.p
y", line 17, in <module>
      os.rename('tests','test_2')
  FileExistsError: [WinError …

Run Code Online (Sandbox Code Playgroud)

db2 pip python-3.x

Wal*_*Fan

2018 01-08

2
推荐指数

1
解决办法

2549
查看次数