小编N. *_*cA.的帖子

熊猫版rbind

在R中,您可以通过使用rbind将一列的列粘贴到另一列的底部来组合两个数据帧.在熊猫中,你如何完成同样的事情？这看起来很奇怪.

使用追加导致一个可怕的混乱,包括NaNs和事情,原因我不明白.我只是试图"rbind"两个相同的框架,看起来像这样:

编辑:我是以一种愚蠢的方式创建DataFrames,这导致了问题.将= rbind追加到所有意图和目的.见下面的答案.

        0         1       2        3          4          5        6                    7
0   ADN.L  20130220   437.4   442.37   436.5000   441.9000  2775364  2013-02-20 18:47:42
1   ADM.L  20130220  1279.0  1300.00  1272.0000  1285.0000   967730  2013-02-20 18:47:42
2   AGK.L  20130220  1717.0  1749.00  1709.0000  1739.0000   834534  2013-02-20 18:47:43
3  AMEC.L  20130220  1030.0  1040.00  1024.0000  1035.0000  1972517  2013-02-20 18:47:43
4   AAL.L  20130220  1998.0  2014.50  1942.4999  1951.0000  3666033  2013-02-20 18:47:44
5  ANTO.L  20130220  1093.0  1097.00  1064.7899  1068.0000  2183931  2013-02-20 18:47:44
6   ARM.L  20130220   941.5   965.10   939.4250   951.5001  2994652 …

Run Code Online (Sandbox Code Playgroud)

python r dataframe pandas

N. *_*cA.

2017 05-07

55
推荐指数

4
解决办法

6万
查看次数

Pandas - 制作列dtype对象或因子

在pandas中,如何将DataFrame的列转换为dtype对象？或者更好的是,成为一个因素？(对于那些说R的人,在Python中,我该怎么办as.factor()？)

另外,pandas.Factor和之间的区别是pandas.Categorical什么？

python pandas

N. *_*cA.

2015 02-10

46
推荐指数

3
解决办法

6万
查看次数

功能广度优先搜索

功能深度优先搜索在有向无环图中很可爱.

然而,在带循环的图中,我们如何避免无限递归？在程序语言中,我会在我点击它时标记节点,但是让我说我不能这样做.

访问节点列表是可能的,但速度很慢,因为使用一个会导致在重复之前对该列表进行线性搜索.比这里的列表更好的数据结构显然会有所帮助,但这不是游戏的目的,因为我在ML中编码 - 列表是王道,还有其他任何我必须自己写的东西.

这个问题有巧妙的方法吗？或者我是否必须处理访问列表或上帝禁止,可变状态？

python ocaml haskell functional-programming sml

N. *_*cA.

2015 05-27

23
推荐指数

3
解决办法

3933
查看次数

R multicore mcfork():无法分叉:无法分配内存

我得到了名义上的错误:

mcfork(): Unable to fork: Cannot allocate memory

Run Code Online (Sandbox Code Playgroud)

试图用mcapply运行一个函数后,但top我说我是51%

这是在EC2实例上,但我确实有最新的R.

有谁知道还有什么可以导致这个错误？

谢谢,

-N

memory multicore r amazon-ec2 domc

N. *_*cA.

lucky-day

18
推荐指数

2
解决办法

9382
查看次数

熊猫:重塑数据

我有一个熊猫系列,目前看起来像这样:

14    [Yellow, Pizza, Restaurants]
...
160920                  [Automotive, Auto Parts & Supplies]
160921       [Lighting Fixtures & Equipment, Home Services]
160922                 [Food, Pizza, Candy Stores]
160923           [Hair Removal, Nail Salons, Beauty & Spas]
160924           [Hair Removal, Nail Salons, Beauty & Spas]

Run Code Online (Sandbox Code Playgroud)

我希望从根本上将其重塑为一个看起来像这样的数据框......

      Yellow  Automotive  Pizza
14       1         0        1
…           
160920   0         1        0
160921   0         0        0
160922   0         0        1
160923   0         0        0
160924   0         0        0

Run Code Online (Sandbox Code Playgroud)

即.一个逻辑结构,指出每个观察(行)属于哪些类别.

我能够编写基于循环的代码来解决这个问题,但考虑到我需要处理大量的行,这将是非常缓慢的.

有谁知道这种问题的矢量化解决方案？我会非常感激的.

编辑:有509个类别,我有一个列表.

python vectorization categories pandas

N. *_*cA.

2013 05-20

14
推荐指数

1
解决办法

2618
查看次数

只读numpy数组的快速队列

我有一个多处理工作,我正在排队只读numpy数组,作为生产者消费者管道的一部分.

目前他们正在被腌制,因为这是默认行为multiprocessing.Queue会降低性能.

是否有任何pythonic方法将引用传递给共享内存而不是pickle数组？

不幸的是,在消费者启动之后会生成数组,并且没有简单的方法.(所以全局变量方法会很难看......).

[注意,在下面的代码中,我们不期望并行计算h(x0)和h(x1).相反,我们看到并行计算的h(x0)和g(h(x1))(就像CPU中的流水线一样).

from multiprocessing import Process, Queue
import numpy as np

class __EndToken(object):
    pass

def parrallel_pipeline(buffer_size=50):
    def parrallel_pipeline_with_args(f):
        def consumer(xs, q):
            for x in xs:
                q.put(x)
            q.put(__EndToken())

        def parallel_generator(f_xs):
            q = Queue(buffer_size)
            consumer_process = Process(target=consumer,args=(f_xs,q,))
            consumer_process.start()
            while True:
                x = q.get()
                if isinstance(x, __EndToken):
                    break
                yield x

        def f_wrapper(xs):
            return parallel_generator(f(xs))

        return f_wrapper
    return parrallel_pipeline_with_args


@parrallel_pipeline(3)
def f(xs):
    for x in xs:
        yield x + 1.0

@parrallel_pipeline(3)
def g(xs):
    for x in xs:
        yield x …

Run Code Online (Sandbox Code Playgroud)

python parallel-processing numpy multiprocessing

N. *_*cA.

2016 08-05

10
推荐指数

1
解决办法

4163
查看次数

以便携式usb格式部署R脚本

我有一个R脚本,我想部署,以便它是白痴,单击运行等等.不幸的是我没有办法支付服务器,它需要运行的环境不允许安装新软件,只能运行便携式应用程序.(学校计算机)我的脚本也依赖于几个非基础包.

有没有办法以易于运行的方式部署R和我的脚本,以便它可以在usb棒上使用？

deployment usb r portable-applications

N. *_*cA.

2012 11-01

9
推荐指数

1
解决办法

1628
查看次数

Delphi在设计时存储属性信息的位置在哪里？

无论何时在Object Inspector中设置属性,它都必须编写一些代码或以某种方式在某处保存信息,但在哪里？我想知道所以我可以从代码设置属性和事件,但问题是上面的问题.代码在哪里？

delphi

N. *_*cA.

2012 04-11

8
推荐指数

2
解决办法

659
查看次数

Python相当于R的mclapply()

R包多核具有函数mclapply(),它将特定函数应用于事物列表并利用多个核心.它易于使用并可大幅提升速度.

是否有Python等价物？谢谢

python multicore r pandas

N. *_*cA.

2013 05-02

8
推荐指数

1
解决办法

1123
查看次数

TensorFlow中设备过滤器的格式是什么？

所以Session config proto有一个device_filters选项,注释如下:

// When any filters are present sessions will ignore all devices which do not
  // match the filters. Each filter can be partially specified, e.g. "/job:ps"
  // "/job:worker/replica:3", etc.

Run Code Online (Sandbox Code Playgroud)

有没有人对格式有具体的解释？例如,我想排除/ gpu:0作为选项,因为我用它来运行其他模型.

我试过了

config = tf.ConfigProto()
config.device_filters.append('/gpu:1')
config.device_filters.append('/cpu:0')
with tf.Session(config=config):
    # Do stuff

Run Code Online (Sandbox Code Playgroud)

但是我仍然将操作分配给gpu 0.我不想在每个操作的基础上覆盖设备.

python tensorflow

N. *_*cA.

lucky-day

8
推荐指数

1
解决办法

1659
查看次数