小编Lil*_*ina的帖子

如何删除所有重复项以便NONE保留在数据框中?

PHP 有一个类似的问题,但我正在使用R,我无法将解决方案转换为我的问题.

我有10行50列的数据框,其中一些行完全相同.如果我在它上面使用unique,我会得到一行 - 比方说 - "type",但我真正想要的只是获得那些只出现一次的行.有谁知道我怎么能做到这一点?

我可以看看集群和热图来手动排序,但我有比上面提到的更大的数据帧(最多100行),这有点棘手.

r unique duplicates r-faq

21
推荐指数
2
解决办法
1万
查看次数

使用h5py创建的HDF5文件无法通过h5py打开

我在Ubuntu 12.04(32位版本)下使用Anaconda作为Python发行版并在ipython笔记本中编写,显然创建了一个没有任何问题的HDF5文件.底层数据都是numpy数组.例如,

import numpy as np
import h5py

f = h5py.File('myfile.hdf5','w')

group = f.create_group('a_group')

group.create_dataset(name='matrix', data=np.zeros((10, 10)), chunks=True, compression='gzip')
Run Code Online (Sandbox Code Playgroud)

但是,如果我尝试从新的iypthon笔记本打开此文件,我会收到一条错误消息:

f = h5py.File('myfile.hdf5', "r")

---------------------------------------------------------------------------
IOError                                   Traceback (most recent call last)
<ipython-input-4-b64ac5089cd4> in <module>()
----> 1 f = h5py.File(file_name, "r")

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/_hl/files.pyc in __init__(self, name, mode, driver, libver, userblock_size, **kwds)
    220 
    221             fapl = make_fapl(driver, libver, **kwds)
--> 222             fid = make_fid(name, mode, userblock_size, fapl)
    223 
    224         Group.__init__(self, fid)

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/_hl/files.pyc in make_fid(name, mode, userblock_size, fapl, fcpl)
     77 
     78     if mode == …
Run Code Online (Sandbox Code Playgroud)

python io numpy hdf5 h5py

14
推荐指数
1
解决办法
3万
查看次数

用knitr将两个data.frames相互对齐?

我是knitr的新手(也是R的新手),所以这可能是一个愚蠢的问题......

我有两个data.frames,它们都有两列,但行数不同.我想在我的针织报告中展示它们,但是当它们可以很容易地坐在彼此旁边时,在另一张窄桌下面有一张窄桌子并不好看.有什么方法可以彼此相邻显示吗?

更新

好的,基于下面的建议,这就是我做的(我现在把三张桌子放在一起):

```{r fig.height=13.5, fig.width=10, echo=FALSE, comment=""}
grid.arrange(textGrob("Visual Clusters", gp=gpar(fontsize=14, fontface="bold")),
             textGrob("We have biofilm data for...", gp=gpar(fontsize=14, fontface="bold")),
             textGrob("Left Over Isolates", gp=gpar(fontsize=14, fontface="bold")),
             tableGrob(clusters, show.rownames=FALSE, gp=gpar(fontsize=10)),
             tableGrob(clust_ab, show.rownames=FALSE, gp=gpar(fontsize=10)),
             tableGrob(n_clust, show.rownames=FALSE, gp=gpar(fontsize=10)),
             ncol=3, nrow=2, heights=c(1,30))
```
Run Code Online (Sandbox Code Playgroud)

这看起来非常好,有三个表的标题,没有编号的行.
到目前为止我唯一无法解决的问题是表格都是水平居中的,所以如果你知道我的意思,较短的表格会从最长的表格开始.

r knitr

8
推荐指数
2
解决办法
7302
查看次数

IOError:无法读取数据(无法打开目录)- 缺少 gzip 压缩过滤器

我以前从未使用过 HDF5 文件,为了开始使用,我收到了一些示例文件。我一直在检查所有基础知识h5py,查看这些文件中的不同组、它们的名称、键、值等。一切正常,直到我想查看组中保存的数据集。我得到了他们的.shape.dtype,但是当我尝试通过索引访问随机值(例如grp["dset"][0])时,出现以下错误:

IOError                                   Traceback (most recent call last)
<ipython-input-45-509cebb66565> in <module>()
      1 print geno["matrix"].shape
      2 print geno["matrix"].dtype
----> 3 geno["matrix"][0]

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/_hl/dataset.pyc in __getitem__(self, args)
    443         mspace = h5s.create_simple(mshape)
    444         fspace = selection._id
--> 445         self.id.read(mspace, fspace, arr, mtype)
    446
    447         # Patch up the output for NumPy

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/h5d.so in h5py.h5d.DatasetID.read (h5py/h5d.c:2782)()

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/_proxy.so in h5py._proxy.dset_rw (h5py/_proxy.c:1709)()

/home/sarah/anaconda/lib/python2.7/site-packages/h5py/_proxy.so in h5py._proxy.H5PY_H5Dread (h5py/_proxy.c:1379)()

IOError: Can't read data (Can't open directory)
Run Code Online (Sandbox Code Playgroud)

我已在h5py Google 群组中发布了此问题,其中有人建议我未安装的数据集上可能存在过滤器。但 …

python linux hdf5 h5py anaconda

6
推荐指数
2
解决办法
8116
查看次数

Apache2"响应头名称'<! - '包含无效字符,中止请求"

编辑

这个问题与http标头无关.它是在定义之前在cgi/python脚本中调用的变量.以防万一其他人也尝试使用这样的错误消息,但找不到它的原因.


我继承了一个基于apache2/python/cgi脚本的网站,我正在努力维护,但有时候我正在努力解决真正无益的错误.在这种情况下,我The server encountered an internal error or misconfiguration and was unable to complete your request.点击页面上的元素.错误日志提供了以下信息:
[Fri Jul 28 14:11:15.150877 2017] [http:error] [pid 1727] [client 193.174.111.250:53426] AH02429: Response header name '<!--' contains invalid characters, aborting request

基于类似的问题,我假设错误很新,但我找不到问题.特别是因为链接/脚本名称保持不变.它在第一次打开网站时有效,但是当我点击不引用我不同网站/脚本的内容时它会停止工作.这怎么可能是标题的错?

以防万一,这里是生成网页开头的代码:

Code = "Content-Type: text/html\n\n"
Code += "<!DOCTYPE HTML PUBLIC '-//W3C//DTD HTML 4.0 Transitional//EN'>\n<html>\n"    
Code += "<head>\n  <title>BACTOME: RELATIVE EXPRESSIONS</title>\n"
...
Run Code Online (Sandbox Code Playgroud)

据我所知,第一行构成了我唯一的HTTP头.'<!--'错误日志中没有说明.标题是否需要其他任何功能?

PS:或者,如果有任何简单的方法将这些通用错误变成更冗长的错误,我也会对此非常感兴趣.

python apache cgi http

5
推荐指数
1
解决办法
1万
查看次数

仅使用公共row.names在R中组合data.frames

我有五个data.frames,其中包含不同样本集的基因表达数据.我在每个data.set中有不同的行数,因此只有部分重叠的row.names(基因).

现在我希望a)过滤五个data.frames以仅包含所有data.frames中存在的基因和b)将这些基因的基因表达数据组合到一个data.frame.

我到目前为止所能找到的只是合并,但这只能合并两个data.frames,所以我必须多次使用它.有没有更简单的方法?

merge r dataframe

1
推荐指数
1
解决办法
4884
查看次数

标签 统计

python ×3

r ×3

h5py ×2

hdf5 ×2

anaconda ×1

apache ×1

cgi ×1

dataframe ×1

duplicates ×1

http ×1

io ×1

knitr ×1

linux ×1

merge ×1

numpy ×1

r-faq ×1

unique ×1