小编Jud*_*ill的帖子

用于处理Microsoft Word和/或OpenOffice文件的Git(或Hg)插件

有没有人遇到过Git或Hg插件,用于"有意义"的差异/合并/分支OpenOffice或Microsoft word文件.

我知道我可以"签入".doc文件,但Git和Hg都将它们视为二进制blob.我希望能够对文件的文本执行所有(或至少很多)基于正常修订的操作.

是的,我确实知道我应该使用Latex或在RTF之间来回转换文件.我正在寻找更"原生"的解决方案,因为我正在努力管理技术人员和"管理人员"之间的协作.

这与我在Biostar上的问题有关:http://biostar.stackexchange.com/questions/1749/writing-collaboration-with-source-control-and-microsoft-word

谢谢.

git version-control mercurial plugins openoffice.org

Jud*_*ill

lucky-day

40
推荐指数

4
解决办法

2万
查看次数

使用Keras在滑动窗口中评估函数

我正在尝试在序列中扩展匹配匹配算法.我的比赛长20个单位,每个时间点有4个频道.我已经构建了一个封装匹配的模型,我无法弄清楚如何在滑动窗口中使用它来跨更长的序列应用它来查找序列中的匹配.

我有2个(20, 4)输入张量(query和target),我连接,添加,展平,然后应用一个简单的密集层.我在这个阶段有数据来训练100K查询,目标对.

def sum_seqs(seqs):
    return K.sum(seqs, axis=3)

def pad_dims(seq):
    return K.expand_dims(seq, axis=3)

def pad_outshape(in_shape):
    return (in_shape[0], in_shape[1], in_shape[2], 1)


query = Input((20, 4))
query_pad = Lambda(pad_dims, output_shape=pad_outshape, name='gpad')(query)

target = Input((20,4))
target_pad = Lambda(pad_dims, output_shape=pad_outshape)(target)

matching = Concatenate(axis = 3)([query_pad, target_pad])
matching = Lambda(sum_seqs)(matching)

matching = Flatten()(matching)
matching = Dropout(0.1)(matching)
matching = Dense(1, activation = 'sigmoid')(matching)

match_model = Model([query, target], matching)

Run Code Online (Sandbox Code Playgroud)

这非常有效.现在我想使用这个预先训练的模型来搜索target具有不同query序列的更长序列.

它似乎应该是这样的:

long_target = Input((100, 4))

short_target = …

Run Code Online (Sandbox Code Playgroud)

python sliding-window conv-neural-network keras tensorflow

Jud*_*ill

2018 09-06

13
推荐指数

2
解决办法

2090
查看次数

该python build_env.py --conda-env {toxworkdir}/conda {packages}负责创建环境(如果需要),安装包等的问题来的source activate {toxworkdir}/conda线.我收到一个ERROR: InvocationError: could not find executable 'source'错误.直接在命令行中键入命令可以正常工作.

对于那些有兴趣的人.这build_env.py是在这个要点:https://gist.github.com/JudoWill/70450979353fa2d12823 ...目前它只是安装Python依赖,但在其预期的环境中,它将安装不一定是python库的Conda repo.有什么想法吗？

automated-tests python-2.7 tox conda

Jud*_*ill

2014 07-22

12
推荐指数

2
解决办法

5906
查看次数

如何在MATLAB中将不同长度的单元格累积到矩阵中？

所以,我有一个不同长度的1xN向量的单元阵列.我想将它们附加到矩阵中,以便我可以显示它们imagesc.显然,矩阵必须是最大向量的宽度.我目前的代码如下:

tcell = {[1,2,3], [1,2,3,4,5], [1,2,3,4,5,6], [1], []};
lens = cellfun('length', tcell);
rmat = NaN(length(tcell), max(lens));
for i = 1:length(tcell)
    rmat(i, 1:lens(i)) = tcell{i};
end

Run Code Online (Sandbox Code Playgroud)

有谁知道这种问题的矢量化解决方案？由于MATLAB的JIT,我并不是真的担心这个循环的速度.我只是想扩展我的知识,这是我在编程中经常遇到的一个案例.

matlab matrix cell-array

Jud*_*ill

2010 07-06

10
推荐指数

1
解决办法

9131
查看次数

寻找提供django模板的资源

我对django和python非常方便,但我对网页设计的"视觉"方面很糟糕.即使经过相当多的谷歌搜索,我也无法找到任何类型的资源,其中包含可下载的模板,其中包含css,图像等,可用于轻松设置基本网站.

我正在寻找你在大多数教程中找到的5行示例之外的例子......我正在寻找顶部通用导航栏的内容,各种内容块以覆盖子类,页脚,等等

我和django项目的其他人合作过,但总是在"编码方面".我想做自己的项目.我已经设置了所有的视图,模型,"业务逻辑",我只是不能在设计部分开始.

任何帮助,将不胜感激.

编辑:只是为了更清楚一点.我正在寻找设计(开放许可)...类似于Wordpress主题.如果你有一个只有主题的资源,我可以把它们变成一个django模板,但如果你知道已经提供它们作为模板的东西,我宁愿这样做.

django resources django-templates

Jud*_*ill

2009 12-31

8
推荐指数

1
解决办法

3429
查看次数

调整3D Matplotlib图上的网格线

我正准备进行演示,我有一些3D matplotlib数字的示例图.但是,网格线太亮,无法在投影图像上看到. 示例3D图像

我尝试使用适用于2D数字的网格方法:

points = (5*np.random.randn(3, 50)+np.tile(np.arange(1,51), (3, 1))).transpose()
fig = plt.figure(figsize = (10,10))
ax = fig.add_subplot(111, projection='3d') 
ax.scatter(points[:,0], points[:,1], points[:,2])
ax.view_init(elev=0., azim=0)
ax.set_ylim([0, 60])
ax.set_zlim([0, 60])
ax.set_xlim([0, 60])
ax.set_zlabel('Cytokine')
ax.set_ylabel('Parameter')
ax.grid(linewidth=20)

Run Code Online (Sandbox Code Playgroud)

但这似乎不适用于3D数字.有什么建议？

python matplotlib

Jud*_*ill

lucky-day

8
推荐指数

2
解决办法

6285
查看次数

将EC2实例设置为Celery Worker,并将本地计算机作为主机

我的问题类似在这里我想设置多个亚马逊EC2实例做一些多.我正在考虑使用Celery来管理工人.有没有人让芹菜在使用本地计算机作为主机的EC2实例上工作？

有没有人有任何可能有帮助的好建议,教程,建议等？我已经使用芹菜在django中做了一些简单的异步过程,但没有这种规模(工作者和主机在同一台机器上).

此外,大多数处理都是"基于文件的"(即读取和写入文件)......你认为用芹菜挑选和传输文件的内容会更好(大多数文件是1-2kb的文本)或者镜像跨越EC2实例的文件系统然后让工作者返回结果(通常是0.5kb的文本).

python amazon-ec2 multiprocessing celery

Jud*_*ill

2017 05-23

7
推荐指数

1
解决办法

1704
查看次数

在MATLAB中更改seqlogo数字的x轴

我正在以编程方式制作大量的seqlogos.它们有数百列宽,因此运行seqlogo通常会创建太薄而无法看到的字母.我注意到我只关心这些列中的一些(不一定是连续的列)......大多数都是噪音但有些是高度保守的.

我使用类似这样的代码片段:

wide_seqs = cell2mat(arrayfun(@randseq, repmat(200, [500 1]), 'uniformoutput', false));
wide_seqs(:, [17,30, 55,70,130]) = repmat(['ATCGG'], [500 1])

conserve_cell = seqlogo(wide_seqs, 'displaylogo', false);
high_bit_cols = any(conserve_cell{2}>1.0,1);
[~, handle] = seqlogo(wide_seqs(:,high_bit_cols ));

Run Code Online (Sandbox Code Playgroud)

虽然当我这样做时,我会丢失有关数据来自哪些列的信息.

通常我会改变的x轴seqlogo.但是,它seqlogo是某种疯狂的基于java的对象,并且调用如下:

set(handle, 'xticklabel', num2str(find(high_bit_cols)))

Run Code Online (Sandbox Code Playgroud)

不工作.任何帮助将不胜感激.

谢谢,威尔

编辑:

在赏金上,我愿意接受任何一种改变轴标签的疯狂方法,包括(但不限于):使用图像处理工具箱在保存后修改图像,使用文本框创建新的seqlogo函数,修改java-code(如果可能的话)等等.我不愿意接受"使用python","使用这个R库"或任何其他类型的非Matlab解决方案.

java matlab plot bioinformatics

Jud*_*ill

2015 02-27

6
推荐指数

1
解决办法

1345
查看次数

检查np.array是否与datetime类似的一致方法

我正在进行一些单元测试,我需要确保一个函数总是返回一个类似于nd.datetime64的对象.但是,它们可以是任何单位(年,日,纳秒等).

我试过了:

comp = function_returns_datetime_array(inp)

assert isinstance(comp.dtype, np.datetime64)
assert issubclass(comp.dtype, np.datetime64)
assert issubclass(type(comp.dtype), np.datetime64)

Run Code Online (Sandbox Code Playgroud)

有什么建议？

datetime numpy

Jud*_*ill

lucky-day

6
推荐指数

1
解决办法

2482
查看次数

如何将 sql“转储”文件加载到 sql alchemy 中

我有一个很大的 sql 转储文件……有多个CREATE TABLE和INSERT INTO语句。有没有办法一次将这些全部加载到 SQLAlchemy sqlite 数据库中。我计划sqlsoup在创建表后使用内省的 ORM 。但是，当我使用该engine.execute()方法时，它会抱怨：sqlite3.Warning: You can only execute one statement at a time.

有没有办法解决这个问题。也许用正则表达式或某种解析器拆分文件，但我不知道足够的 SQL 来获取正则表达式的所有情况。

任何帮助将不胜感激。

将要

编辑：因为这看起来很重要......转储文件是用 MySQL 数据库创建的，所以它有很多 sqlite3 无法正确理解的命令/语法。

python sql sqlalchemy

Jud*_*ill

2010 05-13

5
推荐指数

1
解决办法

3191
查看次数

单通道算法,用于查找topX百分比的项目

我正在寻找一种单程算法,用于在流中查找浮点数的topX百分比,其中我不知道提前的总数...但它大约有5到3千万个浮点数.它需要单次传递,因为数据是在运行中生成的,并且第二次重新创建精确的流.

到目前为止,我所拥有的算法是保存到目前为止我见过的topX项目的排序列表.随着流的继续,我根据需要扩大列表.然后我用它bisect_left来找到插入点,如果需要的话.

以下是我到目前为止的算法:

from bisect import bisect_left
from random import uniform
from itertools import islice


def data_gen(num):
    for _ in xrange(num):
        yield uniform(0,1)

def get_top_X_percent(iterable, percent = 0.01, min_guess = 1000):

    top_nums = sorted(list(islice(iterable, int(percent*min_guess)))) #get an initial guess

    for ind, val in enumerate(iterable, len(top_nums)):
        if int(percent*ind) > len(top_nums):
            top_nums.insert(0,None)
        newind = bisect_left(top_nums, val)
        if newind > 0:
            top_nums.insert(newind, val)
            top_nums.pop(0)

    return top_nums

if __name__ == '__main__':

    num = 1000000
    all_data = sorted(data_gen(num))
    result = get_top_X_percent(all_data)
    assert result[0] …

Run Code Online (Sandbox Code Playgroud)

python algorithm

Jud*_*ill

lucky-day

4
推荐指数

1
解决办法

875
查看次数