小编era*_*ran的帖子

使用Linux中的AWK将日期转换为纪元时间

我有一个以逗号分隔的文件,第一列是格式为01/31/2010的日期,我想将其更改为纪元时间,以便文件"file.csv":

 01/30/2010,1,"hi"
 01/31/2010,3,"bye"

Run Code Online (Sandbox Code Playgroud)

将更改为"output.csv":

 1264809600,1,"hi"
 1264896000,3,"bye"

Run Code Online (Sandbox Code Playgroud)

我知道命令行日期-d"01/30/2010"+%s可以工作,但只能在一个日期,我需要将它提供给一个表,所以,有没有办法使用awk与一些功能():

cat file.csv | awk -F, 'print func($1)","$2","$3}'

Run Code Online (Sandbox Code Playgroud)

因为我真的不在乎我是怎么做的,或者,当字符串是mm/dd/yyyy时,如何将excel中的日期更改为纪元...

unix linux excel awk

era*_*ran

2013 04-08

5
推荐指数

1
解决办法

8588
查看次数

如果字段不存在,则为Elasticsearch Update API

upsert的例子是:

curl -XPOST 'localhost:9200/test/type1/1/_update' -d '{
    "script" : "ctx._source.counter += count",
    "params" : {
        "count" : 4
    },
    "upsert" : {
        "counter" : 1
    }
}'

Run Code Online (Sandbox Code Playgroud)

如果以前不存在该文档,则该方法有效.

假设我想更新不一定存在的字段,但文档存在.例如,该文档可能还没有计数器字段.

我该怎么做呢？

elasticsearch

era*_*ran

lucky-day

5
推荐指数

1
解决办法

3824
查看次数

Elasticsearch 相当于 Map-Reduce

当客户端的处理量太大时，ElasticSearch 中的 map-reduce 相当于什么？是否有类似“流”之类的东西，以便客户端可以在输入数据时减少输出？

假设我需要在客户端进行连接或复杂的过滤，如果没有某种映射缩减方案，这种类型可能不适合内存。我不介意等待很长时间才能得到响应，但我不想破坏机器（客户端和/或服务器）。

我该怎么办？

示例，映射：

{"book":{"properties":{
                       "title":{"type":"string", "index":"analyzed"},
                       "author":{"type":"string", "index":"analyzed"},
}

{"character":{"properties":{
                       "book_id":{"type":"string", "index":"not_analyzed"},
                       "name":{"type":"string", "index":"analyzed"},
                       "age":{"type":"integer"},
                       "catch-phrase":{"type":"string", "index":"analyzed"},
}

Run Code Online (Sandbox Code Playgroud)

假设我想找到所有至少有 M 个字符且口号不超过 N 的书籍（其中 N 是客户端提供的参数）

所以它会是get_books_with_short_phrases(M,N)

我当然可以将“短语长度”等字段添加到“字符”类型中，但我们假设“流行语”的处理可能一直在变化。

我想将“字符”和“书籍”流式传输到客户端，检查每个客户端并输出一个键值，<book>-<character,len(phrase)>然后将其进一步减少到<book>-<num_of_chars_with_short_phrase>

如果我将所有文档加载到客户端内存中，那可能是一场灾难。如果客户处理每本书并将其简化为 ak,v 可能会更好。

我是不是搞错了？

该解决方案是否以某种方式在服务器上运行脚本，以便执行映射缩减？

elasticsearch

era*_*ran

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

弹性搜索中的存储字段

在文档中，某些类型，例如数字和日期，它指定 store 默认为 no。但是仍然可以从json中检索该字段。

它令人困惑。这是否意味着_source？

有没有办法根本不存储字段，而只对其进行索引和搜索？

elasticsearch

era*_*ran

lucky-day

5
推荐指数

1
解决办法

1059
查看次数

not_indexed字段存储在索引中

我正在尝试优化我的弹性搜索方案.

我有一个字段是一个URL - 我不想查询或过滤它,只是检索它.

我的理解是,定义为"index":"no"未编入索引但仍存储在索引中的字段.(参见http://www.slideshare.net/nitin_stephens/lucene-basics中的幻灯片5 )这应该与Lucene UnIndexed匹配,对吧？

这让我感到困惑,有没有办法存储一些字段,没有它们占用更多的存储而不仅仅是它们的内容,而且不会妨碍其他字段的索引？

我错过了什么？

lucene elasticsearch

era*_*ran

2013 06-04

5
推荐指数

1
解决办法

3166
查看次数

为什么hist()函数没有区域1

hist()在R和设置中使用时,freq=FALSE我应该得到密度.但是,我没有.我得到的其他数字比它只显示计数时要多.我还需要规范化.

例如:

> h = hist(c(1,2,1,3,1,4,5,4,5,8,2,4,1,7,6,10,7,4,3,7,3,5), freq=FALSE)
> h$density
  0.13636364 0.15909091 0.09090909 0.09090909 0.02272727
> sum(h$density)
  [1] 0.5
> h$density/sum(h$density)
  [1] 0.27272727 0.31818182 0.18181818 0.18181818 0.0454545

Run Code Online (Sandbox Code Playgroud)

r histogram area

era*_*ran

2012 05-06

4
推荐指数

1
解决办法

1587
查看次数

PIL中的图像转换,pgm文件错误

尝试在PIL python库中执行以下操作时:

Image.open('Apple.gif').save('Apple.pgm')

Run Code Online (Sandbox Code Playgroud)

代码失败了:

  Traceback (most recent call last):
  File "/home/eran/.eclipse/org.eclipse.platform_3.7.0_155965261/plugins/org.python.pydev_2.6.0.2012062818/pysrc/pydevd_comm.py", line 765, in doIt
    result = pydevd_vars.evaluateExpression(self.thread_id, self.frame_id, self.expression, self.doExec)
  File "/home/eran/.eclipse/org.eclipse.platform_3.7.0_155965261/plugins/org.python.pydev_2.6.0.2012062818/pysrc/pydevd_vars.py", line 376, in evaluateExpression
    result = eval(compiled, updated_globals, frame.f_locals)
  File "<string>", line 1, in <module>
  File "/usr/lib/python2.7/dist-packages/PIL/Image.py", line 1439, in save
    save_handler(self, fp, filename)
  File "/usr/lib/python2.7/dist-packages/PIL/PpmImagePlugin.py", line 114, in _save
    raise IOError, "cannot write mode %s as PPM" % im.mode
IOError: cannot write mode P as PPM

Run Code Online (Sandbox Code Playgroud)

代码可以正常转换为BMP,但JPG也失败了.奇怪的是,一个不同的文件(JPG到PGM),工作正常.

其他格式转换.那是:

Image.open('Apple.gif').save('Apple.bmp')

Run Code Online (Sandbox Code Playgroud)

作品.

知道为什么吗？

python image-processing python-imaging-library

era*_*ran

2012 10-06

4
推荐指数

1
解决办法

8771
查看次数

在Python中公开来自OpenCV的LBP描述符

我希望能够使用OpenCV计算python中的LBP描述符.根据这个,我需要重新编译的OpenCV.

我更改了elbp()函数opencv-2.4.6.1/modules/contrib/src/facerec.cpp,因此它们不再是statisc.现在我必须在HFile中声明它们(假设我创建了elbp.hpp,或者我应该将它添加到现有文件中？):

// This is a header file created to expose the elbp (evaluate LBP) functions

#include "opencv2/core/core.hpp"

namespace cv {

Mat elbp(InputArray src, int radius, int neighbors);
Mat elbp(InputArray src, OutputArray dst, int radius, int neighbors);
Mat spatial_histogram(InputArray _src, int numPatterns, int grid_x, int grid_y, bool /*normed*/);
};

Run Code Online (Sandbox Code Playgroud)

为了编译OpenCV,我按照这里的说明,创建了cv2.so共享对象.

我的问题是,如何创建python"包装器"(如果我使用正确的单词)能够从python调用elbp()函数？我觉得我错过了这里至关重要的一步.

例如,cv2.HogDescriptor()函数存在于python中,我想类似地公开LBP描述符.

c++ python opencv

era*_*ran

2017 05-23

4
推荐指数

1
解决办法

3610
查看次数

从python获取图像文件的形状而不加载图像

有没有一种有效的方法来了解图像文件的大小(高度,重量,通道),而无需将其实际加载到python中？

琐碎的方式是:

img = cv2.imread('a.jpg')
print img.shape

Run Code Online (Sandbox Code Playgroud)

但这会浪费CPU(和内存),因为我不需要图像本身.

python opencv python-imaging-library

era*_*ran

lucky-day

4
推荐指数

1
解决办法

3271
查看次数

熊猫中的 groupby 对不同的列具有不同的功能

最好举例说明：

我想通过col1和聚合数据帧col2，对结果求和，col3并对结果求col4平均col5

如果我只想对 col3-5 进行总结，我会使用 df.groupby(['col1','col2']).sum()

python pandas

era*_*ran

lucky-day

4
推荐指数

1
解决办法

5610
查看次数

标签统计

elasticsearch ×4

python ×4

opencv ×2

python-imaging-library ×2

area ×1

awk ×1

c++ ×1

excel ×1

histogram ×1

image-processing ×1

linux ×1

lucene ×1

pandas ×1

r ×1

unix ×1

标签 统计

小编era_ran的帖子

标签统计