标签: data-extraction

如何从字符串中提取浮点数

我有许多类似的字符串Current Level: 13.4 db.,我想提取浮点数.我说漂浮而不是十进制,因为它有时是完整的.RegEx能做到这一点还是有更好的方法?

python regex floating-point data-extraction

91
推荐指数
5
解决办法
17万
查看次数

PostgreSQL查询Excel表格

我需要将一些数据从PostgreSQL导出到Excel(快速客户希望),以及上次Excel在打开或导入我的COPYd csv文件(行结尾,utf-8编码等)时遇到严重问题,我花了一个小时最好.

有人知道一个生成真实Excel文件的快速,优雅的解决方案吗?像一个小shell脚本或类似?

我希望这可以在我的Linux机箱(Debian 5.0 Lenny)或Windows(XP或更高版本)上完成.

sql postgresql excel debian data-extraction

22
推荐指数
1
解决办法
4万
查看次数

PostgreSQL到数据仓库:近实时ETL /数据提取的最佳方法

背景:

我有一个PostgreSQL(v8.3)数据库,它针对OLTP进行了大量优化.

我需要半实时地从中提取数据(有些人必然要问半实时意味着什么,答案是我合理的频率但是我会务实,因为基准可以说我们希望每15分钟一次并将其送入数据仓库.

多少数据?在高峰时段,我们正在谈论每分钟大约80-100k行击中OLTP侧,非高峰时这将大幅下降到15-20k.最频繁更新的行每个约64个字节,但有各种表等,因此数据非常多样化,每行最多可达4000个字节.OLTP处于活动状态24x5.5.

最佳方案?

从我可以拼凑起来的最实用的解决方案如下:

  • 创建TRIGGER以将所有DML活动写入旋转的CSV日志文件
  • 执行所需的任何转换
  • 使用本机DW数据泵工具将转换后的CSV高效泵入DW

为什么这种做法?

  • TRIGGERS允许选择性表格成为目标,而不是系统范围+输出可配置(即成为CSV),并且相对容易编写和部署.SLONY使用类似的方法,开销是可以接受的
  • CSV易于快速转换
  • 易于将CSV泵入DW

考虑的替代方案......

  • 使用本机日志记录(http://www.postgresql.org/docs/8.3/static/runtime-config-logging.html).问题是它相对于我需要的看起来非常冗长,并且解析和转换有点棘手.然而,它可能更快,因为我认为与TRIGGER相比,开销更少.当然它会使管理员更容易,因为它是系统范围的,但同样,我不需要一些表(一些用于持久存储我不想记录的JMS消息)
  • 直接通过ETL工具(如Talend)查询数据并将其泵入DW ...问题是OLTP模式需要调整以支持这一点并且有许多负面的副作用
  • 使用经过调整/攻击的SLONY - SLONY可以很好地记录日志并将更改迁移到从站,因此概念框架就在那里,但建议的解决方案似乎更简单,更清洁
  • 使用WAL

有没有人这样做过?想分享你的想法?

postgresql etl near-real-time data-warehouse data-extraction

14
推荐指数
1
解决办法
8594
查看次数

如何在谷歌地图中提取引脚的lat/lng?

我想在Google地图网页中提取一组约50-100个针脚的纬度和经度.我不控制页面,我不需要多次这样做,所以我正在寻找快速和肮脏的东西.我有FireFox和FireBug以及Chrome,所有我需要的东西比重新键入所有数字更容易.

google-maps data-extraction

12
推荐指数
2
解决办法
2万
查看次数

如何从网页中提取有意义且有用的内容?

我想解析一个网页并从中提取有意义的内容.有意义的,我指的是用户想要在该特定页面中看到的内容(仅文本)(数据不包括广告,横幅,评论等)我想确保当用户保存页面时,他想要的数据读保存,没有别的.

简而言之,我需要构建一个像Readability一样工作的应用程序.(http://www.readability.com)我需要将这个有用的网页内容存储在一个单独的文件中.我真的不知道如何去做.

我不想使用需要我连接到互联网并从他们的服务器获取数据的API,因为数据提取过程需要离线完成.

我能想到两种方法:

  1. 使用基于机器学习的算法(如下所示:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/)

  2. 开发一个可以令人满意地从网页中删除所有混乱的网络刮刀.

是否有现成的工具可以做到这一点?我遇到了samppipe库(http://code.google.com/p/boilerpipe/),但没有使用它.有人用过吗?它会给出满意的结果吗?还有其他工具,特别是用PHP或Python编写的这种网络抓取工具吗?

如果我需要构建自己的工具来做这件事,你们会建议怎么做呢?

因为在开始解析之前我需要清理凌乱或不完整的HTML,我会使用像Tidy(http://www.w3.org/People/Raggett/tidy/)或Beautiful Soup 这样的工具(http: //www.crummy.com/software/BeautifulSoup/bs4/doc/)完成这项工作.

但是我不知道在这一步之后如何提取内容.

PS.我是一个业余爱好者,如果准备好使用开源工具来做这件事,我会很高兴,并且可以很容易地集成到我用PHP或Python编写的代码中.或者,如果我必须编写自己的代码,我很乐意获得之前完成此类工作的指导!:) 非常感谢!

php python html-parsing web-scraping data-extraction

11
推荐指数
1
解决办法
7270
查看次数

如何从SCADA CIMPLICITY软件的DAT和IDX文件中提取数据?

我的任务是从旧软件的数据文件中提取数据 - CIMplicity HMI Plant Edition 6.0版.它是2002年的SCADA软件.我有一份数据文件目录,里面包含很多*.DAT和*.IDX文件.我需要将此数据提取到CSV或SQL数据库.一些DAT文件只是纯文本,但其他文件具有类似二进制的格式,在PSPad中打开时,以HEX视图模式显示.

我可以使用哪些工具可靠地从这些文件中读取和提取数据?

TIA.

更新:我已经添加了包含数据文件的目录的目录列表:

 Directory of C:\tmp\xxxxxxII\data

04/30/2013  01:53 PM    <DIR>          .
04/30/2013  01:53 PM    <DIR>          ..
09/02/2008  10:46 AM            17,260 1220323606.clz
09/02/2008  10:46 AM            60,490 1220323607.clz
09/10/2008  06:36 PM           288,554 1220323608.clz
09/02/2008  10:46 AM            66,977 1220323609.clz
09/10/2008  06:37 PM            23,900 1220323610.clz
09/10/2008  06:37 PM            19,162 1220323611.clz
09/10/2008  06:48 PM            37,596 1220323612.clz
09/10/2008  06:49 PM            27,882 1220323613.clz
09/10/2008  06:49 PM            47,850 1220323614.clz
09/10/2008  06:50 PM            47,816 1220323615.clz
09/10/2008  06:52 PM         3,427,511 1220323616.clz
09/02/2008  10:46 …
Run Code Online (Sandbox Code Playgroud)

parsing scada data-extraction

7
推荐指数
1
解决办法
7165
查看次数

ruby:从嵌套的json中提取字段

我正在努力教自己红宝石并解决工作中的问题.我的最终目标是从API中提取JSON响应中的许多字段中的三个,操作并转储到CSV以进行执行报告.

JSON的结构是:

{
  "status": 200,
  "data": {
    "total": 251,
    "alerts": [
      {
        "dataPoint": "x",
        "ackedBy": "x",
        "dataSourceInstance": "x",
        "dataSource": "x",
        "host": "x",
        "endOn": 0,
        "ackedOn": 1385085190,
        "dataSourceInstanceId": 588384,
        "hostId": 935,
        "type": "alert",
        "dataSourceId": 694,
        "ackedOnLocal": "2013-11-21 17:53:10 PST",
        "id": 6170384,
        "startOn": 1385084917,
        "thresholds": "!= 1 1 1",
        "endOnLocal": "",
        "level": "error",
        "ackComment": "x",
        "value": "No Data",
        "hostDataSourceId": 211986,
        "acked": true,
        "hostGroups": [{
          "alertEnable": true,
          "createdOn": 1362084592,
          "id": 21,
          "parentId": 78,
          "description": "",
          "appliesTo": "",
          "name": "2600hz",
          "fullPath": "x"
        }],
        "startOnLocal": …
Run Code Online (Sandbox Code Playgroud)

ruby json data-extraction

7
推荐指数
1
解决办法
2万
查看次数

从文档扫描图像中没有任何网格线和边框的表格中提取数据

camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而,由于扫描图像会有轻微的旋转角度,因此很难继续该方法。

我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?

python ocr image-processing data-extraction document-layout-analysis

7
推荐指数
1
解决办法
2112
查看次数

如何从Perl中的文本文件中提取/解析表格数据?

我正在寻找像HTML :: TableExtract这样的东西,不是用于HTML输入,而是用于包含用缩进和间距格式化的"表格"的纯文本输入.

数据可能如下所示:

Here is some header text.

Column One       Column Two      Column Three
a                                           b
a                    b                      c


Some more text

Another Table     Another Column
abdbdbdb          aaaa
Run Code Online (Sandbox Code Playgroud)

perl parsing text-parsing data-extraction

6
推荐指数
1
解决办法
2336
查看次数

使用ffmpeg提取特定帧的列表

我正在尝试在视频上使用ffmpeg来提取特定帧的列表,用它们的帧号表示.所以我想说我想从'test_video.mp4'中提取一帧,准确地说是帧号150.我可以使用以下命令

ffmpeg -i test_video.mp4 -vf "select=gte(n\, 150)" -vframes 1 ~/test_image.jpg

但是,如果我想确定一个帧列表,例如[100, 110, 127, 270, 300]?我一直在看这个页面(https://ffmpeg.org/ffmpeg-filters.html#select_002c-aselect),可以看到有很多方法可以根据帧号,时间戳等的奇偶校验提取多个帧,但是我找不到我需要做的事情的语法.

理想情况下,我会在命名约定下提取给定帧的列表,out_image%03d.jpg其中%03d由给定的帧号替换,尽管时间戳也可以工作.

有没有办法做到这一点?

shell ffmpeg video-processing data-extraction

6
推荐指数
1
解决办法
5363
查看次数