我有许多类似的字符串Current Level: 13.4 db.,我想提取浮点数.我说漂浮而不是十进制,因为它有时是完整的.RegEx能做到这一点还是有更好的方法?
我需要将一些数据从PostgreSQL导出到Excel(快速客户希望),以及上次Excel在打开或导入我的COPYd csv文件(行结尾,utf-8编码等)时遇到严重问题,我花了一个小时最好.
有人知道一个生成真实Excel文件的快速,优雅的解决方案吗?像一个小shell脚本或类似?
我希望这可以在我的Linux机箱(Debian 5.0 Lenny)或Windows(XP或更高版本)上完成.
背景:
我有一个PostgreSQL(v8.3)数据库,它针对OLTP进行了大量优化.
我需要半实时地从中提取数据(有些人必然要问半实时意味着什么,答案是我合理的频率但是我会务实,因为基准可以说我们希望每15分钟一次并将其送入数据仓库.
多少数据?在高峰时段,我们正在谈论每分钟大约80-100k行击中OLTP侧,非高峰时这将大幅下降到15-20k.最频繁更新的行每个约64个字节,但有各种表等,因此数据非常多样化,每行最多可达4000个字节.OLTP处于活动状态24x5.5.
最佳方案?
从我可以拼凑起来的最实用的解决方案如下:
为什么这种做法?
考虑的替代方案......
有没有人这样做过?想分享你的想法?
postgresql etl near-real-time data-warehouse data-extraction
我想在Google地图网页中提取一组约50-100个针脚的纬度和经度.我不控制页面,我不需要多次这样做,所以我正在寻找快速和肮脏的东西.我有FireFox和FireBug以及Chrome,所有我需要的东西比重新键入所有数字更容易.
我想解析一个网页并从中提取有意义的内容.有意义的,我指的是用户想要在该特定页面中看到的内容(仅文本)(数据不包括广告,横幅,评论等)我想确保当用户保存页面时,他想要的数据读保存,没有别的.
简而言之,我需要构建一个像Readability一样工作的应用程序.(http://www.readability.com)我需要将这个有用的网页内容存储在一个单独的文件中.我真的不知道如何去做.
我不想使用需要我连接到互联网并从他们的服务器获取数据的API,因为数据提取过程需要离线完成.
我能想到两种方法:
使用基于机器学习的算法(如下所示:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/)
开发一个可以令人满意地从网页中删除所有混乱的网络刮刀.
是否有现成的工具可以做到这一点?我遇到了samppipe库(http://code.google.com/p/boilerpipe/),但没有使用它.有人用过吗?它会给出满意的结果吗?还有其他工具,特别是用PHP或Python编写的这种网络抓取工具吗?
如果我需要构建自己的工具来做这件事,你们会建议怎么做呢?
因为在开始解析之前我需要清理凌乱或不完整的HTML,我会使用像Tidy(http://www.w3.org/People/Raggett/tidy/)或Beautiful Soup 这样的工具(http: //www.crummy.com/software/BeautifulSoup/bs4/doc/)完成这项工作.
但是我不知道在这一步之后如何提取内容.
PS.我是一个业余爱好者,如果准备好使用开源工具来做这件事,我会很高兴,并且可以很容易地集成到我用PHP或Python编写的代码中.或者,如果我必须编写自己的代码,我很乐意获得之前完成此类工作的指导!:) 非常感谢!
我的任务是从旧软件的数据文件中提取数据 - CIMplicity HMI Plant Edition 6.0版.它是2002年的SCADA软件.我有一份数据文件目录,里面包含很多*.DAT和*.IDX文件.我需要将此数据提取到CSV或SQL数据库.一些DAT文件只是纯文本,但其他文件具有类似二进制的格式,在PSPad中打开时,以HEX视图模式显示.
我可以使用哪些工具可靠地从这些文件中读取和提取数据?
TIA.
更新:我已经添加了包含数据文件的目录的目录列表:
Directory of C:\tmp\xxxxxxII\data
04/30/2013 01:53 PM <DIR> .
04/30/2013 01:53 PM <DIR> ..
09/02/2008 10:46 AM 17,260 1220323606.clz
09/02/2008 10:46 AM 60,490 1220323607.clz
09/10/2008 06:36 PM 288,554 1220323608.clz
09/02/2008 10:46 AM 66,977 1220323609.clz
09/10/2008 06:37 PM 23,900 1220323610.clz
09/10/2008 06:37 PM 19,162 1220323611.clz
09/10/2008 06:48 PM 37,596 1220323612.clz
09/10/2008 06:49 PM 27,882 1220323613.clz
09/10/2008 06:49 PM 47,850 1220323614.clz
09/10/2008 06:50 PM 47,816 1220323615.clz
09/10/2008 06:52 PM 3,427,511 1220323616.clz
09/02/2008 10:46 …Run Code Online (Sandbox Code Playgroud) 我正在努力教自己红宝石并解决工作中的问题.我的最终目标是从API中提取JSON响应中的许多字段中的三个,操作并转储到CSV以进行执行报告.
JSON的结构是:
{
"status": 200,
"data": {
"total": 251,
"alerts": [
{
"dataPoint": "x",
"ackedBy": "x",
"dataSourceInstance": "x",
"dataSource": "x",
"host": "x",
"endOn": 0,
"ackedOn": 1385085190,
"dataSourceInstanceId": 588384,
"hostId": 935,
"type": "alert",
"dataSourceId": 694,
"ackedOnLocal": "2013-11-21 17:53:10 PST",
"id": 6170384,
"startOn": 1385084917,
"thresholds": "!= 1 1 1",
"endOnLocal": "",
"level": "error",
"ackComment": "x",
"value": "No Data",
"hostDataSourceId": 211986,
"acked": true,
"hostGroups": [{
"alertEnable": true,
"createdOn": 1362084592,
"id": 21,
"parentId": 78,
"description": "",
"appliesTo": "",
"name": "2600hz",
"fullPath": "x"
}],
"startOnLocal": …Run Code Online (Sandbox Code Playgroud) camelot使用和从数字 PDF 中提取表格数据非常简单tabula。但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用生成垂直和水平线OpenCV。然而,由于扫描图像会有轻微的旋转角度,因此很难继续该方法。
我们如何利用OpenCV为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何使扫描图像的旋转角度无效?
python ocr image-processing data-extraction document-layout-analysis
我正在寻找像HTML :: TableExtract这样的东西,不是用于HTML输入,而是用于包含用缩进和间距格式化的"表格"的纯文本输入.
数据可能如下所示:
Here is some header text.
Column One Column Two Column Three
a b
a b c
Some more text
Another Table Another Column
abdbdbdb aaaa
Run Code Online (Sandbox Code Playgroud) 我正在尝试在视频上使用ffmpeg来提取特定帧的列表,用它们的帧号表示.所以我想说我想从'test_video.mp4'中提取一帧,准确地说是帧号150.我可以使用以下命令
ffmpeg -i test_video.mp4 -vf "select=gte(n\, 150)" -vframes 1 ~/test_image.jpg
但是,如果我想确定一个帧列表,例如[100, 110, 127, 270, 300]?我一直在看这个页面(https://ffmpeg.org/ffmpeg-filters.html#select_002c-aselect),可以看到有很多方法可以根据帧号,时间戳等的奇偶校验提取多个帧,但是我找不到我需要做的事情的语法.
理想情况下,我会在命名约定下提取给定帧的列表,out_image%03d.jpg其中%03d由给定的帧号替换,尽管时间戳也可以工作.
有没有办法做到这一点?
data-extraction ×10
python ×3
parsing ×2
postgresql ×2
debian ×1
etl ×1
excel ×1
ffmpeg ×1
google-maps ×1
html-parsing ×1
json ×1
ocr ×1
perl ×1
php ×1
regex ×1
ruby ×1
scada ×1
shell ×1
sql ×1
text-parsing ×1
web-scraping ×1