我想知道我可以在sed中使用哪种模式来更改巨大文件的第一行(~2 GB).对sed的偏好只是因为我认为它必须比Python或Perl脚本更快.
这些文件具有以下结构:
field 1, field 2, ... field n
data
Run Code Online (Sandbox Code Playgroud)
并且,考虑到每个字段的标识符中都有空格的可能性,我需要用这种方式用下划线替换每个空格:
**BEFORE**
the first name,the second name,the first surname,a nickname, ...
data
**AFTER**
the_first_name,the_second_name,the_first_surname,a_nickname, ...
data
Run Code Online (Sandbox Code Playgroud)
任何指向正确模式的指针,或其他脚本解决方案都会很棒.
我需要开发自定义软件来进行调查.问题可能有多种选择,或者在极少数情况下可以是自由文本.
我被要求设计一个子系统来检查多个选择部分的手动数据条目是否有任何错误.我们正在努力加快用户数据输入流程,并尽量减少数字表格和原始问卷之间的人为输入差异.调查由人工访问者填写手写标记和文本,因此可能会发现难以阅读的标记,或者用户可能会在某些问题中意外选择不同的值,我们希望避免这种情况.
该软件必须包含一些自动控制,以检测可能的键入差异.多项选择题的每个答案具有相同的被选择概率.
这个问题有两个部分:
我想到的最简单的事情是实现问题显示的最有用的设计:使用大而可读的字体和空间慷慨的选择.还有别的吗?为了更快的输入,我想使用下拉列表(偏向键盘而不是鼠标).鉴于问题按部分分组,我想显示为该部分的问题选择的答案,但这可能会减慢这一过程.还有其他想法吗?
我还可以做些什么来最小化或检查多项选择题中的人为拼写错误?这是一个可以解决的问题吗?是否有一些统计方法来检查用户输入的值是否与手工填写的表格相同?例如,我们假设调查有5个问题,每个问题有4个选项.假设我有n个调查表,由访调员填写论文,他们已准备好输入软件,然后如何最大限度地减少可能有n次调查的手动转录的意外差异,而无需仔细检查所有内容n次调查的5个问题?
我的第一个建议是,在处理所有手工填写表格的最后,软件可以随机选择一些表格,在几个实例中对答复进行双重检查,但我可以根据什么标准进行选择?这种验证足以涵盖所有内容吗?
实际调查是国家层面的,共有56页,总共有200多个问题,所以很多人都会写很多手写页面,目的是减少错误的可能性并优化数据输入的速度处理.考虑到采访笔记本电脑或掌上电脑的复杂性,调查必须首先填写.
我想尝试一下有关分布式文件同步/复制的想法.为了在用户工作时提高效率,我想实现某种守护进程来监视某些目录中的更改(例如/ home/user/dirToBeMonitored或c:\ docs和setts\user\dirToBeMonitored).因此,我可以知道每次(或在合理的时间间隔内)添加/更改/删除了哪个文件名.
这可能与任何高中级语言一起使用吗?你知道一些API(以及使用哪种语言?)来做到这一点?
谢谢.
除了语法糖和表现力之外,运行效率的差异是什么.我的意思是,plpgsql可以比plpythonu或pljava快吗?或者它们大致相等?
我们正在使用存储过程来检测中等大小的数据库(大约10M的记录)中几乎重复的人员记录的任务
如何在Django Form的给定字段中单击事件中将JavaScript函数设置为处理程序.这可能吗?
任何线索将不胜感激.
我们计划构建一个动态数据导入工具。基本上是在一端以指定格式(access、excel、csv)获取信息并将其上传到 Web 服务中。
情况是我们不知道导出字段名称,因此应用程序需要能够查看 wsdl 定义并映射到另一端的有效条目。
在导入部分,我们可以定义大部分字段,但通常有一些是自定义的。我认为这没有问题。
我只是想知道是否有一种设计模式适合此类应用程序或有助于其开发。
鉴于此算法,我想知道是否存在迭代版本.另外,我想知道迭代版本是否更快.
这种伪蟒...
该算法返回对树的根的引用
make_tree(array a)
if len(a) == 0
return None;
node = pick a random point from the array
calculate distances of the point against the others
calculate median of such distances
node.left = make_tree(subset of the array, such that the distance of points is lower to the median of distances)
node.right = make_tree(subset, such the distance is greater or equal to the median)
return node
Run Code Online (Sandbox Code Playgroud) 我一直听到许多企业家的座右铭:做你热爱的事,不要为了钱而做任何事情!
我同意将钱作为交换的手段,但我认为这是一个重要因素.
您有什么建议/想法,IT企业家:关注市场/金钱或者您热衷于什么?
我做了这个测试,结果看起来计数功能是线性的.我有另一个功能强烈依赖效率知道是否有任何数据,所以我想知道如何用另一个更有效(可能是常量?)的查询或数据结构替换这个选择计数(*).
psql -d testdb -U postgres -f truncate_and_insert_1000_rows.sql> NUL
psql -d testdb -U postgres -f count_data.sql
聚合(成本= 36.75..36.76行= 1宽度= 0)(实际时间= 0.762..0.763行= 1个循环= 1) - >数据上的Seq扫描(成本= 0.00..31.40行= 2140宽度= 0) (实际时间= 0.02 8..0.468行= 1000次循环= 1)总运行时间:0.846 ms (3 filas)
psql -d testdb -U postgres -f truncate_and_insert_10000_rows.sql> NUL
psql -d testdb -U postgres -f count_data.sql
聚合(成本= 197.84..197.85行= 1宽度= 0)(实际时间= 6.191..6.191行= 1个循环= 1) - >数据上的Seq扫描(成本= 0.00..173.07行= 9907宽度= 0) (实际时间= 0.0 09..3.407行= 10000循环= 1)总运行时间:6.271 ms (3 filas)
psql -d testdb …
您更喜欢在数据库中存储哪一个文本?数据的原始大小,或某种规范化.另外,我应该用触发器强制执行此操作吗?或者我应该使用客户端代码预处理输入数据?
我问你,因为我不确定是否有任何差别,除了显示数据的额外处理时间(例如,名称的大小写).
postgresql ×2
algorithm ×1
binary-tree ×1
database ×1
django ×1
django-forms ×1
etl ×1
file ×1
iteration ×1
javascript ×1
perl ×1
plpgsql ×1
recursion ×1
scripting ×1
sed ×1
statistics ×1
survey ×1
web-services ×1