标签: flat-file

在将平面文件中的数据加载到配置单元表时获取空值

我将平面文件中的数据加载到配置单元表时获取空值.
我的表结构是这样的:

hive> create table test_hive (id int,value string);
Run Code Online (Sandbox Code Playgroud)

我的平面文件是这样的:input.txt

1   a
2   b
3   c
4   d
5   e
6   F
7   G
8   j
Run Code Online (Sandbox Code Playgroud)

当我运行以下命令时,我得到空值:

hive> LOAD DATA LOCAL INPATH '/home/hduser/input.txt' OVERWRITE INTO TABLE test_hive;
hive> select * from test_hive;
OK<br>
NULL    NULL
NULL    NULL
NULL    NULL
NULL    NULL
NULL    NULL
NULL    NULL
NULL    NULL
NULL    NULL
Run Code Online (Sandbox Code Playgroud)

屏幕截图:

hive> create table test_hive (id int,value string);
OK
Time taken: 4.97 seconds
hive> show tables;
OK
test_hive
Time taken: 0.124 …
Run Code Online (Sandbox Code Playgroud)

null hadoop hive flat-file hdfs

15
推荐指数
2
解决办法
4万
查看次数

是否有描述平面文件的标准格式?

是否有标准或开放格式可用于描述平面文件的格式化.我公司集成了许多不同的客户文件格式.使用XML文件,可以轻松获取或创建XSD来描述XML文件格式.我正在寻找类似于描述平面文件格式(固定宽度,分隔等)的东西.Stylus Studio使用专有的.conv格式来执行此操作.可以在运行时使用该.conv格式将任意平面文件转换为XML文件.我只是想知道是否有更多的开放或基于标准的方法来做同样的事情.

我正在寻找一种描述各种平面文件格式的方法,无论它们是固定宽度还是分隔,因此CSV不是这个问题的答案.

transformation flat-file delimited-text

14
推荐指数
1
解决办法
3609
查看次数

用C#解析EDI平面文件?

最初我正在考虑使用SSIS来解析EDI文件,但是我已经看过一些手动EDI解析器(字段映射),并且想在C#中使用自动化这个功能.

示例EDI文件:

示例EDI文件

c# parsing edi x12 flat-file

14
推荐指数
2
解决办法
3万
查看次数

对平面文件进行简单,快速的SQL查询

有没有人知道使用类似SQL的声明性查询语言提供简单,快速的平面文件查询的工具?我宁愿不支付将文件加载到DB中的开销,因为输入数据通常在查询运行后几乎立即被抛出.

考虑数据文件"animals.txt":

dog 15
cat 20
dog 10
cat 30
dog 5
cat 40
Run Code Online (Sandbox Code Playgroud)

假设我想为每个独特的动物提取最高值.我想写一些类似的东西:

cat animals.txt | foo "select $1, max(convert($2 using decimal)) group by $1"
Run Code Online (Sandbox Code Playgroud)

我可以得到几乎相同的结果sort:

cat animals.txt | sort -t " " -k1,1 -k2,2nr
Run Code Online (Sandbox Code Playgroud)

而且我总是可以awk从那里进入,但是awk当一种类似SQL的语言看起来如此干净地解决问题时,这一切都感觉有些困难(无法抗拒).

我已经考虑为SQLite编写一个包装器,它会根据输入数据自动创建一个表,我已经研究过在单处理器模式下使用Hive,但我不禁感到这个问题以前已经解决了.我错过了什么吗?此功能是否已由另一个标准工具实现?

HALP!

sql linux sorting flat-file

14
推荐指数
1
解决办法
5429
查看次数

什么时候在Python中使用数据库是合适的

我正在为游戏制作一个小插件,它需要在播放器上存储信息:

  • 用户名
  • IP地址
  • 游戏中的位置
  • 来自该用户名的ip或备用IP地址的备用用户名列表

我刚才读了一篇文章说,除非我存储了大量无法在ram中保存的信息,否则我不应该使用数据库.所以我尝试在python中使用shelve模块,但我不确定这是不是一个好主意.

你们什么时候认为使用数据库是一个好主意,何时以另一种方式存储信息更好,除了数据库和平面文件数据库之外,还有哪些其他方式来存储信息.

python database flat-file

13
推荐指数
2
解决办法
4083
查看次数

有没有一种聪明的方法来编写固定长度的平面文件?

是否有任何框架/库可以帮助在java中编写固定长度的平面文件?

我想把一个bean /实体的集合写成一个平面文件,而不用担心转换,填充,对齐,填充等等

例如,我想解析一个像:

public class Entity{
    String name = "name"; // length = 10; align left; fill with spaces
    Integer id = 123; // length = 5; align left; fill with spaces
    Integer serial = 321 // length = 5; align to right; fill with '0'
    Date register = new Date();// length = 8; convert to yyyyMMdd
}
Run Code Online (Sandbox Code Playgroud)

......进......

name      123  0032120110505
mikhas    5000 0122120110504
superuser 1    0000120101231
Run Code Online (Sandbox Code Playgroud)

...

java flat-file fixed-length-record fixed-length-file

11
推荐指数
2
解决办法
3万
查看次数

平面文件与数据库 - 速度?

我正在制作聊天程序,我需要一个存储消息的地方.客户端将每隔x秒与服务器联系并使用最后收到的消息ID,并且服务器将在客户端已加入的房间中找到ID高于该值的所有消息.

由于我不打算永远存储东西,我正在考虑使用平面文件(每个房间一个,以及直接消息),只有最后40个左右的消息.但是我认为通过比较数字,数据库会更快.

我应该使用什么方法的数据存储?

php mysql flat-file

11
推荐指数
1
解决办法
9874
查看次数

术语平面文件来自哪里?

我想知道是否有人知道."扁平"是否与层级相反?它是否来自"这是一个平坦的常规文件"之类的短语?

history flat-file

10
推荐指数
1
解决办法
1045
查看次数

用什么参数来解释为什么SQL Server比平面文件要好得多

我的公司的高层朋友告诉好朋友,平面文件是可行的方法,我们应该从SQL Server切换到他们所做的一切.我们有超过300台服务器和数百个不同的数据库.从我参与的少数几个中我们有相当多的记录,每天有超过10万条记录,并且知道有多少更新...我和其他几个人需要提出回复说为什么我们不应该这样做.我们的大多数东西都是带有一些传统ASP的ASP.NET.我们认为制作一个简单的控制台应用程序可以测试/计算平面文件(存储在网络上)和网络上的SQL之间的相同交互,这些交互执行大型插入,搜索,更新等以及网络等随机断开的连接.这会告诉他们平面文件有多糟糕,

我应该在回复中使用哪些内容?我应该如何使用我的演示代码来说明这一点?

到目前为止我的排序列表:

  • 安全
  • 并发访问
  • 具有大量数据的性能
  • 进行如此大规模的重写/切换以及巨额成本的时间
  • 缺乏交易
  • PITA将关系数据映射到平面文件
  • NTFS不能很好地支持目录中的大量文件
  • 缺乏临时数据搜索/操作
  • 实施数据完整性
  • 从网络中断恢复
  • 客户端在等待其他客户端更改提交时发生延迟
  • 很久以前,大多数人都停止使用平面文件进行此类存储
  • 负载平衡/复制

我担心,如果我现在无法阻止它,那么有一天这将成为每日WTF上的一篇伟大帖子.

另外

有谁知道有关HIPPA的任何内容都可以用于这场斗争吗?我们的许多记录都是患者记录......

sql-server flat-file

10
推荐指数
3
解决办法
822
查看次数

SSIS正在删除平面文件源导入的记录

我在SSIS(2008)遇到了一个非常奇怪的问题.

基本工作流程如下..

使用flatfile源(CSV),进入SSIS,进入SQL.

当进程在开发环境中运行时,一切都运行良好.

当dtsx软件包在生产中使用完全相同的平面文件源时,文件中的最后一条记录在到达SQL proc开始时就被删除了.

已经完成了我可能想到的所有内容,包括行分隔符,列分隔符,重建平面文件源连接.

以前有人见过这样的事吗?

CSV文件包含10条记录,共有4列.它由逗号分隔,并由{CR} {LF}分隔.该文件由Excel生成,并在CSV文件的末尾有一个空行.

如果需要更多信息,请与我们联系.我不知道我能提供什么.

ssis record flat-file sql-server-2008

10
推荐指数
2
解决办法
7060
查看次数