Python中类似Excel的文本导入:自动解析固定宽度列

tel*_*tel 6 python excel parsing text fixed-width

在Excel中,如果导入空格描述的文本,其中列不完美排列且数据可能丢失,例如

  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18
Run Code Online (Sandbox Code Playgroud)

您可以选择将其视为固定宽度列,Excel可以自动计算出列宽,通常效果非常好.Python中是否有一个库可以以类似的自动方式分解格式不正确的固定宽度文本?

编辑: 这是固定宽度文本导入在Excel中的样子.在第一步中,您只需选中"固定宽度"单选按钮,然后在第二步中Excel已自动添加了分栏符.唯一不能正确执行的是当每行中的每个列中没有至少一个空格字符重叠时.

在Excel中导入固定宽度的文本

小智 4

首先,Excel(2003,家用版)并不是那么智能。如果你的列1000*chi2包含空格,例如1000 * chi2,excel会猜错。

简单的情况:如果你的数据最初是用制表符(而不是空格)分隔的,并且使用多个制表符来指示空列,那么,至少在 TCL 中,很容易按制表符内容分割每一行,我想在 Python 中也很简单。

但我猜你的问题是他们只使用了空格字符。我看到解决这个问题的最大线索是将文本粘贴到记事本中并选择固定大小的字体。一切都排列整齐,您可以使用每行中的字符数来衡量“长度”。

因此,如果您可以依赖输入的此功能,那么您可以使用“筛子”方法来自动识别分栏符的位置。当您在第一遍中仔细阅读各行时,请注意该行中被非空白占据的“位置”,如果该位置曾经被非空白占据,则从列表中删除该位置。当您前进时,您将很快到达一组永远不会被非空白区域占据的位置。那么,这些就是您的列分隔线。在你的例子中,你的“筛子”最终会出现位置 10-16, 23-24,32, 42-47 永远不会被非空白占据(假设我能数数)。因此,该集的补集是数据必须位于的列位置集。因此,对于每一行,每个非空白块都将恰好适合上面标识的位置集(即补集)中的一列。我从来没有用Python编码过,所以附上一个TCL脚本,它将使用筛子方法识别文本中分栏符的位置,并发出一个新的文本文件,其中这些空格字符被单个制表符替换 - 即。10-16 被一个制表符替换,23-24 被另一个制表符替换,等等。生成的文件是制表符分隔的,即简单的情况。我承认我只在你的小案例数据上尝试过,复制到一个名为 ex.txt 的文本文件中;输出转到 ex_.txt。我怀疑如果标题包含空格也可能有问题。

希望这可以帮助!

set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne " "} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied "positions": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts "occupied: $datacols"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts "col break starts at $start, ends at $end";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file, replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ]
  }
  puts "newline is $line"
  puts $fh $line
}
close $fh
Run Code Online (Sandbox Code Playgroud)