我正在尝试使用wget和url从数据库下载文件.例如
wget" http://www.rcsb.org/pdb/files/1BXS.pdb "
所以url的格式是这样的:http://www.rcsb.org/pdb/files/($ idnumber).pdb"
但我有很多文件需要下载; 所以我写了一个bash脚本,从文本文件中读取id_numbers,形成url字符串并通过wget下载.
!/bin/bash
while read line
do
url="http://www.rcsb.org/pdb/files/$line.pdb"
echo -e $url
wget $url
done < id_numbers.txt
Run Code Online (Sandbox Code Playgroud)
但是,url字符串形成为
.pdb://www.rcsb.org/pdb/files/4H80
Run Code Online (Sandbox Code Playgroud)
所以,.pdb
是补充http
.我无法弄清楚为什么.有没有人有想法?我如何格式化它以便url
"http://www.rcsb.org/pdb/files/($idnumber).pdb"
Run Code Online (Sandbox Code Playgroud)
?非常感谢.
注意.这个问题被标记为"如何在bash中连接字符串?"的副本 但我实际上是在寻求别的东西.我在问这个问题之前就已经阅读了这个问题,事实证明我的问题是在Windows中准备txt文件并不是真正的字符串.我编辑了问题标题.我希望现在更清楚了.
我经常使用 Python 解析格式化文本文件(用于生物学研究,但我会尝试以不需要生物学背景的方式提出我的问题。)我处理一种包含 3D 的文件类型 - 称为 pdb 文件 -格式化文本中蛋白质的结构。这是一个例子:
HEADER CHROMOSOMAL PROTEIN 02-JAN-87 1UBQ
TITLE STRUCTURE OF UBIQUITIN REFINED AT 1.8 ANGSTROMS RESOLUTION
REMARK 1
REMARK 1 REFERENCE 1
REMARK 1 AUTH S.VIJAY-KUMAR,C.E.BUGG,K.D.WILKINSON,R.D.VIERSTRA,
REMARK 1 AUTH 2 P.M.HATFIELD,W.J.COOK
REMARK 1 TITL COMPARISON OF THE THREE-DIMENSIONAL STRUCTURES OF HUMAN,
REMARK 1 TITL 2 YEAST, AND OAT UBIQUITIN
REMARK 1 REF J.BIOL.CHEM. V. 262 6396 1987
REMARK 1 REFN ISSN 0021-9258
ATOM 1 N MET A 1 27.340 24.430 2.614 1.00 …
Run Code Online (Sandbox Code Playgroud) 我有两列:一列为 Integer 类型,一列为 linalg.Vector 类型。我可以将 linalg.Vector 转换为数组。每个数组有 32 个元素。我想将数组中的每个元素转换为一列。所以输入就像:
column1 column2
(3, 5, 25, ...., 12) 3
(2, 7, 15, ...., 10) 4
(1, 10, 12, ..., 35) 2
Run Code Online (Sandbox Code Playgroud)
输出应该是:
column1_1 column1_2 column1_3 ......... column1_32 column 2
3 5 25 ......... 12 3
2 7 15 ......... 10 4
1 1 0 12 ......... 12 2
Run Code Online (Sandbox Code Playgroud)
但在我的例子中,数组中有 32 个元素。在spark scala中使用有问题的Convert Array of String column to multiple columns的方法太多了
我尝试了几种方法,但都不起作用。这样做的正确方法是什么?
多谢。