我通过选择Export-> Related files 从OECD http://stats.oecd.org/Index.aspx?datasetcode=CRS1("CRS 2013 data.txt')下载文件.我想在Ubuntu(14.04 LTS)中使用此文件.
当我跑:
dos2unix CRS\ 2013\ data.txt
Run Code Online (Sandbox Code Playgroud)
我知道了:
dos2unix: Binary symbol 0x0004 found at line 1703
dos2unix: Skipping binary file CRS 2013 data.txt
Run Code Online (Sandbox Code Playgroud)
我检查文件的编码:
file --mime-encoding CRS\ 2013\ data.txt
Run Code Online (Sandbox Code Playgroud)
并看到:
CRS 2013 data.txt: utf-16le
Run Code Online (Sandbox Code Playgroud)
我做:
iconv -l | grep utf-16le
Run Code Online (Sandbox Code Playgroud)
这不会返回任何东西,所以我这样做:
iconv -l | grep UTF-16LE
Run Code Online (Sandbox Code Playgroud)
返回:
UTF-16LE//
Run Code Online (Sandbox Code Playgroud)
然后我跑:
iconv --verbose -f UTF-16LE -t UTF-8 CRS\ 2013\ data.txt -o crs_2013_data_temp.txt
Run Code Online (Sandbox Code Playgroud)
并检查:
file --mime-encoding crs_2013_data_temp.txt
Run Code Online (Sandbox Code Playgroud)
并看到:
crs_2013_data_temp.txt: utf-8
Run Code Online (Sandbox Code Playgroud)
然后我尝试:
dos2unix crs_2013_data_temp.txt
Run Code Online (Sandbox Code Playgroud)
得到:
dos2unix: Binary …Run Code Online (Sandbox Code Playgroud)