我尝试了其他答案中提到的一些修复,但它们对我的输出没有影响。我不打算使用 boost 精神,因为我不确定它是否是满足我需求的最佳选择。此外,类似的帖子不涉及包含逗号的引用材料,这是我目前要解决的最后一个问题。
这是一个 C++ 程序。我使用 CSV 文件作为输入。该文件给出了印章的特征,每个条目有 23 个值(列)。当我输出 rawdata[22] 时,我希望看到第一组数据的最后一个条目。相反,我看到最后一个条目(请愿),然后是下一个印章的第一个条目(2055)。当我在十六进制编辑器中打开它时,我看到这两个词被一个“。”隔开。并且十六进制字符是 0a。我曾尝试将 \r、\n、\r\n 设置为分隔符,但它们不起作用。我不能使用“,”作为分隔符,因为它在字符串中使用,我测试了它是否可以解决我的问题,但它没有。如何分离这些值?
输出:
Petitioned
2055
样本输入:
物种 ID、王国、门、类、顺序、科、属、物种、权威、种下等级、种下名称、种下权威、种群/亚群、同义词、通用名称 (Eng)、通用名称 (Fre)、通用名称 (Spa) ,红色名录状态,红色名录标准,红色名录标准版本,评估年份,人口趋势,请愿 2055,动物,脊索动物,哺乳动物,食肉动物,蛱蝶科,Arctocephalus,australis,"(Zimmermann, 1783)",,,,,Arctophoca australis,South American Fur Seal,Otarie Fourrure Australe,Oso Marino Austral,LC,16. , 增加, N 41664,ANIMALIA,CHORDATA,MAMMALIA,CARNIVORA,OTARIIDAE,Arctocephalus,forsteri,"(Lesson, 1828)",,,,,Arctocephalus australis subspecies forsteri|Arctophoca australis subspecies forsteri,Antipodocephalis subspecies forsteri,"新西兰毛皮海豹,"新西兰毛皮海豹Seal, Black Fur Seal, Long-nosed Fur Seal, South Australia Fur Seal",,,LC,,3.1,2015,increasing,N
我的代码:
#include <iostream>
#include <sstream>
#include <fstream>
#include <string>
#include <vector>
using namespace std;
int main() {
string line;
vector<string> rawdata;
ifstream file ( "/Users/darla/Desktop/Programs/seals.csv" );
if ( file.good() )
{
while(getline(file, line, '"')) {
stringstream ss(line);
while (getline(ss, line, ',')) {
rawdata.push_back(line);
}
if (getline(file, line, '"')) {
rawdata.push_back(line);
}
}
}
cout << rawdata[22] << endl;
return 0;
Run Code Online (Sandbox Code Playgroud)
这远不是一个完整的 CSV 解析器,可以提高效率,但它可以完成工作,正确解析文件并处理双引号。
#include <iostream>
#include <sstream>
#include <fstream>
#include <string>
#include <vector>
#include <algorithm>
int main()
{
std::string line;
std::vector<std::vector<std::string>> lines;
std::ifstream file("/Users/darla/Desktop/Programs/seals.csv");
if (file)
{
while (std::getline(file, line))
{
size_t n = lines.size();
lines.resize(n + 1);
std::istringstream ss(line);
std::string field, push_field("");
bool no_quotes = true;
while (std::getline(ss, field, ','))
{
if (static_cast<size_t>(std::count(field.begin(), field.end(), '"')) % 2 != 0)
{
no_quotes = !no_quotes;
}
push_field += field + (no_quotes ? "" : ",");
if (no_quotes)
{
lines[n].push_back(push_field);
push_field.clear();
}
}
}
}
for (auto line : lines)
{
for (auto field : line)
{
std::cout << "| " << field << " |";
}
std::cout << std::endl << std::endl;
}
return 0;
}
Run Code Online (Sandbox Code Playgroud)
一个解释。该程序读取文件行并尝试按字段(以逗号分隔)解析每一行,然后将结果存储在向量的向量中。如果遇到带有双引号的字段并且双引号为奇数,则意味着它是一个开放字段,因此会读入更多字段,直到找到结束字段,然后存储完整的字段。如果字段包含偶数个双引号或不包含,则立即存储。希望这可以帮助。