删除具有缺失值的整行 C++
Remove entire rows with missing values c++
我正在通过以下代码读取具有不同变量的数据,目前当程序触及缺失值时(在数据中由字符串"NA"表示,它会将它们更改为零。或者,我想知道如何我们可以在程序 touch "NA" 时删除整行吗?我试图寻找相同的问题,但它们都是针对 R,而不是 C++。请给我一些建议。谢谢
#include <iostream>
#include <fstream>
#include <string>
#include <vector>
using namespace std;
struct Data {
vector<double> cow_id;
vector<double> age_obs;
vector<double> dim_obs;
vector<double> my_obs;
vector<double> mcf_obs;
vector<double> mcp_obs;
vector<double> mcl_obs;
vector<double> bw_obs;
vector<double> bcs_obs;
double get_number (string value)
{
if (value == "NA")
{return 0.0;}
else
{
istringstream iss (value);
double val;
iss>>val;
return val;
}
}
void read_input (const string filepath)
{
ifstream data_in (filepath.c_str());
if (!data_in)
{cout<<"Failed to open"<<endl;}
else
{
// Read tokens as strings.
string id, age, dim, my, mcf, mcp, mcl, bw, bcs;
string dummy_line;
getline(data_in, dummy_line);
string line;
while (data_in >> id >> age >> dim >> my >> mcf >> mcp >> mcl >> bw >> bcs)
{
// Get the number from the string and add to the vectors.
cow_id.push_back(get_number(id));
age_obs.push_back(get_number(age));
dim_obs.push_back(get_number(dim));
my_obs.push_back(get_number(my));
mcf_obs.push_back(get_number(mcf));
mcp_obs.push_back(get_number(mcp));
mcl_obs.push_back(get_number(mcl));
bw_obs.push_back(get_number(bw));
bcs_obs.push_back(get_number(bcs));
}
data_in.close();
}
size_t size=age_obs.size();
for (size_t i=0; i<size; i++)
{
cout<<cow_id[i]<<'\t'<<age_obs[i]<<'\t'<<dim_obs[i]<<'\t'<<my_obs[i] <<'\t'<<mcf_obs[i]<<'\t'<<mcp_obs[i]<<'\t'<<mcl_obs[i]<<'\t'<<bw_obs[i] <<'\t'<<bcs_obs[i]<<endl;
}
};
int main()
{
Data input;
input.read_input("C:\Data\C++\learncpp\data.txt");
}
让我们在这里谈谈 table。
表格是记录(行)的容器。您从输入文件中捕获的数据已经组织成记录。因此,显而易见的模型是使用与文件数据记录相匹配的结构。
struct Record
{
unsigned int cow_id;
unsigned int age_obs;
unsigned int dim_obs;
// ...
};
您的 table 可以表示为:
std::vector<record> my_table;
所以要从table中删除一条记录,可以使用std::vector::erase()
方法。简单。另外,您可以使用 std::find()
函数来搜索 table。
让我们通过引入记录从文件中加载其成员的概念来减轻一些 reader 对您当前代码的头痛。
从文件中读取记录最好通过重载流提取来执行 operator>>
:
struct Record
{
//...
friend std::istream& operator>>(std::istream& input, Record& r);
};
std::istream&
operator>>(std::istream& input, Record& r)
{
std::string record_text;
std::getline(input, record_text);
// Extract a field from the record text and check for NA,
// Assign fields of r to those values:
r.cow_id = value;
// Etc.
return input;
}
使用重载运算符,您的输入如下所示:
Record r;
while (input_file >> r)
{
table.push_back(r);
}
优雅而简单(减少缺陷注入)。
我正在通过以下代码读取具有不同变量的数据,目前当程序触及缺失值时(在数据中由字符串"NA"表示,它会将它们更改为零。或者,我想知道如何我们可以在程序 touch "NA" 时删除整行吗?我试图寻找相同的问题,但它们都是针对 R,而不是 C++。请给我一些建议。谢谢
#include <iostream>
#include <fstream>
#include <string>
#include <vector>
using namespace std;
struct Data {
vector<double> cow_id;
vector<double> age_obs;
vector<double> dim_obs;
vector<double> my_obs;
vector<double> mcf_obs;
vector<double> mcp_obs;
vector<double> mcl_obs;
vector<double> bw_obs;
vector<double> bcs_obs;
double get_number (string value)
{
if (value == "NA")
{return 0.0;}
else
{
istringstream iss (value);
double val;
iss>>val;
return val;
}
}
void read_input (const string filepath)
{
ifstream data_in (filepath.c_str());
if (!data_in)
{cout<<"Failed to open"<<endl;}
else
{
// Read tokens as strings.
string id, age, dim, my, mcf, mcp, mcl, bw, bcs;
string dummy_line;
getline(data_in, dummy_line);
string line;
while (data_in >> id >> age >> dim >> my >> mcf >> mcp >> mcl >> bw >> bcs)
{
// Get the number from the string and add to the vectors.
cow_id.push_back(get_number(id));
age_obs.push_back(get_number(age));
dim_obs.push_back(get_number(dim));
my_obs.push_back(get_number(my));
mcf_obs.push_back(get_number(mcf));
mcp_obs.push_back(get_number(mcp));
mcl_obs.push_back(get_number(mcl));
bw_obs.push_back(get_number(bw));
bcs_obs.push_back(get_number(bcs));
}
data_in.close();
}
size_t size=age_obs.size();
for (size_t i=0; i<size; i++)
{
cout<<cow_id[i]<<'\t'<<age_obs[i]<<'\t'<<dim_obs[i]<<'\t'<<my_obs[i] <<'\t'<<mcf_obs[i]<<'\t'<<mcp_obs[i]<<'\t'<<mcl_obs[i]<<'\t'<<bw_obs[i] <<'\t'<<bcs_obs[i]<<endl;
}
};
int main()
{
Data input;
input.read_input("C:\Data\C++\learncpp\data.txt");
}
让我们在这里谈谈 table。
表格是记录(行)的容器。您从输入文件中捕获的数据已经组织成记录。因此,显而易见的模型是使用与文件数据记录相匹配的结构。
struct Record
{
unsigned int cow_id;
unsigned int age_obs;
unsigned int dim_obs;
// ...
};
您的 table 可以表示为:
std::vector<record> my_table;
所以要从table中删除一条记录,可以使用std::vector::erase()
方法。简单。另外,您可以使用 std::find()
函数来搜索 table。
让我们通过引入记录从文件中加载其成员的概念来减轻一些 reader 对您当前代码的头痛。
从文件中读取记录最好通过重载流提取来执行 operator>>
:
struct Record
{
//...
friend std::istream& operator>>(std::istream& input, Record& r);
};
std::istream&
operator>>(std::istream& input, Record& r)
{
std::string record_text;
std::getline(input, record_text);
// Extract a field from the record text and check for NA,
// Assign fields of r to those values:
r.cow_id = value;
// Etc.
return input;
}
使用重载运算符,您的输入如下所示:
Record r;
while (input_file >> r)
{
table.push_back(r);
}
优雅而简单(减少缺陷注入)。