System.OutofMemoryException 使用 C# 读取大型文本文件时
System.OutofMemoryException while reading a large text file using C#
我有读取文本文件并填充 .Net 数据表的代码。该代码在读取具有 100,000 行数据的较小文本文件时工作正常。 (见下面的片段)当我尝试读取更大的文本文件大小(如 200MB 并且有 360 万行数据)时,我抛出了 System.OutofMemoryException 的异常。想问一种将大数据读入特定块的有效方法。
using (var stream = File.Open(filePath, FileMode.Open))
{
var content = new StreamContent(stream);
var fileStream = content.ReadAsStreamAsync().Result;
if (fileStream == null) throw new ArgumentException(Constants.FileEmptyErrorMessage);
using (var bs = new BufferedStream(fileStream))
{
using (var reader = new StreamReader(bs, Encoding.GetEncoding(Constants.IsoEncoding)))
{
while (!reader.EndOfStream)
{
var line = reader.ReadLine();
if (!String.IsNullOrEmpty(line))
{
string[] rows = line.Trim().Split(new char[] { ';' }, StringSplitOptions.None);
DataRow dr = Table.NewRow();
dr[Constants.Percepcion] = rows[0];
dr[Constants.StartDate] = DateTime.ParseExact(rows[2].ToString(), "ddMMyyyy",
CultureInfo.InvariantCulture);
dr[Constants.EndDate] = DateTime.ParseExact(rows[3].ToString(), "ddMMyyyy",
CultureInfo.InvariantCulture);
dr[Constants.CID] = rows[4];
dr[Constants.Rate] = rows[8];
Table.Rows.Add(dr);
}
}
}
}
}
我可以看出内存泄漏不是因为您已经逐行读取了整个文件 var line = reader.ReadLine();
。我认为泄漏是因为数据表的大小 Table
因为它包含整个文件的所有数据。
我建议以下选项之一:
1. 如果您对数据表的行执行聚合函数,只需执行它们(如设置整数计数器或双 max_columnX)而不保留整行。
2.如果确实需要保留所有的行。创建一个数据库(MSSQL/MYSQL/ 或任何数据库)并逐行读取文件 - 正如您所做的那样 - 并将这些数据插入数据库。然后根据您的条件查询数据库。
3. 您可以将整个文件批量插入到数据库中,而无需通过 C# 应用程序对其进行处理。这是一个 SQL 服务器 example:
BULK INSERT AdventureWorks2012.Sales.SalesOrderDetail
FROM 'f:\orders\lineitem.tbl'
WITH
(
FIELDTERMINATOR =';',
ROWTERMINATOR = '\n',
FIRE_TRIGGERS
);
编辑:
您可以附加一个内存分析器来找出究竟是什么占用了大内存并将其添加到问题中。这将有助于获得更好的答案。
如果您更改 BufferedStream 的默认缓冲区大小,那么它应该会以更高的效率为您加载更大的文件。例如
using (var bs = new BufferedStream(fileStream, 1024))
{
// Code here.
}
您可以简单地使用 FileStream,同时指定缓冲区大小,而不是 BufferedStream。有关详细信息,请参阅 this MSDN blog regarding it。
这是我读取一个大文本文件所做的。无需使用缓冲蒸汽。
var filteredTextFileData = (from textFileData in File.ReadAllLines(_filePathList[0]).Skip(1).Where(line => !string.IsNullOrEmpty(line))
let textline = textFileData.Split(';')
let startDate = DateTime.ParseExact(textline[2].ToString(), Constants.DayMonthYearFormat, CultureInfo.InvariantCulture)
let endDate = !string.IsNullOrEmpty(textline[3]) ? DateTime.ParseExact(textline[3], Constants.DayMonthYearFormat, CultureInfo.InvariantCulture) : (DateTime?)null
let taxId = textline[0]
join accountList in _accounts.AsEnumerable()
on taxId equals accountList.Field<string>(Constants.Comments)
where endDate == null || endDate.Value.Year > DateTime.Now.Year || (endDate.Value.Year == DateTime.Now.Year && endDate.Value.Month >= DateTime.Now.Month)
select new RecordItem()
{
Type = Constants.Regular,
CustomerTaxId = taxId,
BillingAccountNumber = accountList.Field<Int64>(Constants.AccountNo).ToString(),
BillingAccountName = accountList.Field<string>(Constants.BillCompany),
StartDate = DateTime.Compare(startDate, accountList.Field<DateTime>(Constants.DateActive)) < 1 ? accountList.Field<DateTime>(Constants.DateActive) : startDate,
EndDate = endDate,
OverrideRate = 0,
Result = Constants.NotStarted,
TaxCode = _taxCode,
ImpliedDecimal = 4
}).ToList();
我有读取文本文件并填充 .Net 数据表的代码。该代码在读取具有 100,000 行数据的较小文本文件时工作正常。 (见下面的片段)当我尝试读取更大的文本文件大小(如 200MB 并且有 360 万行数据)时,我抛出了 System.OutofMemoryException 的异常。想问一种将大数据读入特定块的有效方法。
using (var stream = File.Open(filePath, FileMode.Open))
{
var content = new StreamContent(stream);
var fileStream = content.ReadAsStreamAsync().Result;
if (fileStream == null) throw new ArgumentException(Constants.FileEmptyErrorMessage);
using (var bs = new BufferedStream(fileStream))
{
using (var reader = new StreamReader(bs, Encoding.GetEncoding(Constants.IsoEncoding)))
{
while (!reader.EndOfStream)
{
var line = reader.ReadLine();
if (!String.IsNullOrEmpty(line))
{
string[] rows = line.Trim().Split(new char[] { ';' }, StringSplitOptions.None);
DataRow dr = Table.NewRow();
dr[Constants.Percepcion] = rows[0];
dr[Constants.StartDate] = DateTime.ParseExact(rows[2].ToString(), "ddMMyyyy",
CultureInfo.InvariantCulture);
dr[Constants.EndDate] = DateTime.ParseExact(rows[3].ToString(), "ddMMyyyy",
CultureInfo.InvariantCulture);
dr[Constants.CID] = rows[4];
dr[Constants.Rate] = rows[8];
Table.Rows.Add(dr);
}
}
}
}
}
我可以看出内存泄漏不是因为您已经逐行读取了整个文件 var line = reader.ReadLine();
。我认为泄漏是因为数据表的大小 Table
因为它包含整个文件的所有数据。
我建议以下选项之一:
1. 如果您对数据表的行执行聚合函数,只需执行它们(如设置整数计数器或双 max_columnX)而不保留整行。
2.如果确实需要保留所有的行。创建一个数据库(MSSQL/MYSQL/ 或任何数据库)并逐行读取文件 - 正如您所做的那样 - 并将这些数据插入数据库。然后根据您的条件查询数据库。
3. 您可以将整个文件批量插入到数据库中,而无需通过 C# 应用程序对其进行处理。这是一个 SQL 服务器 example:
BULK INSERT AdventureWorks2012.Sales.SalesOrderDetail
FROM 'f:\orders\lineitem.tbl'
WITH
(
FIELDTERMINATOR =';',
ROWTERMINATOR = '\n',
FIRE_TRIGGERS
);
编辑: 您可以附加一个内存分析器来找出究竟是什么占用了大内存并将其添加到问题中。这将有助于获得更好的答案。
如果您更改 BufferedStream 的默认缓冲区大小,那么它应该会以更高的效率为您加载更大的文件。例如
using (var bs = new BufferedStream(fileStream, 1024))
{
// Code here.
}
您可以简单地使用 FileStream,同时指定缓冲区大小,而不是 BufferedStream。有关详细信息,请参阅 this MSDN blog regarding it。
这是我读取一个大文本文件所做的。无需使用缓冲蒸汽。
var filteredTextFileData = (from textFileData in File.ReadAllLines(_filePathList[0]).Skip(1).Where(line => !string.IsNullOrEmpty(line))
let textline = textFileData.Split(';')
let startDate = DateTime.ParseExact(textline[2].ToString(), Constants.DayMonthYearFormat, CultureInfo.InvariantCulture)
let endDate = !string.IsNullOrEmpty(textline[3]) ? DateTime.ParseExact(textline[3], Constants.DayMonthYearFormat, CultureInfo.InvariantCulture) : (DateTime?)null
let taxId = textline[0]
join accountList in _accounts.AsEnumerable()
on taxId equals accountList.Field<string>(Constants.Comments)
where endDate == null || endDate.Value.Year > DateTime.Now.Year || (endDate.Value.Year == DateTime.Now.Year && endDate.Value.Month >= DateTime.Now.Month)
select new RecordItem()
{
Type = Constants.Regular,
CustomerTaxId = taxId,
BillingAccountNumber = accountList.Field<Int64>(Constants.AccountNo).ToString(),
BillingAccountName = accountList.Field<string>(Constants.BillCompany),
StartDate = DateTime.Compare(startDate, accountList.Field<DateTime>(Constants.DateActive)) < 1 ? accountList.Field<DateTime>(Constants.DateActive) : startDate,
EndDate = endDate,
OverrideRate = 0,
Result = Constants.NotStarted,
TaxCode = _taxCode,
ImpliedDecimal = 4
}).ToList();