我在azure blob存储上有200 GB的文本文件。我想在文本中搜索,然后需要下载匹配行而不是整个200 GB文件,然后选择该行。
我已经用c#编写了代码,方法是下载完整的文件,然后进行搜索和选择,但是这花费了太多时间,然后由于超时错误而失败。
var content ="" ////Downloading whole text from azure blob storage
StringReader strReader = new StringReader(contents);
var searchedLines1 = contents.Split(new string[] { Environment.NewLine }, StringSplitOptions.RemoveEmptyEntries).
Select((text, index) => new { text, lineNumber = index + 1 })
.Where(x => x.text.Contains("[email protected]") || x.lineNumber == 1);
您将需要流式传输文件并设置超时。我已经包装了IAsyncEnumerable
完全不需要的流实现...但是为什么不这样做
给定
public static async IAsyncEnumerable<string> Read(StreamReader stream)
{
while(!stream.EndOfStream)
yield return await stream.ReadLineAsync();
}
用法
var blobClient = new BlobClient( ... , new BlobClientOptions()
{
Transport = new HttpClientTransport(new HttpClient {Timeout = Timeout.InfiniteTimeSpan}),
Retry = {NetworkTimeout = Timeout.InfiniteTimeSpan}
});
await using var stream = await blobClient.OpenReadAsync();
using var reader = new StreamReader(stream);
await foreach (var line in Read(reader))
if (line.Contains("bob"))
{
Console.WriteLine("Yehaa");
// exit or what ever
}
免责声明:完全未经测试
注意:如果您使用的是C#4,则需要删除所有的awaits和async方法,而只需使用for循环stream.ReadLine
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句