排队和处理后台作业时发生内存不足异常

arf*_*twn 3 hangfire stackify

当使用Hangfire排队和处理后台作业时,我能够发生可重现的内存不足异常.

作业是简单的Console.WriteLine调用,所以我不希望堆内存增加它的方式.

我配置错误还是应该考虑提交问题?

结果(VMMap)

使用Redis作为Jobs的后备存储:

  • 一开始,总堆= 29,088K;
  • 经过5,000个工作岗位,938,672K;
  • 6,000个工作岗位,1,056,004K;
  • 7,000个工作岗位,1,219,296K;
  • 8,000个工作岗位,不存在堆值;
  • 在100多个工作岗位内,iisexpress.exe实例崩溃了.

使用SQL存储,限制要高得多〜= 15,000个作业.

建立

  • 空ASP.NET项目;
  • 安装IIS主机和Hangfire的Owin包;
  • 启动类和控制器.

<?xml version="1.0" encoding="utf-8"?>
<packages>
  <package id="Hangfire.Core" version="1.6.6" targetFramework="net452" />
  <package id="Hangfire.Pro" version="1.4.7" targetFramework="net452" />
  <package id="Hangfire.Pro.PerformanceCounters" version="1.4.7" targetFramework="net452" />
  <package id="Hangfire.Pro.Redis" version="2.0.2" targetFramework="net452" />
  <package id="Hangfire.SqlServer" version="1.6.6" targetFramework="net452" />
  <package id="Microsoft.AspNet.WebApi.Client" version="5.2.3" targetFramework="net452" />
  <package id="Microsoft.AspNet.WebApi.Core" version="5.2.3" targetFramework="net452" />
  <package id="Microsoft.AspNet.WebApi.Owin" version="5.2.3" targetFramework="net452" />
  <package id="Microsoft.CodeDom.Providers.DotNetCompilerPlatform" version="1.0.0" targetFramework="net452" />
  <package id="Microsoft.Net.Compilers" version="1.0.0" targetFramework="net452" developmentDependency="true" />
  <package id="Microsoft.Owin" version="3.0.1" targetFramework="net452" />
  <package id="Microsoft.Owin.Host.SystemWeb" version="3.0.1" targetFramework="net452" />
  <package id="Newtonsoft.Json" version="9.0.1" targetFramework="net452" />
  <package id="Owin" version="1.0" targetFramework="net452" />
  <package id="StackExchange.Redis" version="1.1.606" targetFramework="net452" />
</packages>
Run Code Online (Sandbox Code Playgroud)

调节器

public class DefaultController : ApiController
{
    static int _;

    [HttpPost]
    public void Post(int count = 1000)
    {
        for (var i = 0; i < count; ++i)
        {
            BackgroundJob.Enqueue(() => Console.WriteLine(_));

            ++_;
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

启动

static class AppSettings
{
    internal static bool   HangfireUseRedis => true;
    internal static int    RedisDatabase    => 0;
    internal static string RedisConnection  => "localhost:6379";

    internal static string SqlConnection    => "Data Source=(localdb)\\v11.0;Initial Catalog=Hangfire";
}

public class Startup
{
    public void Configuration(IAppBuilder app)
    {
        var config = new HttpConfiguration();

        config.Routes.MapHttpRoute(
            name: "Default",
            routeTemplate: "{controller}/{id}",
            defaults: new { id = RouteParameter.Optional }
        );

        if (AppSettings.HangfireUseRedis)
        {
            var redisOptions = new RedisStorageOptions
            {
                Database = AppSettings.RedisDatabase,
                Prefix   = "Foobar:"
            };

            GlobalConfiguration.Configuration.UseRedisStorage(AppSettings.RedisConnection, redisOptions);
        }
        else
        {
            GlobalConfiguration.Configuration.UseSqlServerStorage(AppSettings.SqlConnection);
        }

        JobHelper.SetSerializerSettings(new JsonSerializerSettings { TypeNameHandling = TypeNameHandling.All });

        app.UseHangfireServer();
        app.UseHangfireDashboard();

        app.UseWebApi(config);
    }
}
Run Code Online (Sandbox Code Playgroud)

odi*_*erj 6

收到您的迷你转储文件(1.2 GB)后,我能够获得有关您的流程堆的信息.他们中的大多数都不包含任何有趣的内容,而且它们的大小相对较小,这里是最重要的内容的摘录:

GC Heap Size:    Size: 0x9f7eb8 (10452664) bytes.
Jit code heap:   Size: 0x1000 (4096) bytes total, 0x905a4d00 (2421837056) bytes wasted.
Run Code Online (Sandbox Code Playgroud)

我们可以看到,GC堆大小约为10 MB,因此.NET代码本身没有泄漏,因为它的大小相对较小.但是Jit代码堆看起来很奇怪,所以我决定看看进程使用了​​哪些模块,并找到了Stackify Profiler的一个:

6b0d0000 6b23a000   StackifyProfiler_x86   (deferred)
Run Code Online (Sandbox Code Playgroud)

PEB显示环境变量StackifyIsPrefix=1,告诉我们使用了Stackify Prefix.Profilers 可能会修改仪器pupros的JIT代码,因此我决定安装Stackify Prefix以尝试重现该问题.

我创建了一个简单的MVC应用程序,修改了Home/Index操作以排队10000个后台作业,并启用了探查器.执行此步骤后,我发现获取该页面需要很长时间 - 1.5分钟,而探查器未显示任何数据.太长了.所以我决定比较关闭探测器的时间 - 只用了5秒钟.这是一个巨大的差异,但我无法重现内存问题.

我已将作业数量减少到100,打开了分析器并意识到每次调用Redis都会被计算,有数百条记录可以调用Redis.存储所有这些可能会引入内存问题,但我不确切知道它们是如何存储在Stackify Prefix中的.

Stackify Prefix截图

我无法重现原始内存问题.但是,Stackify Prefix会通过增加其持续时间来显着影响执行.您是否尝试禁用Stackify Prefix探查器并重新运行测试?更新版本也可能修复内存问题.


小智 5

我可以同意 odinserj 的上述评论,因为我编写了 Prefix profiler。

我们进行了一些设计更改,以帮助解决在 Hangfire 等库中运行的后台线程。问题是我们在每个线程的内存中保留影子堆栈 - 在普通的 Web 应用程序中,我们在请求结束时刷新此堆栈。但是 Hangfire 启动的线程将在应用程序域的生命周期内存在。

您会发现在最新版本中,影响应该要小得多,因为我们已经考虑了一些特定的hangfire方法,然后我们释放了一些影子堆栈。