HabanaAI · michalkuligowski · Sep 25, 2024 · Sep 4, 2024 · Sep 5, 2024 · Sep 9, 2024
diff --git a/vllm/worker/habana_model_runner.py b/vllm/worker/habana_model_runner.py
@@ -596,6 +596,11 @@ def _setup_buckets(self) -> None:
                 bucket for bucket in self.decode_buckets
                 if self._is_valid_bucket(bucket)
             ]
+        if not htorch.utils.internal.is_lazy() and not self.enforce_eager:
+            cache_size_limit = len(self.prompt_buckets)+len(self.decode_buckets)
+            torch._dynamo.config.cache_size_limit = cache_size_limit
+            torch._dynamo.config.accumulated_cache_size_limit = cache_size_limit*8
+
         msg = (f"Generated {len(self.decode_buckets)} decode buckets: "
                f"{list(sorted(self.decode_buckets))}")
         logger.info(msg)