diff --git a/server/llm_api.py b/server/llm_api.py
index d26a935..0a7d3b0 100644
--- a/server/llm_api.py
+++ b/server/llm_api.py
@@ -44,7 +44,7 @@ def create_model_worker_app(
         gptq_act_order=None,
         gpus=None,
         num_gpus=1,
-        max_gpu_memory=None,
+        max_gpu_memory="20GiB",
         cpu_offloading=None,
         worker_address=base_url.format(model_worker_port),
         controller_address=base_url.format(controller_port),
diff --git a/server/llm_api_launch.py b/server/llm_api_launch.py
index a4ba256..201bd2b 100644
--- a/server/llm_api_launch.py
+++ b/server/llm_api_launch.py
@@ -76,6 +76,7 @@ parser.add_argument("--num-gpus", type=int, default=1)
 parser.add_argument(
     "--max-gpu-memory",
     type=str,
+    default="20GiB",
     help="The maximum memory per gpu. Use a string like '13Gib'",
 )
 parser.add_argument(