INFO 09-06 07:08:42 awq_marlin.py:89] The model is convertible to awq_marlin during runtime. Using awq_marlin kernel.
INFO 09-06 07:08:42 llm_engine.py:184] Initializing an LLM engine (v0.5.4) with config: model='team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ', speculative_config=None, tokenizer='team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.float16, max_seq_len=4096, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=awq_marlin, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ, use_v2_block_manager=False, enable_prefix_caching=False)
INFO 09-06 07:08:48 model_runner.py:886] Starting to load model team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ...
INFO 09-06 07:08:49 weight_utils.py:231] Using model weights format ['*.safetensors']
model-00006-of-00006.safetensors: 100%|████████████████████████████████████████████████████████████| 533M/533M [03:02<00:00, 2.23MB/s]
model-00005-of-00006.safetensors: 100%|██████████████████████████████████████████████████████████| 4.74G/4.74G [28:34<00:00, 2.67MB/s]
model-00004-of-00006.safetensors: 100%|██████████████████████████████████████████████████████████| 4.98G/4.98G [30:06<00:00, 2.68MB/s]
model-00002-of-00006.safetensors: 100%|██████████████████████████████████████████████████████████| 4.97G/4.97G [30:14<00:00, 2.66MB/s]
model-00003-of-00006.safetensors: 100%|██████████████████████████████████████████████████████████| 4.97G/4.97G [30:47<00:00, 2.60MB/s]
model-00001-of-00006.safetensors: 100%|██████████████████████████████████████████████████████████| 5.00G/5.00G [30:56<00:00, 2.62MB/s]
model.safetensors.index.json: 100%|█████████████████████████████████████████████████████████████████| 273k/273k [00:00<00:00, 603kB/s]
Loading safetensors checkpoint shards: 0% Completed | 0/6 [00:00<?, ?it/s]█████████████████████| 4.97G/4.97G [30:47<00:00, 6.64MB/s]
INFO 09-06 07:44:37 awq_marlin.py:89] The model is convertible to awq_marlin during runtime. Using awq_marlin kernel.
INFO 09-06 07:44:37 llm_engine.py:184] Initializing an LLM engine (v0.5.4) with config: model='team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ', speculative_config=None, tokenizer='team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.float16, max_seq_len=4096, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=awq_marlin, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ, use_v2_block_manager=False, enable_prefix_caching=False)
INFO 09-06 07:44:37 model_runner.py:886] Starting to load model team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ...
INFO 09-06 07:44:38 weight_utils.py:231] Using model weights format ['*.safetensors']
Loading safetensors checkpoint shards: 0% Completed | 0/6 [00:00<?, ?it/s]
Loading safetensors checkpoint shards: 17% Completed | 1/6 [00:00<00:03, 1.50it/s]
Loading safetensors checkpoint shards: 33% Completed | 2/6 [00:01<00:02, 1.36it/s]
Loading safetensors checkpoint shards: 50% Completed | 3/6 [00:02<00:02, 1.39it/s]
Loading safetensors checkpoint shards: 67% Completed | 4/6 [00:02<00:01, 1.39it/s]
Loading safetensors checkpoint shards: 83% Completed | 5/6 [00:03<00:00, 1.94it/s]
Loading safetensors checkpoint shards: 100% Completed | 6/6 [00:03<00:00, 1.78it/s]
Loading safetensors checkpoint shards: 100% Completed | 6/6 [00:03<00:00, 1.63it/s]
INFO 09-06 07:44:43 model_runner.py:898] Loading model weights took 23.4735 GB
INFO 09-06 07:44:46 gpu_executor.py:103] # GPU blocks: 6800, # CPU blocks: 2048
INFO 09-06 07:44:48 model_runner.py:1193] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 09-06 07:44:48 model_runner.py:1197] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 09-06 07:45:02 model_runner.py:1394] Graph capturing finished in 14 secs.
inputs_text: <s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
### 指示:
日本のおすすめの観光地を教えてください。
### 応答:
outputs_text: もちろんです。日本には多くの魅力的な観光地がありますが、いくつか特におすすめの場所をご紹介します。
1. 京都
- 清水寺: 世界遺産にも登録されている歴史的な寺院で、美しい木造建築と庭園が見どころです。
- 金閣寺(鹿苑寺): 黄金に輝く建物が池に映る景色は圧巻です。
- 伏見稲荷大社: 「千本鳥居」と呼ばれる赤い鳥居のトンネルが有名です。
2. 東京
- 浅草寺: 東京で最も古い寺院の一つで、雷門や仲見世通りも楽しめます。
- 明治神宮: 広大な森に囲まれた神社で、静寂な雰囲気が魅力です。
- お台場: 未来的な都市景観とエンターテインメント施設が集まっています。
3. 北海道
- 札幌雪まつり: 冬に開催される大規模なイベントで、巨大な氷像や雪像が展示されます。
- 富良野・美瑛: ラベンダー畑や四季折々の花々が美しい風景が広がります。
- 小樽運河: ロマンチックな夜景と歴史ある倉庫街が魅力です。
4. 沖縄
- 美ら海水族館: 世界最大級の水槽があり、ジンベエザメなどの海洋生物を間近で見ることができます。
- 首里城: 琉球王国時代の歴史を感じられる壮大な城跡です。
- 古宇利島: エメラルドグリーンの海に囲まれた小さな島で、ドライブやビーチ散策が楽しめます。
5. 奈良
- 東大寺: 大仏殿に鎮座する巨大な大仏は必見です。
- 春日大社: 世界遺産に登録されており、美しい社殿群が見事です。
- 吉野山: 桜の名所として知られ、春には見事な桜並木が広がります。
これらの観光地はそれぞれ独自の魅力を持っており、訪れる価値があります。旅行の目的や季節に応じて、最適な場所を選んでみてください。
Elapsed time: 17.8904 sec.
prompt tokens = 54
output tokens = 511 (28.562876 [tps])
total time = 17.890356 [s]