ポスト

#command_r_plus 、c4ai-command-r-plus-IQ2_XXS.gguf、2bit化の関係か、話はいいのだが、プログラムが結構無茶苦茶なのを返す(笑) 仕方ないので、Meta-Llama-3-70B-Instruct-IQ3_M.gguf へ変更。こっちは1.5 tokens / 秒程度の実用ギリギリ…。 #LLM #Llama3 #RTX3090

メニューを開く
Photogenic Weekend@PhotogenicWeekE

#command_r_plus 、c4ai-command-r-plus-IQ2_XXS.ggufなら2 tokens/秒出た。これならギリギリ耐えられる!(笑) < メモリは32GB python gradio_llm.py -m ./mmnga/c4ai-command-r-plus-gguf/c4ai-command-r-plus-IQ2_XXS.gguf -ngl 50 -c 4096 --chat --listen #gradio_llm #LLM #RTX3090 #GPUBOX

Photogenic Weekend@PhotogenicWeekE

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ