マルチモーダルなローカルLLM(大規模言語モデル)を格安なPCで動かしてみると
わりと最近、マルチモーダルLLMの質問を受けます。文章、画像ともに認識できるやつ、です。
会社ならCopilotが使えますが、秘匿文章を突っ込ませるのはちょっと・・・という事情もあり、かつカスタマイズ性の高さから、ローカルLLMを使いたいという声も多いのが現状。
となると、RAG環境の構築やらなんやらが必要となりますが、会社PCのスペックはさほど高いものはありません。Corei5、16GBメモリー、標準グラフィックがせいぜい。となると、そもそもローカルLLMを動かせる最低スペックというのはどれくらいなのか?というのが気になります。
てことで、今年の3月に買ったこれ、使ってみました。
USB-C電源で動く、N150なミニPC「GMKtec」です。
なお、メインメモリーは12GBと中途半端ながらも、8GBよりは若干マシ。SSDは512GBです。
これは前回の写真ですが、同様につないでみました。
さて、これでローカルLLMを動かすのですが、最近は「ollama」を使うことが多いですね。環境構築が楽ですし。
ここからWindows版をダウンロードし、動かしてみます。
インストール自体は、あっさりといきました。
で、モデルですが「gemma:4b」を選択しました。これがおそらく、一番軽いマルチモーダルなローカルLLM。
だいたい3GBくらいのモデルです。適当に質問したら、ダウンロードを開始します。
意外に、解答速度は早いです。ダウンロード終了後、ものの数秒程度。
もうちょっと難しめの質問を投げます。
文書の表示に時間はかかるものの、ものの数秒後から答え始めてました。しかも、結構な文字数。
(内容はちょっと怪しい部分もありますが、おおむね正解でした)
文章に関しては、問題なさそうですね。
では、写真はいかがでしょう?
ちょっとわかりにくいですが、先日、出張時に新幹線から取った富士山の写真を読み込み、その中身を読み取らせてみました。
ご覧の通り「富士山」とはっきり書かれています。うーん、正解。
が、東京駅を読み込ませたところ、「シンガポール中央郵便局」と認識しました。うーん、不正解。
写真を変えてみてもダメで、やはり東京駅とは認識してくれません。相変わらず、シンガポールの郵便局だと言いはります。
東京駅は、学習されてないのかな?
なお、gemma:4bを動かしている時のタスクマネージャーの状態はこんな具合。
ゴミのようなスペックですが、頑張ってくれてます。
ちなみに、文章ならば数秒で答え始めましたが、画像が絡むとさすがに2~5分は待たされました。
それでも、数分というのはちょっと驚き。
ただ、メモリーが8GBだと辛いでしょうね。こいつは12GBという中途半端なスペックのおかげで、何とかなりました。
RAG(独自の文書ファイルを読み込ませて回答させる)をやらなければ、こんなN150なPCでもどうにか動くようです。
最近、小パラメータ数のLLMといえども、回答精度はなかなかです。ネットワークなし艦橋でAI体験をやるなら、全然これでいけそうです。
でも、RAGをやるならやはりゲーミングPC以上は必須です。メモリーは64GB以上、GPUは4060以上は最低でも欲しいところ。
あと、最低でもgpt-ossの12b辺りを使いたいところ。
ミニPCの本来の使い方は、こんな感じにYouTubeやサブスクの動画再生用でしょうかね。
ちなみにPython+YOLOXの軽めのモデルによる物体検出は、そこそこ速いです。推論専用で文章特化、画像特化と割り切れば、N150でもそこそこやれる、ということが分かってます。これも以前の記事の画像。ラズパイ5の倍くらいの速度でしたね。
いずれ、Copilot+PCがさらに一般化すれば、より高速なローカルAI環境が手に入るかもしれませんね。
ただ、今はまだCopilot+PCはちょっと高い。あれなら、ゲーミングノートを買った方がスペック的にはよさげ。
(もっとも、バッテリーの持ち具合などCopilot+PCの強みもあるので、一概にどちらが良いかとは断定できませんが)
いずれにせよ、1年前と比べるとAIがグッと身近に、高速になりました。
クラウド版はともかく、ローカル版も侮れないほどの進化速度です。
いずれ、自分のPC内に入れて動かすAIが一般化するかもしれませんよね。たかかN150ですら、これだけ動かせるんですから。
![]() |
![]()
































最近のコメント