ollamaでオープンモデルでマルチモーダルな生成AI「gemma3」を試してみた
会社ではCopilot、自腹ではGemini Advancedを使っている私ですが、オープンモデルに無関心というわけではありません。
Geminiを提供しているGoogleも、オープンな生成AIモデルとして「gemma」というものを公開してますが、最近、gemma3という、PCでも動かせる軽量でマルチモーダルな生成AIモデルを公開してます。
次世代AI「Gemma3」徹底解説: あなたのプロジェクトを加速させる新たな可能性|りんか | AI情報発信 /ビジネス/研究
マルチモーダル対応ということは、つまり画像を読み込むことも可能ってことで、なんだかワクワクしますね。
ということで、さっそく試してみました。
といっても、いつも通りpythonで使うのは面倒そうなモデルなので、ollamaに頼ることにしました。
以下より、最新のWindows版をダウンロードします。
インストールしたら、Windows PowerShellかターミナルを開き、次のように打ちこみます。
> ollama pull gemma3:4b
モデルをダウンロードし始めました。少なくとも3GB以上はあるので、それなりにかかる場合もあります。覚悟しましょう。
さて、ダウンロードが終わったら、次のように打ちこみます。
> ollama run gemma3:4b
すると、プロンプト入力の待機状態になります。
この時、画像のあるフォルダ内で実行すると、その画像のファイル名を入れることで読み込んでくれます。
試しに、この画像を読ませてみました。
今からちょうど20年前に行われていた愛知万博での料理です。たしか、トルコ料理の店だったはず。
これを、次のようなプロンプトで認識させてみます。
>> 次の画像について説明してください。./DSC01389.JPG
で、gemma3が返した答えがこちら。
この画像には、さまざまな料理が並べられた食事のセットが写っています。
主な料理は、大きな白い丸い肉料理です。肉は、きのこ、トマト、パプリカなどの野菜と組み合わされています。肉の周りには、
米と細切りなすのサラダがあります。
他に、小さな料理のセットがいくつかあります。
* 2つの小さな料理のセットには、緑色の葉野菜とトマトのサラダがあります。
* 3つ目の料理のセットには、白いスープがあります。
* 最後の料理のセットには、黒い飲み物があります。
全体的に、この食事は、さまざまな料理の組み合わせで、さまざまな味を味わうことができるように見えます。
うん、なかなか鋭いですね。回答も、RTX4060のおかげか、ほぼ数秒で返ってきました。
でも、これだけじゃ面白くないので、別の写真も用意。
分かる方、いますかね。これ、同じく愛知万博のトヨタパビリオンの画像です。
さすがにこれはちょっと、答えづらいかな。
ともかく、こいつを解釈させたときの答えがこれ。
この画像は、トヨタグループの本社ビルです。
特徴的なのは、格子状のガラスで覆われた独特な形状で、緑の屋根と組み合わせることで、自然との調和を表現しています。背景
には多くの人々がおり、トヨタグループの活動の活気と人気を物語っています。全体的に、現代的なデザインと自然との融合が印
象的な建物です。
うん、当たりではありませんが、ちゃんと「TOYOTA」の文字は認識してますね。
もっとも、トヨタ本社ではありませんが。
ということで、このgemma3はPC上で動く比較的軽量なモデルながら、なかなかの性能を発揮するマルチモーダルなモデルだということが分かります。
昨今、大規模言語モデルも頭打ち状態かなぁと思ってましたが、オープンモデルの発展はまだまだ続いているようです。
なお、gemma3は言語に対してもなかなかの回答を出してくれます。
>>> 興行収入の高いアニメ映画を教えてください。
興行収入の高いアニメ映画は、以下の通りです(2024年5月23日時点)。
1. **『劇場版 鬼滅の刃 無限列車編』** (2020年) - 302.8億円
2. **『君の名は。』** (2016年) - 156.8億円
3. **『新世紀エヴァンゲリオン』** (2021年) - 143.3億円
4. **『ONE PIECE FILM RED』** (2022年) - 143.3億円
5. **『劇場版 呪術廻戦 0』** (2021年) - 133.3億円
これらの作品は、日本国内での興行収入において、アニメ映画の歴史に残る記録を打ち立てています。
2024年中ごろまでのデータで学習させてるもののようですね。にしても、千と千尋の神隠しはどこ行った?という感じですが。
にしても、ollamaってわりと便利ですね。いちいちライブラリのインストールを気にしなくても、最新のモデルが簡単に扱えてしまいます。
もっとも、調べた限りでは、これでRAG環境を作るのはそんなに容易ではない(少なくともWindows環境下では)ようです。やはりUbuntuなどで使うのがもっともリーズナブルみたいです。でも今さらUbuntu PCを構築する気もないので、Windows環境下で頑張ってみようかとは思ってます。
ちなみに、画像ファイルの代わりに大量の文書のテキストファイルを読ませたら、どうなるか?やってみました。
>>> 次のファイルの中身を要約してください。./計算士と空中戦艦01-62.txt
ファイル `./計算士と空中戦艦01-62.txt` の内容を要約します。
このファイルは、**「計算士と空中戦艦」** というSF短編小説のテキストファイルです。
**物語の概要:**
物語は、宇宙を舞台に、高度な技術と複雑な計算能力を持つ「計算士」と呼ばれる存在と、それを巡る空中戦艦の物語です。主人
公は、計算士の能力を悪用しようとする組織「黒曜」に抵抗する「星雲」のパイロット、アキラです。
アキラは、黒曜の陰謀を阻止するため、星雲号に乗り込み、計算士の能力を制御する装置「コア」を奪還する任務に就きます。物
語は、アキラと彼の仲間たちが、黒曜の追撃をかわしながら、コアの奪還を目指す中で、計算士の謎めいた存在と、その能力の危
険性、そして人間の倫理について深く掘り下げていきます。
**主なポイント:**
* **計算士:** 高度な計算能力を持つ、謎めいた存在。その能力は、宇宙の秩序を脅かす可能性を秘めています。
* **黒曜:** 計算士の能力を悪用し、宇宙を支配しようとする組織。
* **星雲号:** アキラが乗る戦闘機。計算士の能力を制御する装置「コア」を搭載しています。
* **コア:** 計算士の能力を制御する装置。その制御を奪還することが物語の鍵となります。
* **アキラ:** 星雲号のパイロットであり、計算士の能力を悪用する黒曜に抵抗する主人公。
**全体として、この物語は、高度な科学技術と倫理、そして人間の存在意義について考えさせられる、SF短編小説です。**
より詳細な情報が必要な場合は、ファイルの内容を直接提供していただければ、さらに具体的な要約を生成できます。
うーん、主人公のカルヒネン曹長はどこ行っちゃった?
元の物語 : 計算士と空中戦艦
膨大なテキストデータを直接与えてRAG化するのは、ちょっと無理っぽいです。
![]() |
« サンワサプライの極小マウス「400-MAWB216」購入 | トップページ | 品川の日本マイクロソフト本社と秋葉原へ行ってきました »
「数値解析系」カテゴリの記事
- ollamaでオープンモデルでマルチモーダルな生成AI「gemma3」を試してみた(2025.03.20)
- 生成AI系の本を2冊購入(2025.01.30)
- Windows 11でFORTRANをコンパイルしたい!という方への対処法(2025.01.04)
- どこに視線を向けているかを可視化してくれる物体検出器(2024.12.23)
- 2024年まとめ記事(2024.12.31)
« サンワサプライの極小マウス「400-MAWB216」購入 | トップページ | 品川の日本マイクロソフト本社と秋葉原へ行ってきました »
コメント