Noteを書きました。
Anthropicとアメリカ国防総省の対立の話から、AIの規制について意見をまとめたものです。
note.com/kajitaka1201...
Noteを書きました。
Anthropicとアメリカ国防総省の対立の話から、AIの規制について意見をまとめたものです。
note.com/kajitaka1201...
a screenshot of Japanese Writing Paper Preview App made by GPT 5.4(high)
GPT 5.4に原稿用紙アプリを作らせた。
Arenaでgpt-5.4-highで試した。
* 時間は結構かかった
* "。"は改行せず一番下に表示されるけど、"。」"は2マスになってしまった(原稿用紙のルールは完全には理解できていないっぽい)
* 改行の部分に自動で空白が入る(便利な点もあるけど不便でもある)
* 括弧は横書きの際のまま
* 20x20だけど、周りの余白が均等なので、原稿用紙には見えない
* 2枚目が画像で保存した際のものだけど、該当部分をスクショした感じ
GPT 5.4(high)でも、まだ原稿用紙のプレビューアプリとかだと難しいらしい。
GPT-5.4が発表されていてので、電卓を作らせた。
Arenaでgpt-5.4-highで、プロンプトは「電卓アプリを作って。」で試した。
*スピードは、遅くはない
* ボタンの配置は少し気になる
* 0除算と浮動小数点数には対応(ただ0に近い数同士の掛け算では0となる)
* キーボードショートカットには対応している
このタスクだとやっぱり、このレベルのモデルの比較はできない。
前回Gemini 3.1 Proでやった原稿用紙のタスクをやってみるつもり。
I don't know why, but Nano Banana 2 broke. This is the second time it has broken like this.
note.com/chakkun1121/...
#NanoBanana2 #NanoBanana #Gemini
前代のモデルの能力を測ったとことがなかったので、そことの比較はできないが、GPT-5.3 Instantの検索能力は普通に使えるレベル。
今までのモデルは、一部を除き、情報が古かったり日本におけるニュースが多かったりと、自分が欲しかったものとは少し違うものが多かった。
そういう面では、今回はGPT-5.3 Instantが一番、次にGemini(Fast)。
GPT-5.3 Instantの検索能力を試した。
プロンプト:「最近のAIニュースをまとめて。」
GPT:
* GPT-5.3 Instantも含まれていて普通に欲しかったもの
* ソースはNoteとかのAIニュースまとめが主
Gemini(Fast):
* 内容はAnthropicと国防総省の対立とかまだ妥協できるレベル
* ソースは不明
Perplexity:
* 内容は少し古かったり、日本でのニュースが多かったり
* ソースはどの記事を使ったかまでは分からない
Claude(Sonnet):
* 内容は抽象的
* ソースはNoteもあればOpenAI公式サイトもあったり多様
a screenshot of calculator made by Gemini 3.1 Flash Lite
a screenshot of calculator made by GPT-5.3 Instant
Gemini 3.1 Flash LiteとGPT-5.3 Instantに電卓を作らせた。
Gemini 3.1 Flash Lite
* 最低限の四則演算は可能
* 浮動小数点数計算、0除算への対応はなし
GPT-5.3 Instant
* ボタンの配置が一部変
* 四則演算は可能
* 浮動小数点数計算、0除算への対応はなし
* 結果の数字の色が背景と同化して見づらい
2つのモデルとも速度を重視したモデルで、電卓の生成でぎりぎりのレベル。
note.com/chakkun1121/...
NanoBanana2が壊れたのでその検証記事です。
#NanoBanana #NanoBanana2
An image generated by Nano Banana 2(Gemini 3.1 Flash Image Preview). Prompt: "円周率が3.05より大きいことを証明している黒板の画像。"
Nano Banana 2を試す
2003年の東大の数学の問題の、「円周率が3.05より大きいことを証明せよ。」を解説する黒板の画像を作らせた
* 左側の図におけるSの位置や直角の記号などは間違っている
* 証明の8における、近似値を当てはめるというのは、少し危ない気がする
図を含むようになってくると、出来ない部分が出てきた
証明部分に関しては、画像生成のモデルというより、基盤モデルの問題な気がする
少し問題があるが、もうこのレベルまでできるのには驚いた
An image generaged by Nano Banana 2(Gemini 3.1 Flash Image Preview). Prompt: "2次方程式の解の公式を証明している黒板の画像。"
An image generated by Nano Banana 2(Gemini 3.1 Flash Image Preview). Prompt: "Generate an image of a blackboard proving the formula for solving a quadratic equation."
Nano Banana 2を試してみる
解の公式を証明する黒板の画像を生成させた
日本語で指示した際には、式が重複していたり、一部の記号が間違っていたりした
英語の場合は式などに問題はなかった
解の公式だと、証明を適切に画像にできるっぽい
もっと難しいのを試してみる
An image that explains how ai works. Generated by Nano Banana 2. Prompt: Create an image that explains how ai works.
An image that explains how ai works in Japanese. Generated by Nano Banana 2.
Nano Banana 2を使ってみた。
AIの仕組みを解説する画像を作らせた。
今までに試したなかでは、一番まともな説明になっている。
英語で生成させたから、日本語に翻訳させたバージョンも作らせた。
一部変な部分もあるが、読めて理解できるレベル。
Flashがベースで、この性能は相当すごいのでは。
a screenshot of Japanese Writing Paper Preview App made by Gemini 3.1 Pro
Gemini 3.1 Proに、原稿用紙のプレビューアプリを作らせた。
* 電卓の時よりも思考時間が長め
* 大きな問題はない
* 文末の句読点は、その行の下に描画される
* かぎ括弧閉じと読点が1つのマスに入っていない
* ダウンロードすると、壊れた原稿用紙が出てくる
そもそも、原稿用紙のルールを知らないと出来ないし、知っていても実装はそれなりに難しいと思っていたので、大きなミスがなく、実装できたのには驚いた。
もう、これくらいのレベルなら、人間が関与しなくてもできるっぽい。
他のAIにもこれをやってみて、比べてみる。
a screenshot of calculation app made by Gemini 3.1 Pro
Gemini 3.1 Proに電卓を作らせてみた
AI Studioで「電卓アプリを作って。」というプロンプト
* スピードは早くもなく遅くもない
* デザインに問題はない
* 0除算ではInifinityと表示される
* 浮動小数点数計算には対応しているものの、小さい数同士の掛け算が0となる
* キーボードショートカット非対応
他のモデルとは違い、言われたことはやるけど、言われていないことは実装しないというスタンス
もうこのレベルのタスクなら、本来のコーディング能力が測れてないので、何とも言えない。
他のタスクをやらせてみるつもり。
Geminiに統合されたLyria 3での楽曲生成2回目
プロンプト:「日本語の曲 伴奏はピアノのみ ボーカルは透き通った高めの女性の声」
ダウンロード時の名前が、Echoes of Your Smile
日本語中心の歌詞の中に英語が入っていても、いい感じにつなげている
30秒という秒数できれいに終わっている
最近の音楽生成AIを触らないので、あまり性能の比較はできないのですが、品質自体は良さげな印象です
歌詞を書かなくてもそれなりに良いものができるというのが結構強みな気がしてます
それこそ、YouTubeのショート動画とかのBGMとかとしてなら、30秒でも良いのかもしれません
自分にとって、Grokは、ChatGPTとかGeminiとかの競合というよりも、Xに搭載されているAIという印象が強いです
Grok Code Fast 1なるモデルも存在したりはするのですが、やっぱり、ClaudeとかCodexとかのモデルと比べると、あまりパットしないという感じがします
Geminiに統合されたLyria 3で音楽を生成してみた。
プロンプト:「伴奏がピアノだけの美しい日本語の歌 切ない感じ」
プロンプトには正確に従っている。
息継ぎとかはあるけど、まだAIだと分かるレベル。
自動で歌詞を考えてくれて、それで音楽ができるというのは便利。
30秒までしか出来ないから、ちゃんとした音楽を作るのは難しそう。
Google I/Oの日付が発表されたタイミングで、I/Oで、音楽生成とかも出るのかなと思っていた時期だったので、驚いた。
a screenshot of calculation app made by Grok 4.20(Beta)
Grok 4.20(Beta)に電卓を作らせた。
* スピードは、速くもなく遅くもない
* 他のAIに比べ、デザインは劣る
* 0除算ではInfinityと出る(対策していない)
* 小さい数同士の掛け算では、0となる(その分少数同士の加減は問題ない)
コーディング能力は、Claudeとかと比べると、若干劣っていそう。
あと、4人のエキスパートなる謎の機能があって、4つのAgentが話しているような感じで、Thinkingをしている。
結果としては、ほとんど全員が同じことを復唱しているだけになっているので、あまり意味は感じない。
a screenshot of calculation app made by Claude Sonnet 4.6
Claude Sonnet 4.6で電卓を作らせてみた。
Arenaで、「電卓アプリを作って」という指示で作らせた。
* 速度は速い
* 基本的な機能に問題はない
* 0除算の際は正常にエラーと表示される
* 小さい数同士の掛け算では、なぜか1となる
* 0のボタンの文字の場所が少し気になる
完璧ではないが、一応問題ないレベルのものが、すごいスピードで完成した。
Claude Sonnet 4.6は、Opusほどの性能は必要ないが、速度が重視したい場合には便利だと思われる。
Noteを書きました。
内容は、AIの来歴についてです。
ChatGPTの登場から、Claude Opus 4.6くらいの時代のことをまとめています。
note.com/kajitaka1201...
a calculation app made by claude opus 4.6 without thinking
a calculation app made by claude opus 4.6 with thining
Claude Opus 4.6が出ていたので、電卓作らせた
プロンプトは、「電卓アプリを作って。」のみ
Arenaで、thinkingあり、なしの両方をテストした
thinkingなし(画像1枚目):
* 普通に使える
* キーボードショートカットにも対応
* 0除算と浮動小数点数に正確に対応
thinkingあり(画像2枚目):
* 普通に使える
* キーボードショートカットにも対応
* 0除算にも対応
* 浮動小数点数は、小さい値同士の掛け算で0になってしまう
電卓のタスクが、現在のAIに簡単すぎて、thinkingあり、なしの差が良く分からない
スピードは、早く、性能も問題ない
ありがとうございます。
他企業と比べて、安全性に重きを置く2企業のトップとだけあって、危険性だったり、雇用の話だったりの意見がしっかりしています。
個人的な意見が近いので、見ていて(聞いていて)、共感する部分が多かったです。
21日に行われた、The Day After AGIというトークショー(?)が面白かったので、共有します。
World Economic Forum 2026というイベントで行われて、Google DeepmindのDemis Hassabis氏と、AnthropicのDario Amodei氏が話しています。
司会の人の質問が良くて、それぞれの意見が上手く出ています。
タイトルは、The Day After AGIですが、AGIの到達までの話が主です。
youtu.be/mmKAnHz36v0
Noteを書きました。
去年の12月から問題になっているXの画像編集機能についての感想についてです。
また、話を広げて、生成AI関連の問題に関しての自分の見解も書いています。
感想や、個人の意見等をコメントしていただけると幸いです。
note.com/kajitaka1201...
記事内にもある通り、このBlueskyアカウントでは、AI系だけでなく、プログラミングについても扱ってみたいと思っています。
元々、Next.jsを使用していたのですが、最近、他のフレームワークを試しているので、そこらへんの感想を少し投稿するかもしれません。