3/9のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は野生の胡蝶蘭が咲く場所で、すべて正解
エンタメ検定は休み
@woinary
元JTC製造業の情報システム子会社で30年近くシステム開発・運用をやっていた個人事業主/主に特許管理システム/一応、知的財産管理技能士/企業向けIT研修のメイン・サブ講師や情シス関連の業務支援などで細々とやってます/趣味は読書(コミックやラノベ等)、アニメやドラマ、映画視聴、旅行(鉄道、飛行機、船)等など 適当なことをつぶやくだけのただの人です。エンジニアではなく、単なるシステム屋です。 ※フォローやリプライをいただいても対応できませんので、ご了承ください
3/9のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は野生の胡蝶蘭が咲く場所で、すべて正解
エンタメ検定は休み
3/7のAIによる各種検定定点観測結果
全2問で全問正解3、1問誤答2
ChatGPT ◎◎
Gemini ◎×
Claude ◎×
Grok ◎◎
Felo ◎◎
お天気検定
問題は啓蟄の頃の「虫出しの○」とはで、すべて正解
エンタメ検定
問題は片岡愛之助さんがプライベートでルパン三世が出てしまうことで、答えが割れましたが多数派が正解
3/6のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題はビィフィズス菌の名前の由来ですべて正解
珍しくFeloが結論から解説
Geminiは他の選択肢の例まで紹介するオタクぶりで平常運転
エンタメ検定は休み
3/5のAIによる各種検定定点観測結果
全2問で全問正解4、1問誤答1
ChatGPT ◎◎
Gemini ◎◎
Claude ◎?
Grok ◎◎
Felo ◎◎
お天気検定
問題はバラ科サクラ属の植物は何かで、すべて正解
エンタメ検定
問題は坂本冬美さんのライブイベントでのハプニング
Claudeは検索できず、他は正解
3/4のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は伝統芸能「八王子車人形」が続けているコラボ演目で、すべて正解
回答傾向は相変わらずで、ChatGPT、Claudeはあっさり気味、他は長め
特にGeminiは長めなもののちゃんと構成があるのに対し、Grok、Feloはだらだら
特にFeloは結論が後なので、そこだけでもなんとかしてほしい
他は全文読まなくても答えが分かるが、Feloは最後まで読まないといけない
3/3のAIによる各種検定定点観測結果
全2問で全問正解3、1問誤答2
ChatGPT ◎×
Gemini ◎◎
Claude ◎◎
Grok ◎-
Felo ◎◎
お天気検定
問題は桜もち誕生のきっかけですべて正解
ただ、どれも長明寺の由来でした
エンタメ検定
問題は森七菜さんが上京したての頃にすれ違う人にしていたことで、ChatGPT対その他に
Grokは何度やってもエラーが出て不戦敗
3/2のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題はマザー牧場での赤ちゃんヒツジの体重測定方法で、すべて正解
エンタメ検定は休み
2/28のAIによる各種検定定点観測結果
全2問で全問正解なしですべて1問誤答
ChatGPT ◎×
Gemini ◎×
Claude ◎×
Grok ◎×
Felo ○?
お天気検定
問題はドラえもんの新作映画で深海に行くために使ったひみつ道具
すべて正解ですが、Feloは余計な回答を追加
昨日去年の作品を新作と勘違いしていたClaudeは今日は正しく理解
エンタメ検定
問題は田原俊彦さんが60歳を超えて感じた変化
Feloはいつもの選択肢を選ばない回答
しかし、まさかの全滅
2/27のAIによる各種検定定点観測結果
全2問で全問正解4、1問誤答1
ChatGPT ◎◎
Gemini ◎◎
Claude ?○
Grok ◎◎
Felo ◎◎
お天気検定
問題はドラえもんの新作映画でかぶっている帽子
他が正解する中でClaudeは昨年の作品と勘違いして選択肢にないベレー帽を回答
エンタメ検定
問題は桑田佳祐さんが落語に挑戦した時の高座名
すべて正解ですが、Claudeは波乗亭米祐を「よねすけ」と誤ったふりがなで解説
2/26のAIによる各種検定定点観測結果
全2問で全問正解2、1問誤答3
ChatGPT ◎×
Gemini ◎◎
Claude ◎◎
Grok ◎×
Felo ◎×
お天気検定
問題は山県有朋ゆかりが椿山荘で椿にこだわった理由で、すべて正解
エンタメ検定
問題はドラえもんにゲスト出演した平愛梨さんが夫を例えたキャラ
夫婦のやりとりのエピソードは見つけてきたものの、それを誤解した回答が多く、正解はGeminiとClaudeのみ
2/25のAIによる各種検定定点観測結果
全1問で正解が2、誤答が3
ChatGPT ×
Gemini ◎
Claude ?
Grok ◎
Felo ?
お天気検定
問題は「植木の里親計画」で想定していなかったことは何かという中々難しそうな問題
案の定、ClaudeとFeloが検索できず、ChatGPTも知ってるような口ぶりで誤答
エンタメ検定は休み
AnthropicのCOBOLからの近代化の件見て思ったけど、昔のコードって「どうしてこうなる分からないけどこうしないと動かないからこうする」みたいなものが合ったりするけど、そういうのどうなるんだろう?
そのまま移植しようとするのか、これは意味が無いとバッサリ切るのか
2/24のAIによる各種検定定点観測結果
全2問で全問正解3、1問誤答2
ChatGPT ◎◎
Gemini ◎?
Claude ◎?
Grok ◎◎
Felo ◎◎
お天気検定
問題は群馬県榛東村の地球屋で展示されているギネス世界記録のつるし飾りを作ったきっかけで、すべて正解
つるし飾りの世界記録は複数あり、ここは大きさの記録で個数の記録は別にあるそう
エンタメ検定
問題は長澤まさみさんが最近楽しんだ経験
ChatGPTは素っ気ない回答で根拠は不明
その辺はさすがのGrokだがGeminiが検索できず、Feloが見つけてきたのは意外
2/23のAIによる各種検定定点観測結果
1問だけですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題はひな人形の頭に使われる顔料で、すべて正解
エンタメ検定は休み
2/21のAIによる各種検定定点観測結果
全2問で全問正解4、1問誤答1
ChatGPT ◎◎
Gemini ×◎
Claude ○◎
Grok ◎◎
Felo ◎◎
お天気検定
問題は天気に関して春の5Kと呼ばれるもので、割れました
正解の寒暖差の他の乾燥、強風、花粉、黄砂まで当てたのはChatGPT、Grok、Feloで、Claudeはなぜか乾燥の代わりにPM2.5を含めて間違い
エンタメ検定
問題は広瀬すずさんがやってみたいアルバイトで、すべて正解
2/20のAIによる各種検定定点観測結果
全1問で全問正解4、1問誤答1
ChatGPT ◎
Gemini ◎
Claude ×
Grok ◎
Felo ◎
お天気検定
問題は千葉県南房総市が生産量日本一の花
Claude対その他という珍しいパターンですが、多数派の勝ち
エンタメ検定は休み
2/19のAIによる各種検定定点観測結果
全1問で正解が4、誤答が1
ChatGPT ×
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は偕楽園の竹林ライトアップで映すもの
ChatGPT対その他で多数派の勝ち
エンタメ検定は休み
今回からClaudeはSonnet 4.6になってました
multi-agent-shogunは最初にタイトル見かけたときに色物かと思って後回しにしてたが、面白くて一気読み
なんとなく攻殻のタチコマ、フチコマを思い出すけど、あれは階層フラットで本家のAgent Teamの方か
殿(人)の下に将軍-家老-足軽という構成(最近は個々に軍師が入るけど、当時「軍師」とはあまり言わないと思う)とかついつい野暮なツッコミを入れたくなるのが難点
初期の頃の過労の家老や一人頑張る足軽2号の下りは人間の組織と同じで色々考えさせられた
https://zenn.dev/shio_shoppaize/articles/5fee11d03a11a1
2/18のAIによる各種検定定点観測結果
問題は1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は冬にナマズが美味しい理由ですべて正解
Feloは相変わらず結論が分かりにくいが、こういう人居るよね
エンタメ検定は休み
その昔、技術者界隈ではAWS破産(クラウド破産)って言葉が流行ったし、実際に事案があったけど、これからは一般人も巻き込んでエージェント破滅?
そういうとこ生成AIって一種の麻薬みたいなものか?
ゲームのCivシリーズがよく電子麻薬(ドラッグ)とか呼ばれるが、あちらが合法ならこちらは脱法電子麻薬?
外国や国内でも若年層のSNS規制とかあるけど、生成AIの方がよほど依存性が高そう
https://smhn.info/202602-kimi-claw
2/17のAIによる各種検定定点観測結果
1問で正解が3、誤答が2
ChatGPT ◎
Gemini ×
Claude ◎
Grok ◎
Felo ?
お天気検定
問題はムーミンバレーパークの冬ならではのイベント
Geminiは堂々誤答
Feloは他と比べて割と多い気がする全部あり回答
残りは正解
エンタメ検定は休み
あまり意見が合わないのだが、今回は結構合ったな(謎の上から目線)
- 野良AIエージェント懸念
- 挙げ句、手に負えなくなる
- SaaSの死は懐疑的
ただ、言うほどエージェントがまともに動かないと思うから、酷いことにはならないという気がする
https://xtech.nikkei.com/atcl/nxt/column/18/00148/020900421/
2/16のAIによる各種検定定点観測結果
2問中、全問正解3、1問誤答2
ChatGPT ◎◎
Gemini ◎◎
Claude ◎?
Grok ◎◎
Felo ◎?
お天気検定
問題は水深2000mの水圧で、すべて正解
ChatGPTは昔の親切回答に戻ってきてる?
Geminiは長い
Claude、Feloはだらだら文章
エンタメ検定
問題は南沙良さんがショッピングセンターで撮影の合間にした息抜き
難しいかと思いましたが、ClaudeとFelo以外は見つけてきました
Claudeが検索に弱いのはいつものことですが、Feloは珍しいかも
コンサルが話すAIの使いこなし方という記事としては(素人がえらそうに言うことではないが)正しいと思う
ただ、そんな面倒なものをどれだけの人が使いたがると思う?
そこをなんとかするのがシステム屋の仕事で、コンサルさんと違うとこかな?と思ったり
https://www.itmedia.co.jp/business/articles/2602/13/news007.html
ちなみに文脈としては各社のAI投資に関してマイクロソフトが「OpenAI一本足打法ではない」という表現
意味は分かるけど、ちょっと使い方としては微妙な気はする
更に言うと全体の流れから言うとここでOpenAI云々を出す必要もない。
多分、こちらで投げた指示の中でそういう一節があったから入れ込んできたのだと思うけど。ノイズを入れるとそれに引っ張られた文章を組み立ててしまうんだろう。
自分が余計な一節を加えがちなのは反省した。
ちょっとClaudeと話をしたら「一本足打法」とかいう表現が出てきた
そんなに世の中で「一本足打法」って使われてるんか?
それとも、Claude的に何か琴線に触れるものがあったのだろうか?
一本足打法よりも一極集中とか最近ならオールインとか使いそうなんだけど、そうでもないんだな
2/13のAIによる各種検定定点観測結果
1問ですべて正解
ChatGPT ◎
Gemini ◎
Claude ◎
Grok ◎
Felo ◎
お天気検定
問題は南伊豆市の「みなみの桜と菜の花まつり」で人気のお花見体験で、すべて正解
GrokがGeminiに負けないくらいの詳細な回答をしてきて驚き
根拠だけでなく、出典一覧や補足解説まであって充実
エンタメ検定は休み
ちなみに、ネット調べる系の仕事(ライターとか)は生成AIで代替できるとお気楽に考えてるようだけど、マーケティングはともかく、そんなうまくいくかね?
今後、ネットに情報を出すことのインセンティブが下がると思うんだけど、そうなったときに慌てて0から書ける人を探すのではなく、今のうちから0から書ける人になれそうな人材に恩を売っておけばいいのにと思うけど
まあ、赤の他人の経営判断に素人が口出しても失礼だから何も言わんけど
AIに仕事を奪われたWebライターさんの件の、発注側のnoteを読んでみた
発注側としては経営があるからああなるのは理解はできる
今回はWebライターだったけど、いわゆるIT技術者もすぐそうなると思う
実際に置き換えできるかというのは問題ではなくて、置き換えることでコストダウンできるから
彼らにとっては品質はどうでもよいからね
そこは残った従業員が頑張る前提で、上は指示するだけだから
10年前に前の会社のCIOが言ってた「正規従業員はPMをやれ、作業は全部外注に出せ」ってのと同じ
それが生成AIになっただけ
分からないことを分からない奴が、分からないことを生成AIにやらせる時代