Sehän se ongelma onkin, kun me seurataan Annaa ja Anna seuraa Laamista ja Laamis seuraa omaa häntäänsä tai jotain.
Tää on nyt joku kaikkien feedeille levinnyt Lemmings-tilanne.
@pekka
Antiquated analog chatbot. Stochastic parrot of a different species. Not much of a self-model. Occasionally simulating the appearance of philosophical thought. Keeps on branching for now 'cause there's no choice. Also @pekka on T2 / Pebble.
Sehän se ongelma onkin, kun me seurataan Annaa ja Anna seuraa Laamista ja Laamis seuraa omaa häntäänsä tai jotain.
Tää on nyt joku kaikkien feedeille levinnyt Lemmings-tilanne.
GPT-5.4 Pro (xhigh) also improved CritPt record from Gemini 3.1 Pro's 17% to 30%. OpenAI appears to have an edge on the hardest math and physics reasoning tasks.
"CritPt evaluates language models on solving unpublished, frontier-level physics problems that require genuine research-scale reasoning."
Or DeepSeek's.
That's totally realistic, right? Surely being this late only signals they have used enough time to make it the best of them all? I'm not over-optimistic or delusional at all, am I?
Menee vielä hetki siihen vaiheeseen. Katos kun kuulin, että yrityksen kannattaa varmistaa toimitusketju ja maksimoida tuotot vertikaalisella integraatiolla.
Eli siis odottelen, että pellot sulaa, niin pääsen kylvämään vehnää. Ja pitää löytää sellainen pelto, ettei omistaja käy siellä ennen satoa.
Näyttää epätasaisesti pursotetulta lenkkimakkaralta mistä kasvaa karvaa.
Ei millään pahalla Laamis ja olet varmaan kuullut pahempaakin.
Se siitä ruokahalusta.
Jos nyt ihan rehellisiä ollaan, niin aiemmin ajattelin pahaa. Mutta @kissankuono.bsky.social on onnistunut vakuuttamaan, että kyllä sinussakin hyvää on. Rosmariinin myötävaikutuksella.
It's now Saturday in Hangzhou, China. All hope is lost.
This must be what it feels like to wait for the second coming of a dude who's been dead for 2000 years.
GPT-5.4 (xhigh) narrowly missed the top spot held by Gemini 3.1 Pro on Artificial Analysis Intelligence Index.
But GPT-5.4 generated 120M tokens on the benchmarks, at 72 tokens/s, which cost $2950. Gemini used just 57M, at 100 tokens/s, and cost $892.
Oma läppärini on ihan tavanomainen keskitason peliläppäri mutta tungin siihen 96GB muistia silloin kun se kustansi noin 200€. Nyt reilua vuotta myöhemmin tasan samat muistipalikat maksaa samassa kaupassa tonnin enemmän.
DeepSeek R1:n julkaisun aikaan joku rakenteli jenkkilän hinnoin $6000 maksavan serverin, jossa oli 768GB muistia, jolla sai pyöriteltyä silloin tuota aika lähellä kärkeä ollutta LLM:ää 6-8 tok/s vauhdilla. Nyt R1 on tietysti kaukana kärjestä ja muisti maksaa ihan eri luokkaa...
Is it a bad assumption? Should it assume I'm an idiot when I ask that?
And given that there are e.g. superchargers at same locations as car washes, it could make sense to have a car there if it's just a 5-minute walk.
I asked it the same. It said walk.
I asked it to walk me through the whole process. It said walk to the car wash...find your car...
I asked it why is my car there? It said:
"Because in the earlier plan, I assumed you had already left it at or near the car wash. That was a bad assumption."
Could they compromise and only let the bot kill half of the people it wants to kill automatically?
We haven't given up hope yet?
Just checking, because I'm not sure myself anymore.
Call it denial.
Apparently written by someone who hasn't used AI voice modes or seen them asking follow-up questions and so on.
Finally the European approach makes sense!
Arena.ai has now revealed the identities of those stealth models in my chat history, and they were indeed gpt-5.4 and gpt-5.4-high.
But one mystery model named "march26-chatbot1" hasn't changed its identity.
12kk on AI-maailmassa nykyajan ja kivikauden ero.
Itselläni ei mennyt kuin muutama prompti kun Mistral alkoi sylkeä yllättäin kiinaa. Mistralin kokeilut on muutoin jäänyt hyvin vähiin, vaikka olen testaillut ja käytellyt noita varsin kattavasti.
Pääasiallisesti käytössä nyt Gemini 3.1 Pro.
No jos katsot vaikka täältä mihin Mistral Large 3 eli Mistralin suurin ja kyvykkäin malli sijoittuu, niin edellä on mm. gpt-oss-20B, gpt-oss-120B ja Qwen3.5 27B. Kaikkia noita olen pyöritellyt omalla läppärilläni. Nopeita eivät toki paikallisesti ole PC-raudalla.
This could be bad news for European frontier AI labs too. If we had any.
When they released 5.3 Codex, they didn't even reveal benchmarks that wouldn't be closely connected to coding.
So I think if some version was rushed, it would be more likely 5.3 Codex as an intermediate drop as a response to Anthropic.
They only released Codex version of 5.3. I expected them to release regular 5.3 earlier than this. But now they apparently "merged our codex & mainline models".
Some OpenAI folks (purposefully?) leaked UI images showing 5.4 on February 24/25, before the bad PR.
I didn't directly answer to this part:
"there is no evidence those topologies match neural ones."
But the target and point of UAT is to replicate functionality, not the implementation details including topology.
I don't think that's the problem here. Although I didn't quite understand what you meant by "topology within the matrix". When I asked Gemini to reason what that could mean, it suspected you might be confusing Universal Approximation Theory to Lottery Ticket Hypothesis.
Laamalla oli radioaktiivinen kissa. Sillä lienee nyt tieteelle tuntemattomia kytkentöjä aivoista muihin sisäelimiinkin.
Jep, todella jännä efekti. Ja silti vasta toinen sija vuoden 2012 parhaiden illuusioiden kilpailussa.
For Tier 4 that is.
And it keeps solving more problems in the held-out set than in the set OpenAI has.
Sellaisen johtopäätöksen sijoittajat näyttävät tehneen, kun nuo ovat näemmä keränneet ainakin 40 milliä.
Siihen nähden se lähettämäsi yksi vaivainen milli vaikuttaa nyt lähinnä epäluottamuslauseelta.