V rozhovoru pro aktuálně.cz se dozvíte, jak probíhá vytváření evropského velkého jazykového modelu @openeurollm.bsky.social
zpravy.aktualne.cz/zahranici/ev...
V rozhovoru pro aktuálně.cz se dozvíte, jak probíhá vytváření evropského velkého jazykového modelu @openeurollm.bsky.social
zpravy.aktualne.cz/zahranici/ev...
🎉 KORPUS TŘICETILETÝ: Nová publikace oddělení Českého Národního korpusu FF UK u příležitosti 30. výročí ČNK 🎉
🔗 www.nln.cz/knihy/korpus...
ÚFAL se na knize podílel nejen editorsky, ale i třemi klíčovými příspěvky.
#NLP hashtag#Lingvistika hashtag#UFAL hashtag#PDT30 hashtag#CorpusLinguistics
New work from our team on morphology-aware tokenization evaluation, accepted to EACL 2026 Findings.
If you think labeling text spans with LLMs is easy, you probably have not tried it yourself (we have! 🙃).
Any method you can think of – be it tagging, matching, or indexing – has flaws.
In our new preprint, we tested them all 💪We also proposed how to improve one of them.
arxiv.org/abs/2601.16946
Ondrej Bojar on prompt dilution and the role of red team in deep learning models, processes essential for understanding why AI models sometimes bypass safety guardrails, and how to mprove their robustness.
Watch here (in Czech):
🔗 www.ceskatelevize.cz/porady/10969...
🍻 We asked around the office what "UFAL" means to them. A mix of academic rigor, hard work, family atmosphere, a great cup of coffee, or a unique team.
Whether we are discussing NLP over beer or collaborating on a multi-generational project, the spirit of UFAL is all about community. Happy 2026! 👇
OpenEuroLLM has been mentioned in Forbes magazine among the biggest achievements of Czech science this year. forbes.cz/tricko-proti...
Check out @zdenekkasner.bsky.social's Animated LLM! A visualization of the innards of language models for you and your class. 👨🏫
Kristýna Onderková reports a successful poster presentation on Table-to-Text Generation Evaluation (abstract: openreview.net/forum?id=CbD...) AT EurIPS 2025 WORKSHOP "AI for Tabular Data". Her co-authors O.Plátek, Z.Kasner and O.Dusek share the success, but did not taste the special EurIPA beer!
Podrobně o workshopu k našemu společnému projektu Infoveillance na blogu Newton Media www.newtonmedia.cz/workshop-inf...
Polovina populace souhlasí s výrokem, že platformy sociálních médií podporují účelové šíření nepravdivých zpráv. Jaká je frekvence používání sociálních médií v ČR? Jaký vliv mohou mít sociální média na prohlubování polykrizí?
Šedesát procent české populace je přesvědčeno o tom, že sociální média negativně ovlivňují mezilidské vztahy. Stejné procento lidí se domnívá, že platformy sociálních médií manipulují s veřejným míněním o důležitých společenských otázkách.
Na workshopu
Infoveillance - prevence proti infodemiím budou představeny výsledky nejnovějšího sociologického šetření o používání sociálních médií a kvalitě informací v české populaci. Dozvíte se i novinky o využití technologií pro detekci anomálií
v prostředí síťových digitálních médií.
Hrozí proto opadnutí zájmu o celý obor? Proč bychom neměli chatboty využívat jako vyhledavače? A jak pracovat s umělou inteligencí tak, aby nám byla skutečně prospěšná?
„Je neštěstí brát umělou inteligenci za kamaráda,“ říká doc. Ondřej Bojar z Matematicko-fyzikální fakulta Univerzity Karlovy.
Podle doc. Bojara dnes rozvoji umělé inteligence nejvíc chybí soudnost a některá očekávání s ní spojená ani nemohou být naplněna.
🎧 Ondřej Bojar v novém díle podcastu Alma mater!
📺 Sledujte na YouTube (www.youtube.com/watch?v=I1vS...), poslouchejte na Spotify a v dalších podcastových aplikacích.
🎮✨ Nový projekt od absolventky @mff.unikarlova.cuni.cz spojuje hudbu, emoce a umělou inteligenci!
Hra „Symphony of Adventure“ totiž místo obvyklých dotazníků sbírá data o emocích v hudbě hraním – a tím pomáhá trénovat AI.
📏 CUNI and Phrase at WMT25 MT Evaluation Task
Miroslav Hrabal, Ondrej Glembek, Aleš Tamchyna, Almut Silja Hildebrand, Alan Eckhard, Miroslav Štola, Sergio Penkale, Zuzana Šimečková, Ondřej Bojar, Alon Lavie, Craig Stewart
aclanthology.org/2025.wmt-1.68
🇨🇿 CUNI at WMT25 General Translation Task
Josef Jon, Miroslav Hrabal, Martin Popel, Ondřej Bojar
aclanthology.org/2025.wmt-1.44
Our submission to the WMT25 translation shared task showcases CUNI's latest approaches to general-purpose machine translation across multiple language pairs.
🔤 Pretraining Language Models with LoRA and Artificial Languages
Nalin Kumar, Mateusz Lango, @tuetschek.bsky.social t
aclanthology.org/2025.babylm-...
Constructed artificial languages with LoRA affects language model development.
🎓 You are an LLM teaching a smaller model everything you know: Multi-task pretraining of language models with LLM-designed study plans
Wiktor Kamzela, Mateusz Lango, @tuetschek.bsky.social
aclanthology.org/2025.babylm-...
🌍 Towards Adding Arabic to CorefUD
Dima Taji and Dan Zeman
aclanthology.org/2025.crac-1.6
Expanding the CorefUD universal coreference dataset to Arabic - taking important steps toward truly multilingual coreference resolution resources and better Arabic NLP.
EMNLP 2025 is over... and Milan Straka is bringing home an award! 🏆
CorPipe triumphed in the prestigious CRAC25 Shared Task, focusing on multilingual coreference resolution.
Did Milan just CRACk it? We certainly think so! 😉
🔗 Find out more at arxiv.org/abs/2509.17858
#EMNLP2025 #CorPipe #CRAC25
If you speak/know speakers of Piedmontese or Neapolitan 🇮🇹, check out @gianlucavico.bsky.social's project, which collects crowd-sourced translations to study how LLMs handle these under-resourced dialects. Anyone can participate! 🎯
🗓️ Mark the dates!
The EU's 🇪🇺 HPLT project, coordinated by @ufal.mff.cuni.cz is at #EMNLP2025! It has supported it as a silver sponsor, disseminating HPLT results from our booth and through several papers. We'll continue to shape the future of multilingual datasets and models here and in @openeurollm.bsky.social!
📊 Real-World Summarization: When Evaluation Reaches Its Limits
@patuchen.bsky.social , @tuetschek.bsky.social , @saad.me.uk
aclanthology.org/2025.finding...
For hotel highlights, metrics like word overlap surprisingly match human judgments better than complex methods. LLMs unreliable as evaluators.
👥 Can Large Language Models Personalize Dialogues to Generational Styles?
P. Balestrucci, @tuetschek.bsky.social, L. Anselma, A. Mazzei
aclanthology.org/2025.finding...
Can LLMs adapt dialogues to generational styles? We show with P-MultiWoZ that models capture patterns from Boomers to Gen Z.
🤖 LLM Agents Implement an NLG System from Scratch
Mateusz Lango, Ondrej Dusek
aclanthology.org/2025.emnlp-i...
LLM agents can autonomously build interpretable, rule-based RDF-to-text generators from scratch, combining the LLMs with the transparency and reliability of traditional rule-based systems.
📚 SRS-Stories: Vocabulary-constrained multilingual story generation for language learning
Wiktor Kamzela, Mateusz Lango & @toonietuesday.bsky.social
aclanthology.org/2025.emnlp-i...
LLM stories teach vocab while reviewing learned words via Spaced Repetition-more grammatical than standard generation