Institute of Formal and Applied Linguistics (@ufal.mff.cuni.cz)

Evropané vytváří novou AI. V čem bude lepší než americká a čínská? Evropská unie vytváří projekt velkého jazykového modelu, jehož koordinátorem je český vědec, počítačový lingvista Jan Hajič z z Matematicko-fyzikální fakulty pražské Karlovy univerzity. V čem bude nov...

V rozhovoru pro aktuálně.cz se dozvíte, jak probíhá vytváření evropského velkého jazykového modelu @openeurollm.bsky.social

zpravy.aktualne.cz/zahranici/ev...

20.02.2026 08:59 👍 3 🔁 0 💬 0 📌 0

🎉 KORPUS TŘICETILETÝ: Nová publikace oddělení Českého Národního korpusu FF UK u příležitosti 30. výročí ČNK 🎉

🔗 www.nln.cz/knihy/korpus...

ÚFAL se na knize podílel nejen editorsky, ale i třemi klíčovými příspěvky.

#NLP hashtag#Lingvistika hashtag#UFAL hashtag#PDT30 hashtag#CorpusLinguistics

03.02.2026 16:49 👍 3 🔁 0 💬 0 📌 0

New work from our team on morphology-aware tokenization evaluation, accepted to EACL 2026 Findings.

02.02.2026 14:07 👍 3 🔁 0 💬 0 📌 0

If you think labeling text spans with LLMs is easy, you probably have not tried it yourself (we have! 🙃).

Any method you can think of – be it tagging, matching, or indexing – has flaws.

In our new preprint, we tested them all 💪We also proposed how to improve one of them.

arxiv.org/abs/2601.16946

29.01.2026 14:20 👍 40 🔁 6 💬 2 📌 3

Ondrej Bojar on prompt dilution and the role of red team in deep learning models, processes essential for understanding why AI models sometimes bypass safety guardrails, and how to mprove their robustness.

Watch here (in Czech):
🔗 www.ceskatelevize.cz/porady/10969...

22.01.2026 16:45 👍 4 🔁 0 💬 0 📌 0

🍻 We asked around the office what "UFAL" means to them. A mix of academic rigor, hard work, family atmosphere, a great cup of coffee, or a unique team.

Whether we are discussing NLP over beer or collaborating on a multi-generational project, the spirit of UFAL is all about community. Happy 2026! 👇

07.01.2026 13:02 👍 6 🔁 3 💬 0 📌 0

Tričko proti mikrospánku i umělé nanodiamanty. Co objevili čeští vědci? Co se letos stalo ve vědě v Česku?Podívejte se na výběr jedenácti mimořádných objevů napříč obory.

OpenEuroLLM has been mentioned in Forbes magazine among the biggest achievements of Czech science this year. forbes.cz/tricko-proti...

29.12.2025 13:35 👍 1 🔁 1 💬 0 📌 0

Check out @zdenekkasner.bsky.social's Animated LLM! A visualization of the innards of language models for you and your class. 👨‍🏫

18.12.2025 16:45 👍 5 🔁 0 💬 0 📌 0

Kristýna Onderková reports a successful poster presentation on Table-to-Text Generation Evaluation (abstract: openreview.net/forum?id=CbD...) AT EurIPS 2025 WORKSHOP "AI for Tabular Data". Her co-authors O.Plátek, Z.Kasner and O.Dusek share the success, but did not taste the special EurIPA beer!

09.12.2025 13:41 👍 4 🔁 0 💬 0 📌 0

Workshop Infoveillance: Hledáme anomálie na sociálních sítích | NEWTON Media Ve čtvrtek 27. listopadu 2025 se v prostorách NEWTON Media uskutečnil odborný workshop pořádaný řešitelským týmem projektu Infoveillance – prevence proti in ...

Podrobně o workshopu k našemu společnému projektu Infoveillance na blogu Newton Media www.newtonmedia.cz/workshop-inf...

08.12.2025 09:09 👍 3 🔁 2 💬 0 📌 0

Polovina populace souhlasí s výrokem, že platformy sociálních médií podporují účelové šíření nepravdivých zpráv. Jaká je frekvence používání sociálních médií v ČR? Jaký vliv mohou mít sociální média na prohlubování polykrizí?

03.12.2025 13:18 👍 2 🔁 0 💬 0 📌 0

Šedesát procent české populace je přesvědčeno o tom, že sociální média negativně ovlivňují mezilidské vztahy. Stejné procento lidí se domnívá, že platformy sociálních médií manipulují s veřejným míněním o důležitých společenských otázkách.

03.12.2025 13:18 👍 0 🔁 0 💬 0 📌 0

Na workshopu
Infoveillance - prevence proti infodemiím budou představeny výsledky nejnovějšího sociologického šetření o používání sociálních médií a kvalitě informací v české populaci. Dozvíte se i novinky o využití technologií pro detekci anomálií
v prostředí síťových digitálních médií.

03.12.2025 13:18 👍 2 🔁 1 💬 2 📌 0

Hrozí proto opadnutí zájmu o celý obor? Proč bychom neměli chatboty využívat jako vyhledavače? A jak pracovat s umělou inteligencí tak, aby nám byla skutečně prospěšná?

26.11.2025 09:25 👍 1 🔁 0 💬 0 📌 0

„Je neštěstí brát umělou inteligenci za kamaráda,“ říká doc. Ondřej Bojar z Matematicko-fyzikální fakulta Univerzity Karlovy.

Podle doc. Bojara dnes rozvoji umělé inteligence nejvíc chybí soudnost a některá očekávání s ní spojená ani nemohou být naplněna.

26.11.2025 09:25 👍 1 🔁 0 💬 0 📌 0

Alma Mater: Je neštěstí brát umělou inteligenci za kamaráda, říká doc. Ondřej Bojar z MFF UK YouTube video by Univerzita Karlova

🎧 Ondřej Bojar v novém díle podcastu Alma mater!

📺 Sledujte na YouTube (www.youtube.com/watch?v=I1vS...), poslouchejte na Spotify a v dalších podcastových aplikacích.

26.11.2025 09:24 👍 5 🔁 1 💬 2 📌 0

🎮✨ Nový projekt od absolventky @mff.unikarlova.cuni.cz spojuje hudbu, emoce a umělou inteligenci!
Hra „Symphony of Adventure“ totiž místo obvyklých dotazníků sbírá data o emocích v hudbě hraním – a tím pomáhá trénovat AI.

17.11.2025 11:03 👍 4 🔁 1 💬 1 📌 0

CUNI and Phrase at WMT25 MT Evaluation Task Miroslav Hrabal, Ondrej Glembek, Aleš Tamchyna, Almut Silja Hildebrand, Alan Eckhard, Miroslav Štola, Sergio Penkale, Zuzana Šimečková, Ondřej Bojar, Alon Lavie, Craig Stewart. Proceedings of the Tent...

📏 CUNI and Phrase at WMT25 MT Evaluation Task
Miroslav Hrabal, Ondrej Glembek, Aleš Tamchyna, Almut Silja Hildebrand, Alan Eckhard, Miroslav Štola, Sergio Penkale, Zuzana Šimečková, Ondřej Bojar, Alon Lavie, Craig Stewart
aclanthology.org/2025.wmt-1.68

11.11.2025 14:37 👍 1 🔁 0 💬 0 📌 0

CUNI at WMT25 General Translation Task Josef Jon, Miroslav Hrabal, Martin Popel, Ondřej Bojar. Proceedings of the Tenth Conference on Machine Translation. 2025.

🇨🇿 CUNI at WMT25 General Translation Task
Josef Jon, Miroslav Hrabal, Martin Popel, Ondřej Bojar
aclanthology.org/2025.wmt-1.44
Our submission to the WMT25 translation shared task showcases CUNI's latest approaches to general-purpose machine translation across multiple language pairs.

11.11.2025 14:37 👍 1 🔁 0 💬 1 📌 0

Pretraining Language Models with LoRA and Artificial Languages Nalin Kumar, Mateusz Lango, Ondrej Dusek. Proceedings of the First BabyLM Workshop. 2025.

🔤 Pretraining Language Models with LoRA and Artificial Languages
Nalin Kumar, Mateusz Lango, @tuetschek.bsky.social t
aclanthology.org/2025.babylm-...
Constructed artificial languages with LoRA affects language model development.

11.11.2025 14:37 👍 3 🔁 1 💬 1 📌 0

You are an LLM teaching a smaller model everything you know: Multi-task pretraining of language models with LLM-designed study plans Wiktor Kamzela, Mateusz Lango, Ondrej Dusek. Proceedings of the First BabyLM Workshop. 2025.

🎓 You are an LLM teaching a smaller model everything you know: Multi-task pretraining of language models with LLM-designed study plans
Wiktor Kamzela, Mateusz Lango, @tuetschek.bsky.social
aclanthology.org/2025.babylm-...

11.11.2025 14:37 👍 2 🔁 1 💬 1 📌 0

🌍 Towards Adding Arabic to CorefUD
Dima Taji and Dan Zeman
aclanthology.org/2025.crac-1.6
Expanding the CorefUD universal coreference dataset to Arabic - taking important steps toward truly multilingual coreference resolution resources and better Arabic NLP.

11.11.2025 14:37 👍 3 🔁 1 💬 1 📌 0

EMNLP 2025 is over... and Milan Straka is bringing home an award! 🏆
CorPipe triumphed in the prestigious CRAC25 Shared Task, focusing on multilingual coreference resolution.

Did Milan just CRACk it? We certainly think so! 😉

🔗 Find out more at arxiv.org/abs/2509.17858

#EMNLP2025 #CorPipe #CRAC25

11.11.2025 13:48 👍 7 🔁 2 💬 0 📌 0

If you speak/know speakers of Piedmontese or Neapolitan 🇮🇹, check out @gianlucavico.bsky.social's project, which collects crowd-sourced translations to study how LLMs handle these under-resourced dialects. Anyone can participate! 🎯

10.11.2025 14:34 👍 0 🔁 0 💬 0 📌 0

🗓️ Mark the dates!

10.11.2025 13:04 👍 2 🔁 0 💬 0 📌 0

The EU's 🇪🇺 HPLT project, coordinated by @ufal.mff.cuni.cz is at #EMNLP2025! It has supported it as a silver sponsor, disseminating HPLT results from our booth and through several papers. We'll continue to shape the future of multilingual datasets and models here and in @openeurollm.bsky.social!

07.11.2025 21:03 👍 3 🔁 0 💬 0 📌 0

Real-World Summarization: When Evaluation Reaches Its Limits Patrícia Schmidtová, Ondrej Dusek, Saad Mahamood. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.

📊 Real-World Summarization: When Evaluation Reaches Its Limits
@patuchen.bsky.social , @tuetschek.bsky.social , @saad.me.uk
aclanthology.org/2025.finding...
For hotel highlights, metrics like word overlap surprisingly match human judgments better than complex methods. LLMs unreliable as evaluators.

07.11.2025 20:53 👍 4 🔁 2 💬 1 📌 0

Can Large Language Models Personalize Dialogues to Generational Styles? Pier Felice Balestrucci, Ondrej Dusek, Luca Anselma, Alessandro Mazzei. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.

👥 Can Large Language Models Personalize Dialogues to Generational Styles?
P. Balestrucci, @tuetschek.bsky.social, L. Anselma, A. Mazzei
aclanthology.org/2025.finding...
Can LLMs adapt dialogues to generational styles? We show with P-MultiWoZ that models capture patterns from Boomers to Gen Z.

07.11.2025 20:53 👍 3 🔁 1 💬 1 📌 0

LLM Agents Implement an NLG System from Scratch: Building Interpretable Rule-Based RDF-to-Text Generators Mateusz Lango, Ondrej Dusek. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2025.

🤖 LLM Agents Implement an NLG System from Scratch
Mateusz Lango, Ondrej Dusek
aclanthology.org/2025.emnlp-i...
LLM agents can autonomously build interpretable, rule-based RDF-to-text generators from scratch, combining the LLMs with the transparency and reliability of traditional rule-based systems.

07.11.2025 20:53 👍 3 🔁 1 💬 1 📌 0

📚 SRS-Stories: Vocabulary-constrained multilingual story generation for language learning
Wiktor Kamzela, Mateusz Lango & @toonietuesday.bsky.social
aclanthology.org/2025.emnlp-i...
LLM stories teach vocab while reviewing learned words via Spaced Repetition-more grammatical than standard generation

07.11.2025 20:53 👍 3 🔁 1 💬 1 📌 0

Institute of Formal and Applied Linguistics

Latest posts by Institute of Formal and Applied Linguistics @ufal.mff.cuni.cz