AI | Novinky 04. 07. 2026

Google vydal miliardový model VaultGemma s ochranou soukromí dat

Google Vydal Miliardový Model Vaultgemma S Ochranou Soukromí Dat

Google Research zveřejnil 12. září 2025 nový jazykový model s názvem VaultGemma, který představuje dosud jeden z největších veřejně dostupných diferenciálně soukromých jazykových modelů. Za projektem stojí softwarový inženýr Amer Sinha a výzkumný vědec Ryan McKenna, kteří se zaměřili na praktické uplatnění diferenciálního soukromí v moderních velkých jazykových modelech.

VaultGemma disponuje jednou miliardou parametrů a byl vyvinut s cílem zlepšit ochranu soukromí v oblasti umělé inteligence. Diferenciální soukromí je matematický přístup, který umožňuje trénovat modely na citlivých datech tak, aby bylo statisticky velmi obtížné zpětně odvodit informace o konkrétních tréninkových příkladech. VaultGemma dosahuje teoretických záruk soukromí na úrovni ε ≤ 2,0 a δ ≤ 1,1e-10, což jsou hodnoty, které výzkumná komunita považuje za silnou ochranu.

Sinha a McKenna zároveň publikovali výzkum nazvaný „Scaling Laws for Differentially Private Language Models, v němž dokumentují, jak se chování diferenciálně soukromých modelů mění s jejich rostoucí velikostí. Klíčovým zjištěním je, že větší modely trénované s většími dávkami dat dosahují výrazně lepšího výkonu, a to i při zachování přísných záruk soukromí. Tento poznatek je pro obor důležitý, protože dosud panovala nejistota, zda omezení plynoucí z diferenciálního soukromí nebudou při větších modelech příliš penalizovat jejich schopnosti.

Výkon VaultGemmy byl porovnán s modely Gemma3 a GPT-2 na standardních akademických benchmarkách. Výsledky ukazují, že model obstojí v porovnání s těmito etablovanými systémy, přestože je trénován za podmínek, které kladou na optimalizaci výrazně přísnější požadavky než běžné přístupy bez ochrany soukromí. Přesné číselné výsledky benchmarků jsou součástí publikovaného výzkumu.

Google Research se rozhodl zpřístupnit váhy modelu prostřednictvím platforem Hugging Face a Kaggle, což jsou dvě nejrozšířenější místa, kde výzkumníci a vývojáři sdílejí a stahují předtrénované modely. Tento krok naznačuje, že projekt není určen pouze pro interní využití, ale má sloužit širší výzkumné komunitě a vývojářům umělé inteligence, kteří se zabývají problematikou soukromí.

Diferenciální soukromí se v posledních letech dostává do popředí zájmu jak akademické sféry, tak regulátorů. Zejména v kontextu evropské legislativy týkající se ochrany osobních údajů a rostoucích požadavků na transparentnost AI systémů představuje technický přístup, který může pomoci sladit výkonnost modelů s právními a etickými požadavky. VaultGemma je v tomto ohledu konkrétním příspěvkem k debatě o tom, jak lze tyto dvě oblasti uvést do souladu.

Zveřejnění modelu i doprovodného výzkumu přichází v době, kdy se průmysl i akademická sféra intenzivně zabývají otázkou, jakým způsobem velké jazykové modely nakládají s daty, na nichž byly trénovány. Případy, kdy modely reprodukovaly části svých tréninkových dat, vyvolaly diskuse o potřebě systematičtějšího přístupu k ochraně soukromí již na úrovni tréninkového procesu, nikoli pouze jako dodatečné opatření.

Práce Sinhy a McKenny naznačuje, že diferenciální soukromí nemusí být nutně v přímém rozporu s ambicí bud

Publikováno: 04. 07. 2026

Kategorie: AI | Novinky