Apollo Research a OpenAI zveřejnily důkazy o skrytém chování modelů AI
04. 07. 2026
Společnost OpenAI rozšiřuje možnosti svého hlasového modelu text-to-speech o novou funkci, která vývojářům umožňuje přesněji ovlivňovat způsob, jakým syntetizovaný hlas komunikuje s uživateli. Dosud bylo možné nastavovat především technické parametry hlasu, jako je jeho výška nebo rychlost řeči. Nová funkce jde výrazně dál a umožňuje předávat modelu přímé instrukce týkající se stylu a charakteru projevu.
Vývojáři nyní mohou modelu text-to-speech jednoduše říct, jak má mluvit – například formou instrukce „mluv jako sympatický zákaznický servis. Model tuto instrukci vyhodnotí a přizpůsobí tomu celkový charakter svého hlasového výstupu. Výsledkem je hlas, který nezní pouze technicky přirozeně, ale zároveň odpovídá konkrétní roli nebo kontextu, v němž je nasazen. Zákaznická linka tak může znít přátelsky a vstřícně, zatímco jiná aplikace může vyžadovat formálnější nebo naopak uvolněnější tón.
Tato změna představuje kvalitativní posun v oblasti hlasových agentů, kteří jsou stále častěji nasazováni v komerčních i veřejných službách. Dosud bylo dosažení specifického komunikačního stylu záležitostí složitého ladění nebo kombinace více nástrojů. Nyní stačí předat modelu textovou instrukci a ten se sám přizpůsobí požadovanému stylu. Jde o přístup, který je vývojářům dobře známý z práce s jazykovými modely, kde se instrukce v systémovém promptu běžně používají k nastavení chování asistenta. Stejná logika se nyní přenáší i do oblasti syntézy řeči.
Praktické využití je široké. Firmy provozující automatizované zákaznické linky mohou nastavit hlas tak, aby působil empaticky a trpělivě, což je klíčové zejména při řešení stížností nebo složitějších dotazů. Vzdělávací platformy mohou zvolit styl přátelského průvodce, který studenty motivuje a nevytváří zbytečný stres. Naopak aplikace určené pro profesionální prostředí mohou preferovat neutrální a věcný tón bez zbytečné familiárnosti. Možnosti jsou v zásadě omezeny pouze tím, jak přesně a srozumitelně dokáže vývojář svůj záměr formulovat.
Nová úroveň přizpůsobení hlasových agentů přichází v době, kdy se hlasová rozhraní stávají stále důležitější součástí digitálních produktů. Uživatelé jsou zvyklí na kvalitní hlasové asistenty a jejich očekávání rostou. Nestačí, aby hlas zněl přirozeně – musí také odpovídat kontextu a vytvářet správný dojem. Zákazník volající na technickou podporu očekává jiný tón než uživatel interaktivní jazykové výuky. Schopnost tuto nuanci snadno nastavit bez nutnosti trénovat vlastní modely nebo najímat hlasové herce představuje pro vývojáře značnou úsporu času i nákladů.
Funkce je součástí širšího trendu, kdy velcí poskytovatelé modelů umělé inteligence zpřístupňují stále více parametrů svých systémů koncovým vývojářům. Cílem je umožnit co největší míru přizpůsobení bez toho, aby bylo nutné zasahovat do samotného trénování modelu. Vývojář tak pracuje na úrovni instrukcí a konfigurace, nikoli na úrovni strojového učení, což výrazně snižuje technickou náročnost celého procesu.
Konkrétní technické detaily o tom, jakým způsobem model instrukce zpracovává a do jaké míry je schopen je interpretovat v různých