Hlavní Inovovat Nová umělá inteligence převodu textu na řeč od Googlu je tak dobrá, že se vsadíme, že ji od skutečného člověka nepoznáte

Nová umělá inteligence převodu textu na řeč od Googlu je tak dobrá, že se vsadíme, že ji od skutečného člověka nepoznáte

Váš Horoskop Pro Zítřek

Dokážete rozpoznat rozdíl mezi počítačovou řečí generovanou AI a skutečným živým člověkem? Možná jste si vždy mysleli, že můžete. Možná máte rádi Alexu a Siri, ale věřte, že byste si nikdy nepomýlili žádnou z nich se skutečnou ženou.

Věci se stanou mnohem zajímavějšími. Inženýři Google pracovali tvrdě při vytváření systému převodu textu na řeč s názvem Tacotron 2 . Podle a papír publikovali tento měsíc, systém nejprve vytvoří spektrogram textu, vizuální reprezentaci toho, jak by řeč měla znít. Tento obrázek je vložen do stávajícího algoritmu Google WaveNet, který jej používá k produkci extrémně přirozeně znějící lidské řeči.

osobní život juan pablo di pace

Pomocí této metody vědci uvádějí: „Náš model dosahuje průměrného skóre mínění (MOS) 4,53 srovnatelného s MOS 4,58 u profesionálně zaznamenané řeči.“ (Průměrné skóre názoru je telekomunikační výraz, který měří, jak zní něco realisticky.)

Jak ukazují zvukové ukázky Google, Tacotron 2 dokáže z kontextu detekovat rozdíl mezi podstatným jménem „desert“ a slovesem „desert“, jakož i podstatným jménem „present“ a slovesem „present“, a podle toho změnit jeho výslovnost. Může klást důraz na velká písmena a aplikovat správné skloňování při kladení otázek, nikoli při vyslovování.

A může generovat text, který zní tak podobně jako lidská řeč, že je obtížné nebo nemožné poznat rozdíl. Pokud chcete zjistit, jak je to těžké, přejděte do Googlu stránka se zvukovými ukázkami , a přejděte dolů na poslední sadu vzorků s názvem „Tacotron 2 nebo Human?“ Tam najdete Tacotron 2 a skutečnou osobu, z níž každý říká věty jako: „Ta dívka natočila video o rtěnce Star Wars.“

SPOILER ALERT: Chcete-li se otestovat, poslechněte si ukázky a hádejte, které jsou, než si přečtete zbytek tohoto sloupce.

Které vzorky tedy převádějí text na řeč a které jsou skutečným lidským hlasem? Inženýři Google neříkají, ale zanechali velmi velkou stopu. Každý ze vzorků souboru .wav má název souboru obsahující buď výraz „gen“, nebo „gt“. Na základě příspěvku je vysoce pravděpodobné, že „gen“ označuje řeč generovanou Tacotronem 2 a „gt“ je skutečná lidská řeč. („GT“ pravděpodobně znamená „základní pravda“, což je výraz strojového učení, který v zásadě znamená „skutečný obchod“.)

Za předpokladu, že je to správné, zde jsou odpovědi na test:

tim mcgraw věk a výška

'Ta dívka natočila video o rtěnce Hvězdných válek.'

Ukázka 1: Skutečný člověk

Vzorek 2: Tacotron 2

'Získala doktorát ze sociologie na Kolumbijské univerzitě.'

Vzorek 1: Tacotron 2

Ukázka 2: Skutečný člověk

'George Washington byl prvním prezidentem Spojených států.'

Vzorek 1: Tacotron 2

Ukázka 2: Skutečný člověk

elizabeth berkley čisté jmění 2016

'Jsem příliš zaneprázdněn romantikou.'

Ukázka 1: Skutečný člověk

Vzorek 2: Tacotron 2

Kolik jste dostali správně? A mohl byste opravdu poznat rozdíl, nebo jste jen museli hádat?