Gemini, nová umělá inteligence od Googlu
Google na poli umělé inteligence strádal. Americký technologický gigant na začátku letošního roku s velkou slávou ukázal svůj vyhledávač Bard, doplněný o AI model. Při srovnání s konkurencí byl ale pozadu. Nyní však přichází s novým modelem Gemini a ukazuje, že chce být lepší než konkurenční ChatGPT. Nástroj umí podle vývojářů rozpoznávat prezentované předměty a precizně reagovat na zvukové pokyny. Následně ale Google přiznal, že to, co předvedl veřejnosti, bylo spíše takové „divadlo“.
Google tvrdí, že Gemini je první model, který překonal lidské experty v testu MMLU. Tato zkratka označuje test Massive Multitask Language Understanding, jenž ověřuje schopnosti modelů AI řešit problémy napříč 57 obory, mezi které patří etika, historie, fyzika, matematika, medicína nebo právo.
MOHLO BY VÁS ZAJÍMAT: Umělá inteligence ve škole? Do výuky patří, vyplývá z průzkumu mezi učiteli
„Naším cílem je organizovat přístup ke světovým informacím a udělat je obecně přístupné a užitečné. Ale jak rostou do šíře a komplexnosti, začíná to být těžší a těžší,“ vysvětlil šéf Googlu Sundar Pichai v představovacím videu, proč je pro jeho firmu důležité pracovat na vlastní umělé inteligenci.
„Na AI pracuji celý život, protože jsem cítil, jak by tato technologie mohla být pro lidstvo prospěšná. Gemini je ten nejschopnější model, to znamená, že rozumí světu kolem nás a přijímá jakýkoliv vstup a výstup. Tedy nejen text jako většina modelů, ale i kód, obrázky a video,“ doplňuje Demis Hammabis, šéf divize DeepMind, která se zabývá vývojem umělé inteligence.
V představovacích videích se zaměstnanci Googlu pochlubili detailními výsledky srovnávacího testu. V obecném testu MMLU dosáhl Gemini Ultra na skóre 90 procent a překonal tak chatGPT-4, který měl skóre 86,4 procenta.
Matematiku ovládl jazykový model Googlu ve dvou testech, v nichž získal 94,4 procenta a 53,2 procenta. Konkurenční ChatGPT-4 měl 92 procent a 52,9 procenta. Velmi dobré výsledky má Gemini i v multimodálních testech, kde pracuje nejen s informacemi v podobě textu, ale kombinuje to s obrázky, videem a zvukem.
Jedna zkouška ale vyšla vítězně pro model společnosti Open AI. ChatGPT-4 uspěl v testu HellaSwag, který ověřuje schopnosti v uvažování nad každodenními úkoly.
Model, který má oči i uši
S čím přesně tedy Google vyrukoval? Vrhl se na vývoj vlastního jazykového modelu. Gemini je latinský název pro souhvězdí Blíženců. Charakteristika o blížencích vypovídá, že jsou výřeční, pronikavě inteligentní a také vidí souvislosti.
Přesně to nabízí umělá inteligence od Googlu, která dokáže pracovat nejen s textem, ale i s obrázky, videem, zvukem nebo zdrojovým kódem. Americká společnost v jednom z předváděcích videí ukazuje, jak si Gemini poradila s ručně psaným dokumentem.
Dobře to demonstruje video, které můžete zhlédnout výše a který způsobil velký poprask. Umělá inteligence na něm dokáže velice rychle rozpoznat, co kreslíte, vyhodnotit, z jakého to je materiálu a v jaké barvě, případně okomentovat některé vlastnosti prezentovaných předmětu. Pozná fixou nakreslenou kachnu, zahraje pár akordů na elektrické kytaře či popíše slepou mapu. Vše prakticky lusknutím prstu.
AI model dokáže oskenovaný domácí úkol z matematiky přečíst a zároveň vyhodnotit správnost jednotlivých odpovědí. U špatně vyřešených úloh navíc nabízí pomoc se správným postupem a také vytváří zpětnou vazbu k chybám, které člověk udělal.
Dále Gemini umí generovat zdrojový kód v programovacích jazycích Python, Java nebo C++. „Jeho schopnost pracovat napříč jazyky a zdůvodňovat složité informace z něj činí jeden z předních základních modelů pro kódování na světě,“ tvrdí Google.
Americký softwarový gigant nabízí svou umělou inteligenci ve třech verzích. Gemini Ultra je největší model pro složité úlohy, verze Pro je střední model pro snadné škálování na různé úlohy a poslední varianta Nano je model pro fungování na koncových zařízeních. Týká se to především mobilních telefonů. Google slíbil, že verze Nano se objeví v jeho telefonech Pixel 8.
Novinka je nyní dostupná ve více než 170 zemích světa, ale zatím pouze v anglickém jazyce. Podpora dalších jazyků přijde v budoucnosti, totéž platí i pro variantu Ultra, která má být k dispozici v příštím roce.
Vystřízlivění
Netrvalo ale dlouho a brzy po zveřejnění videa přišlo přiznání přímo od Googlu. Zmíněné hvězdné video ke Gemini upravilo a sestříhalo tak, aby vypadalo lépe. Kvůli prezentaci například urychlil odezvu programu. Firma ale také připustila, že její program umělé inteligence vůbec nereagoval na hlas ani na video. Na blogu, který Google vydal spolu s prezentací, podrobně popisuje, jak při tvorbě videa postupoval.
Check out this demo from Google Research of Gemini's reasoning capabilities to understand and reason about users' intent, use tools, and generate bespoke user experiences that go beyond chat interfaces ↓ #GeminiAI pic.twitter.com/9oa3VFNZER
— Google AI (@GoogleAI) December 6, 2023
„Ukázkové video Hands-on with Gemini ukazuje skutečné zadávání a výstupy z programu Gemini,“ řekl mluvčí Googlu. „Vytvořili jsme je, abychom předvedli rozsah schopností programu Gemini a inspirovali vývojáře,“ dodal.
To, co se na první pohled zdá, že se ve videu odehrává, je ale něco naprosto odlišného od toho, jak pokyny vznikaly. Programu umělé inteligence byl ukázán statický obrázek kachničky a následně položen dotaz, z jakého je materiálu. Pak byl programu dodán text, který vysvětluje, že kachnička při zmáčknutí vydává pískavý zvuk, což vede ke správné identifikaci předmětu.
Čili ano, Gemini umí spoustu věcí, které odprezentovali vývojáři, ale ne tak rychle a pohotově, jak se dušovalo video. Není tudíž žádným překvapením, že nadšení z průlomové AI velice rychle opadlo.
Rozmach ChatGPT a tápání Googlu
Je to právě rok, co na konci listopadu 2022 tehdy poměrně neznámá firma OpenAI oznámila, že spouští umělou inteligenci ChatGPT. Základní verzi nabídla zdarma a odstartovala tím boom jazykových modelů a chatovacích botů.
Placená prémiová verze ChatGPT-4 nabízí spolehlivější a pokročilejší model než předchozí verze. Je kreativnější a dokáže vést konverzaci, skládat písničky nebo analyzovat dlouhé dokumenty.
OpenAI na poli umělé inteligence dominuje, do společnosti investoval americký Microsoft, který ChatGPT integroval do svých nástrojů kancelářského balíku Office. Tím vytvořil aplikaci Copilot, která je součástí Wordu, Excelu, PowerPointu, Outlooku a dalších programů.
Microsoft zároveň vylepšil svůj vyhledávač Bing. Doplnil ho o chatbota Bing AI, který na zadané dotazy dokázal najít relevantní informace prostřednictvím vyhledávače.
Google vedle toho s umělou inteligencí tápal. Na obrovský rozmach a oblibu ChatGPT zareagoval letos v únoru vlastním chatovým nástrojem Bard, jenže ten hned při první slavnostní ukázce fatálně chyboval. Na otázku „O jakých objevech vesmírného dalekohledu Jamese Webba bych měl říct svému devítiletému dítěti?“ nabídl odpověď, že teleskop pořídil vůbec první snímky planety mimo naši sluneční soustavu.
Tuto odpověď okamžitě začali rozporovat astrofyzici a další vědci. Na chybu upozornil i ředitel Kalifornské univerzitní observatoře Bruce Macintosh, který se ozval přímo pod příspěvkem Google na sociální síti. Americký vědec poznamenal, že vyfotil exoplanetu 14 let před spuštěním Webbova teleskopu a ještě si rýpnul: „Našli byste lepší příklad?“
Herní a technologický pořad Enter můžete sledovat každou sobotu ve 22:40 nebo v úterní repríze ve 23:40 na CNN Prima NEWS či přímo na webu CNNPrima.cz, kde najdete také archiv odvysílaných epizod. Předchozí odvysílaný díl můžete zhlédnout níže: