- Інструментарій Gemini поєднує стабільні інструменти, такі як Canvas, Deep Research та Guided Learning, з експериментальними функціями Labs.
- API Gemini розблоковує мультимодальні робочі процеси та робочі процеси з викликом функцій у Google Workspace та користувацьких автоматизаціях.
- Кероване навчання, Canvas та агенти роблять Gemini одночасно особистим репетитором та помічником у роботі з документами, слайдами та електронною поштою.
- Використання інтеграції Labs, Gemini Enterprise та Workspace дозволяє командам безпечно тестувати потужний штучний інтелект поверх власних даних.
«Набір інструментів Gemini» — це вже не просто яскрава фраза; це практичний набір програм, інструментів, агентів та API, які Google непомітно вплітає в усе: від звичайного навчання до корпоративних робочих процесів. Замість єдиного монолітного помічника, Gemini тепер поводиться більше як набір інструментів, де кожна функція є окремим інструментом: дослідницький механізм, репетитор, помічник з кодом, планувальник зустрічей, конструктор слайдів та багато іншого.
Якщо ви розумієте, як ці частини поєднуються між собою – Canvas, Guided Learning, Labs, агенти, Gemini Enterprise та Gemini API – ви можете перетворити Gemini на справжню робочу конячку, а не на незвичайного чат-бота. Нижче ви знайдете детальний огляд цього набору інструментів: що знаходиться у стабільному розділі «Інструменти», що тестується в «Лабораторіях», як Gemini поводиться як репетитор із зображеннями та відео, а також як розробники можуть інтегрувати API в Google Workspace для серйозної автоматизації.
Що саме є в інструментарії Gemini сьогодні?
Gemini найкраще розуміти як сімейство моделей штучного інтелекту (що таке мовні моделі) (Gemini 1.0, Gemini 1.5, Gemini 3 тощо) надаються через різні фронтенди: веб, мобільні додатки, інтеграцію з Workspace та API розробника. Ідея «набору інструментів» походить від того, як Google зараз групує конкретні можливості в інтерфейсі Gemini, особливо в вебі.
В інтернеті основний вибірник у Gemini поділений на дві основні зони: «Інструменти» для стабільної, готової до роботи функціональності та «Лабораторії» для експериментів, які все ще перебувають у розробці. Уявіть собі «Інструменти» як надійну викрутку, яку ви берете за справу щодня, а «Лабораторії» – це лоток, де ви зберігаєте прототипи, які можуть змінити форму наступного тижня.
На мобільних пристроях додатки Gemini додають багато з тих самих інструментів – кероване навчання, досвід у стилі Canvas, довідку із зображеннями – але вони розгортаються поступово. Якщо ви ще не бачите певної функції в додатку, Google прямо рекомендує спробувати пізніше або перейти до gemini.google.com щоб переглянути останню версію в Інтернеті.
Під капотом усі ці поверхні підтримуються Gemini API, який надає доступ до мультимодальних моделей та викликів функцій, що дозволяє генерувати контент, аналізувати зображення або керувати робочими процесами за допомогою коду. Цей API є основою для багатьох автоматизацій Workspace, які ми розглянемо пізніше.
Інструменти проти Лабораторій: як Gemini організовує свої функції
Оскільки Gemini накопичила більше кнопок та режимів, Google запровадила чіткіше розділення між зрілими та експериментальними функціями за допомогою двох розділів: «Інструменти» та «Лабораторії». Ця зміна вже видно у веб-інтерфейсі та поступово впроваджується із серверів Google, тому не кожен обліковий запис бачить однаковий макет одночасно.
Розділ «Інструменти» – це місце, де Google розміщує можливості, які вважає стабільними та передбачуваними для щоденного використання. Звіти з таких джерел, як Android Police та 9to5Google, показують, що ця сфера включає такі елементи, як глибоке дослідження, створення зображень, відео за допомогою Veo, Canvas, кероване навчання та глибоке мислення, іноді пов'язані з певними рівнями підписки, такими як Google AI Pro або Google AI Ultra.
З іншого боку, «Лабораторії» – це спеціальний ігровий майданчик: спеціальна область всередині засобу вибору Gemini, яка групує функції, позначені як експериментальні. Зазвичай ви бачите значки з невеликою лабораторною колбою та такими написами, як «Агент Gemini», «Динамічний вигляд» (також званий «Візуальне макетування») та «Персональний інтелект». Очікування щодо натискання будь-чого в розділі «Лабораторії» просте: поведінка може змінитися, зникнути або переміститися без попередження.
З точки зору дизайну продукту, це розділення має значення для довіри. Коли застосунок зі штучним інтелектом швидко розвивається, ризик полягає не лише в «занадто великій кількості функцій», а й у «незнанні, на які функції можна покластися». Розміщуючи повсякденні інструменти в одній зоні, а експерименти в іншій, Gemini сигналізує про ризик подібно до порівняння «звичайного» та «спортивного» режимів в автомобілі.
Стабільні інструменти Gemini: Deep Research, Canvas, Guided Learning та інші
Основний набір інструментів Gemini для більшості користувачів знаходиться в розділі «Інструменти», де ви знайдете ті інструменти, навколо яких Google хоче, щоб ви формували звички. Хоча точний список залежить від облікового запису та рівня підписки, кілька елементів вже є центральними.
Deep Research перетворює Gemini на структурованого помічника дослідника, а не на універсальну модель чату. Коли ви ставите запитання, яке вимагає дослідження кількох джерел, Deep Research дотримується більш чіткого багатоетапного процесу, виявляючи послідовну методологію, щоб користувачі знали, чого очікувати щоразу, коли вони її викликають.
Інструменти для створення контенту для зображень та відео, включаючи інтеграції на базі Veo, також знаходяться в розділі «Інструменти». Користувачам, які покладаються на Gemini для візуального контенту, потрібно, щоб ці можливості були легкодоступними та досить стабільними, а не прихованими за мінливими експериментальними прапорцями.
Canvas – це ще один стовп: режим робочого простору, де ви можете розпочати документ або проект кодування безпосередньо з командної лінії, а потім ітеративно вдосконалювати його за допомогою Gemini. Під рядком запиту ви можете вибрати «Полотно» та ввести запит, щоб створити початкову точку для контенту або коду, а потім продовжити редагування в інтерактивному макеті поруч.
Кероване навчання та глибоке мислення доповнюють більш когнітивно орієнтовані інструменти, особливо для користувачів, яким потрібна структурована допомога зі складних тем. Кероване навчання може діяти як репетитор, крок за кроком проходячи через ідеї, тоді як глибоке мислення заохочує повільніше, більш обдумане мислення над складними питаннями.
Близнюки як особистий репетитор: кероване навчання, зображення та відео
Одним із найзручніших аспектів інструментарію Gemini є його здатність виступати в ролі особистого вчителя, поєднуючи керовані послідовності з візуальними поясненнями. Замість того, щоб завалюватися стіною тексту, Gemini може додавати зображення, ескізи та навіть відео до своїх відповідей, щоб полегшити сприйняття концепцій.
На практиці, ви можете попросити Близнюків пояснити тему та чітко запросити схему, візуальний аналіз або ілюстративне зображення. Відповідь може вбудовувати ці зображення безпосередньо в пояснення, допомагаючи вам візуалізувати, скажімо, математичну концепцію, робочий процес або науковий процес.
Також підтримується відеонавчання, хоча деталі залежать від регіону та етапу розгортання. Для деяких тем Gemini може пропонувати відео або посилатися на них, що доповнюють текстову відповідь, створюючи більш мультимодальний навчальний шлях, де ви читаєте, дивитеся та взаємодієте з питаннями в одному потоці.
Цей режим навчання впроваджується поступово в мобільних додатках Gemini, тому ви можете не побачити всі опції одразу. Коли це трапляється, резервним варіантом є використання веб-інтерфейсу, де набір функцій Gemini часто з'являється раніше під час поетапного розгортання.
Gemini Enterprise та Workspace: ШІ-агенти для команд
Окрім особистого використання, інструментарій Gemini поширюється на робоче місце завдяки інтеграції з Gemini Enterprise та Google Workspace. Тут фокус зміщується з одноразових запитів на постійних агентів, робочі процеси та співпрацю у великих масштабах.
Google описує Gemini Enterprise як передову агентську платформу, яка надає найкращі можливості штучного інтелекту Google кожному співробітнику та робочому процесу. На практиці це дозволяє командам виявляти, створювати, обмінюватися та запускати агенти штучного інтелекту в безпечному середовищі, що базується на власних корпоративних даних, зменшуючи вузькі місця в розробці та забезпечуючи такі варіанти використання, як аналіз продажів, автоматизація процесів та внутрішній пошук знань.
Сам Google Workspace виступає платформою для співпраці, надпотужно підсиленою Gemini, зі штучним інтелектом, вбудованим у такі додатки, як Gmail, Docs та Meet. Замість того, щоб перемикатися на окремий інструмент штучного інтелекту, користувачі можуть викликати Gemini у своїх повсякденних додатках для продуктивності, щоб створювати контент, узагальнювати інформацію або генерувати ідеї в контексті.
У деяких випадках ви навіть можете спілкуватися з Gemini безпосередньо через корпоративні дані, що зберігаються в Google Workspace, Microsoft 365 та інших підключених системах. Це перетворює Gemini на корпоративний рівень знань, який може відповідати на запитання на основі електронних листів, документів та файлів, з урахуванням дозволів та налаштувань безпеки, налаштованих ІТ-фахівцем.
Gemini API: основа інструментарію розробника
Під орієнтованими на користувача додатками Gemini лежить API Gemini, який надає розробникам ті самі основні моделі для вбудовування у власні додатки. Цей API поєднує мультимодальність, виклик функцій та користувацькі робочі процеси для серйозної автоматизації, особливо з Google Workspace та Apps Script.
Моделі Gemini – це найпотужніші системи штучного інтелекту від Google, а API пропонує різні варіанти моделей, такі як текстові та візуально-орієнтовані версії, кожен з яких має певні можливості та обмеження. Ви можете візуально дослідити їх у Google AI Studio, розміщеному інтерфейсі для випробування підказок, налаштування параметрів моделі та навіть налаштування користувацьких моделей без написання коду.
Щоб почати використовувати API, ви запитуєте ключ API через Google AI Studio або іншу підтримувану консоль, а потім тестуєте його за допомогою простого REST-виклику. Наприклад, ви можете експортувати свій ключ у змінну середовища, таку як GOOGLE_API_KEY, та викликати кінцеву точку, яка перераховує доступні моделі, отримуючи JSON, такий як моделі/gemini-1.0-pro якщо все налаштовано правильно.
Звідти, створення контенту зводиться до надсилання JSON-корисного навантаження до відповідної кінцевої точки, такої як генеруватиВміст метод для обраної моделі. Мінімальний запит включає зміст поле з текстовими частинами, тоді як необов'язкове Конфігурація покоління та Налаштування безпеки дозволяють контролювати такі параметри, як температура та захисні фільтри.
Виклик API Gemini з Apps Script
Один із найпотужніших шаблонів у наборі інструментів Gemini — це поєднання API зі скриптом Google Apps для автоматизації робочих процесів у Workspace. Такий підхід дозволяє вам інтегрувати Gemini разом із такими сервісами, як Диск, Календар, Gmail, Таблиці та Презентації, без створення повноцінного бекенду.
Стандартне налаштування починається з проекту Apps Script (наприклад, створеного за допомогою script.new), де ви зберігаєте свій ключ Gemini API як властивість скрипта. У коді ви отримуєте це значення та створюєте URL-адресу кінцевої точки для певної моделі, часто gemini-1.0-pro-latest:генеруватиВміст з вашим ключем API, переданим як параметр запиту.
Допоміжна функція, така як викликGemini(підказка, температура) зазвичай створює корисне навантаження JSON, надсилає його через UrlFetchApp.fetch та аналізує відповідь, щоб витягти згенерований текст. Ця обгортка спрощує багаторазове використання API з різних утиліт у вашому скрипті.
Тестування просте: ви можете створити тестGemini() Функція, яка визначає запит, викликає вашу допоміжну функцію та записує як вхідні, так і вихідні дані до журналів виконання. Як тільки це спрацює, ви будете знати, що ваше середовище Apps Script та ключ Gemini API правильно налаштовані для складніших сценаріїв.
Використання кінцевої точки Gemini Vision для зображень
Інструментарій Gemini виходить за рамки тексту завдяки підтримці кількох режимів, особливо можливості обробки зображень через кінцеву точку з підтримкою зору. У Apps Script це зазвичай окрема кінцева точка, така як gemini-1.0-pro-vision-latest:генеруватиВміст, знову параметризований вашим ключем API.
Типовий помічник, такий як виклик GeminiProVision (підказка, зображення, температура) конвертує блоб зображення в base64, вбудує його як вбудовані дані з відповідним MIME-типом та надішліть його разом із текстовим запитом. Потім модель повертає текст, який відображає її розуміння як зображення, так і підказки.
Щоб перевірити налаштування, ви можете написати невеликий тестGeminiVision() який завантажує зразок зображення з публічної URL-адреси, передає його вашому помічнику та реєструє цікавий факт або аналіз, створений Gemini Vision. Такий тип тесту демонструє, що мультимодальний ввід працює правильно у вашому середовищі.
Щойно потік візуального мислення стабілізується, ви зможете повторно використовувати його в автоматизаціях вищого рівня, таких як аналіз діаграм з Google Таблиць або зображень, що зберігаються на Диску. Саме тут мультимодальність починає відчуватися як справді корисна частина інструментарію, а не просто демонстраційний трюк.
Виклик функцій: надання Gemini доступу до інструментів
Ще одним ключовим елементом інструментарію Gemini є виклик функцій, який дозволяє моделі вирішувати, коли викликати власні інструменти або API. Замість того, щоб просто генерувати текст, Gemini може повертати структурований виклик функції об'єкти, що описують, яку функцію використовувати та з якими аргументами.
У Apps Script можна налаштувати допоміжний засіб, такий як викликGeminiWithTools(підказка, інструменти, температура) що надсилає інструменти специфікацію разом із запитом користувача. Ця специфікація відповідає Оголошення функції схема, де ви описуєте назву функції, її призначення та параметри JSON.
Коли Gemini вирішує, що інструмент слід використовувати, його відповідь містить об'єкт виклику функції, який ви можете проаналізувати у своєму скрипті та спрямувати до фактичної реалізації. Наприклад, ви можете визначити інструмент-заглушку з назвою «datetime», який повертає поточну дату та час, і спостерігати, як Gemini запитує цю функцію для вирішення питань, пов’язаних із календарними обчисленнями.
Виклик функцій є особливо потужним, оскільки він може працювати протягом кількох циклів, а не лише для окремих запитів. Це означає, що ви можете розробляти складніші розмовні агенти, які вирішують, коли викликати інструменти, інтерпретувати результати та продовжувати діалог.
Демо-інтеграції: Gemini + Google Workspace як практичний набір інструментів
Після поєднання генерації тексту, візуального введення та виклику функцій, інструментарій Gemini стає практичним механізмом для автоматизації робочих просторів. У матеріалах Google Codelab наведено кілька конкретних прикладів, що ілюструють можливості.
На вищому рівні вхідні запити користувачів передаються до Gemini за допомогою набору доступних інструментів, що представляють різні робочі процеси: планування зустрічей, створення електронних листів з діаграм та створення слайдів. На основі запиту Gemini вибирає правильну функцію та повертає виклик функції зі структурованими аргументами, такими як час, імена файлів або теми.
У вашому Apps Script ви потім інтерпретуєте виклик функції всередині якщо… інакше ланцюг, викликаючи відповідний робочий процес – наприклад, setupMeeting(), чернетка електронної пошти() or createDeck(). Таке поєднання модельного мислення та явної логіки скриптів перетворює Gemini з вікна чату на набір інструментів для реальної роботи.
Автоматизація зустрічей: підсумовування файлів Диска в події Календаря
В одній демонстрації показано, як Gemini може допомогти налаштувати зустріч у Календарі, яка автоматично включає короткий зміст текстового файлу, розміщеного на Google Диску. Користувач може ввести щось на кшталт: «Домовтеся про зустріч з Хелен о 10 ранку завтра, щоб обговорити новини з файлу Gemini-blog.txt».
За лаштунками, у специфікації інструментів оголошується інструмент робочого простору під назвою «setupMeeting» з параметрами для часу, одержувача та імені файлу. Коли Gemini інтерпретує запит, він вибирає цей інструмент і повертає виклик функції із заповненими цими аргументами.
Відповідне setupMeeting() потім функція знаходить вказаний файл на Диску, зчитує його вміст і передає його Gemini через виклик Gemini() з інструкціями для створення короткого JSON-об'єкта, що містить заголовок та короткий опис. Відповідь може повернутись у вигляді бар'єрів форматування, які ви видаляєте перед розбором як JSON.
Використовуючи витягнутий заголовок та короткий зміст, скрипт створює подію Календаря за допомогою Програма Календар, встановлює опис для зведення та додає вихідний файл через розширений сервіс Календаря. Результатом є запланована зустріч із вбудованим контекстом, ініційована одним запитом природною мовою.
Створення електронних листів з діаграм у Таблицях за допомогою Gemini Vision
Ще один робочий процес в інструментарії Gemini включає аналіз діаграми в Google Таблицях та створення чернетки повідомлення Gmail на її основі. Уявіть, що ви ведете електронну таблицю з витратами на навчання в коледжі та хочете отримати електронний лист із підсумком того, що ця діаграма показує для вашої колеги на ім'я Мері.
Запит користувача може звучати так: «Написати чернетку електронного листа для Мері з аналітичними даними з діаграми на аркуші «Витрати коледжу»». Інструмент під назвою «draftEmail» визначено для прийняття імені листа та одержувача, і Gemini вибирає цей інструмент, коли бачить цей тип запиту.
Команда чернетка електронної пошти() Функція знаходить запитувану електронну таблицю на Диску, відкриває відповідний аркуш, отримує його першу діаграму та зберігає її як файл (наприклад, ExpenseChart.png). Потім він створює підказку, яка вказує Gemini використовувати лише інформацію з діаграми, уникати історичних порівнянь та бути лаконічним.
Зателефонувавши викликGeminiProVision(підказка, діаграма витрат), скрипт надсилає як запит, так і зображення діаграми до Gemini Vision, яка повертає персоналізований текст електронного листа. Зрештою, скрипт створює чернетку Gmail, адресовану на електронну адресу одержувача, встановлює тему, наприклад, «Витрати на навчання в коледжі», та додає зображення діаграми.
Цей патерн ефективно перетворює Близнюків на аналітика, який може прочитати діаграму, витягти ключову історію та сформулювати її природною мовою від вашого імені. Ви все ще переглядаєте та коригуєте чернетку, але більша частина важкої роботи виконується автоматично.
Автоматичне створення слайд-колод за допомогою Gemini та Google Slides
Третій основний демонстраційний робочий процес у цьому наборі інструментів автоматично створює скелет презентації Google Slides на задану користувачем тему. Наприклад, ви можете запитати: «Допоможіть мені скласти колоду про збереження води».
Інструмент під назвою «createDeck» оголошується з одним параметром topic, і Gemini отримує інструкцію повернути структурований JSON, що описує серію слайдів. Запит повідомляє Gemini, скільки слайдів створити (на основі константи, такої як NUM_SLIDES), запитує короткі заголовки та марковані списки, а також явно запитує коректний об'єкт JSON, щоб скрипт міг безпечно його проаналізувати.
Після дзвінка виклик Gemini() за допомогою цього запиту скрипт видаляє будь-які обмеження форматування, аналізує JSON, а потім використовує Додаток Slides для створення нової презентації. Перший слайд вважається титульною сторінкою, а наступні слайди мають макет TITLE_AND_BODY, де скрипт заповнює заголовок і текст маркованого списку.
За кілька секунд ви отримаєте базову презентацію зі структурованими тезами для кожного слайда, готову до візуального налаштування. Хоча результат навмисно мінімальний, цей робочий процес показує, як Gemini може пришвидшити структурування контенту, щоб ви могли зосередитися на дизайні та нюансах.
Розширення інструментарію: чат-боти, RAG та багатооборотні інструменти
Наведені вище приклади є лише відправною точкою; ширший інструментарій Gemini можна розширити в багатьох напрямках, як тільки ви освоїте API та виклик функцій. Google прямо пропонує кілька шляхів для дослідження.
Один з популярних варіантів використання — створення чат-ботів для Google Chat за допомогою Gemini API. Тут застосовуються ті самі шаблони: ви надаєте інструменти, дозволяєте Gemini вирішувати, коли їх викликати, і підключаєте відповіді назад до розмовного інтерфейсу всередині Chat, все це керується API Chat та пов'язаними з ним кодовими лабораторіями.
Ще один важливий напрямок — це генерація даних з доповненим пошуком (RAG) на основі приватного контенту на Диску або в Keep. Замість того, щоб підсумовувати один текстовий файл, ви можете поєднати API Gemini з векторною базою даних та, за бажанням, з платформою оркестрації, такою як LangChain, щоб отримувати відповідні фрагменти з PDF-файлів, зображень та нотаток, перш ніж просити Gemini згенерувати відповідь на основі цих документів.
Багатоповоротний виклик функцій також відкриває доступ до складніших агентів, які можуть ітеративно вирішувати, які інструменти використовувати та в якій послідовності. Замість одного рішення, агент може викликати функцію, перевірити результат, потім викликати іншу функцію або поставити уточнююче запитання, і все це в межах одного поточного потоку.
Зрештою, немає потреби залишатися всередині Workspace; як тільки ви освоїте шаблони Gemini API, ви зможете підключити модель до зовнішніх API в ширшій мережі. Ось так Gemini перетворюється з обмеженого корпоративного помічника на універсального оркестратора цифрової роботи.
Разом ці елементи – стабільні інструменти, експериментальні лабораторії, функції репетиторства, корпоративні агенти та API розробника – утворюють справді багатий набір інструментів Gemini, який може адаптуватися як для звичайних учнів, так і для досвідчених користувачів. Якщо ви ставитеся до Gemini не як до окремого додатку, а радше як до зростаючого набору інструментів, які ви можете створювати, ви матимете сильну можливість скористатися перевагами будь-яких наступних розробок Google, не переосмислюючи весь свій робочий процес щоразу.
Інженер. Любитель технологій, програмного та апаратного забезпечення та технічний блогер з 2012 року

