Google tts


«Русские голосовые движки и применение Google Api TTS » — Клуб любителей аудиокниг

Много копий поломано в спорах относительно голосовых движков. Одно несомненно, будущее у них есть и будущее большое, от собственно озвучивания текстов до голосового управления смартфонами и персональными компьютерами. Тем не менее, несовершенство представленных на сегодняшний день TTS (text-to-speech system) бросается в глаза. Связано это в первую очередь со сложностью русского языка и нежеланием вкладывать колоссальные средства в разработки, судьба которых туманна, если не брать в расчет планы моментальной продажи исходников на корню.

Лидером среди русских движков остается Digalo с мужским голосом Николай и женским Алена от французского производителя Acapela Group. Существует еще огромное количество вариантов, как от гигантов индустрии (Microsoft), так и от региональных разработчиков (Центр речевых технологий). Целью данного материала не является обзор существующих голосов, мы лишь хотим подчеркнуть – выбор есть и выбор этот, к сожалению, сводится к отбору лучшего из худших.

Отдельные варианты программного обеспечения существуют и для мобильных устройств. Самыми распространеннымыми и устанавливаемыми по умолчанию являются продукты Pico, в которых нет собственного голосового движка для русского языка, а так же разработка SVOX с ужасным мужским голосом Юрий и слегка выигрывающим у него женским – Катерина. Применение SVOX способно, пускай и с трудом, удовлетворить потребность прочтения смс вслух, но слушать полноценную книгу в таком прочтение совершенно невозможно, несмотря на весьма дружелюбные интерфейсы для андроид-читалок, таких как Moon Reader или FB Reader.

Впрочем, не все так печально. Существуют и активно развиваются online сервисы для двусторонних преобразований текста и речи. Лидерами в этой области являются Microsoft и Google. По целому ряду параметров, останавливаться на которых нет смысла, Microsoft серьезно отстает. Сосредоточимся на предложениях крупнейшего поисковика.

Что нам доступно уже сегодня? Во-первых – голосовой ввод и обработка информации, а так же перевод текста в звук представлены непосредственно на сайте поисковой системы. По аналогии с главной страницей, развернут сервис и для андроид устройств. Главной отличительной особенностью решений Google является игнорирование вашего «железа» для нужд синтеза речи. Пользователю не потребуется можный компьютер и набор персональных словарей, все что нужно – хороший интернет-канал. Любая информация обрабатывается мощностями самого сервиса, передавая вам в итоге готовый звук.

Какой именно движок использует Гугль – мы не знаем. Есть мнение, что это модернизированное решение от Acapela, но есть и другой мнение, о доработке системы приобретенной поисковым гигантом компании GIPS. В любом случае, самое интересное, возможность качественного русского синтеза голоса, предоставляется каждому и бесплатно.

Попробовать, как это работает, можно просто зайдя на сайт переводчика Google – ввести туда текст и в нижнем правом углу нажать пиктограмму «прослушать». Более того, Google позволяет сторонним разработчикам и сервисам применять это его решение на основе Google TTS Api. Именно так функционирует например онлайн переводчик Dicter. Установив на компьютере это приложение вы сможете использовать Google Translate в более дружелюбном интерфейсе, хотя функционал, в том числе, разумеется, и синтез речи, по сути своей останется неизменным.

Другое любопытное применение API – встраивание его непосредственно в браузер Chrome. Для этого нам потребуется дополнительное расширение, например SpeakIt!. Установив это расширение, вы сможете прослушать любой текст на странице, выделив его мышкой и отдав команду speak. Предложены два русских голоса – мужской и женский, доступна регулировка по скорости, громкости и высоте тона. По нашему скромному мнению, продукт Google серьезно превосходит любые доступные на сегодняшний день варианты русских голосовых движков. Предлагаем пример озвучивания страницы «о клубе»

© Iudushka :: Клуб Любителей Аудиокниг :: www.abook-club.ru

abook-club.ru

«Русские голосовые движки и применение Google Api TTS » — Клуб любителей аудиокниг

Много копий поломано в спорах относительно голосовых движков. Одно несомненно, будущее у них есть и будущее большое, от собственно озвучивания текстов до голосового управления смартфонами и персональными компьютерами. Тем не менее, несовершенство представленных на сегодняшний день TTS (text-to-speech system) бросается в глаза. Связано это в первую очередь со сложностью русского языка и нежеланием вкладывать колоссальные средства в разработки, судьба которых туманна, если не брать в расчет планы моментальной продажи исходников на корню.

Лидером среди русских движков остается Digalo с мужским голосом Николай и женским Алена от французского производителя Acapela Group. Существует еще огромное количество вариантов, как от гигантов индустрии (Microsoft), так и от региональных разработчиков (Центр речевых технологий). Целью данного материала не является обзор существующих голосов, мы лишь хотим подчеркнуть – выбор есть и выбор этот, к сожалению, сводится к отбору лучшего из худших.

Отдельные варианты программного обеспечения существуют и для мобильных устройств. Самыми распространеннымыми и устанавливаемыми по умолчанию являются продукты Pico, в которых нет собственного голосового движка для русского языка, а так же разработка SVOX с ужасным мужским голосом Юрий и слегка выигрывающим у него женским – Катерина. Применение SVOX способно, пускай и с трудом, удовлетворить потребность прочтения смс вслух, но слушать полноценную книгу в таком прочтение совершенно невозможно, несмотря на весьма дружелюбные интерфейсы для андроид-читалок, таких как Moon Reader или FB Reader.

Впрочем, не все так печально. Существуют и активно развиваются online сервисы для двусторонних преобразований текста и речи. Лидерами в этой области являются Microsoft и Google. По целому ряду параметров, останавливаться на которых нет смысла, Microsoft серьезно отстает. Сосредоточимся на предложениях крупнейшего поисковика.

Что нам доступно уже сегодня? Во-первых – голосовой ввод и обработка информации, а так же перевод текста в звук представлены непосредственно на сайте поисковой системы. По аналогии с главной страницей, развернут сервис и для андроид устройств. Главной отличительной особенностью решений Google является игнорирование вашего «железа» для нужд синтеза речи. Пользователю не потребуется можный компьютер и набор персональных словарей, все что нужно – хороший интернет-канал. Любая информация обрабатывается мощностями самого сервиса, передавая вам в итоге готовый звук.

Какой именно движок использует Гугль – мы не знаем. Есть мнение, что это модернизированное решение от Acapela, но есть и другой мнение, о доработке системы приобретенной поисковым гигантом компании GIPS. В любом случае, самое интересное, возможность качественного русского синтеза голоса, предоставляется каждому и бесплатно.

Попробовать, как это работает, можно просто зайдя на сайт переводчика Google – ввести туда текст и в нижнем правом углу нажать пиктограмму «прослушать». Более того, Google позволяет сторонним разработчикам и сервисам применять это его решение на основе Google TTS Api. Именно так функционирует например онлайн переводчик Dicter. Установив на компьютере это приложение вы сможете использовать Google Translate в более дружелюбном интерфейсе, хотя функционал, в том числе, разумеется, и синтез речи, по сути своей останется неизменным.

Другое любопытное применение API – встраивание его непосредственно в браузер Chrome. Для этого нам потребуется дополнительное расширение, например SpeakIt!. Установив это расширение, вы сможете прослушать любой текст на странице, выделив его мышкой и отдав команду speak. Предложены два русских голоса – мужской и женский, доступна регулировка по скорости, громкости и высоте тона. По нашему скромному мнению, продукт Google серьезно превосходит любые доступные на сегодняшний день варианты русских голосовых движков. Предлагаем пример озвучивания страницы «о клубе»

© Iudushka :: Клуб Любителей Аудиокниг :: www.abook-club.ru

abook-club.ru

Language Support  |  Google Cloud Speech API  |  Google Cloud Platform

Afrikaans (Suid-Afrika) af-ZA Afrikaans (South Africa) አማርኛ (ኢትዮጵያ) am-ET Amharic (Ethiopia) Հայ (Հայաստան) hy-AM Armenian (Armenia) Azərbaycan (Azərbaycan) az-AZ Azerbaijani (Azerbaijan) Bahasa Indonesia (Indonesia) id-ID Indonesian (Indonesia) Bahasa Melayu (Malaysia) ms-MY Malay (Malaysia) বাংলা (বাংলাদেশ) bn-BD Bengali (Bangladesh) বাংলা (ভারত) bn-IN Bengali (India) Català (Espanya) ca-ES Catalan (Spain) Čeština (Česká republika) cs-CZ Czech (Czech Republic) Dansk (Danmark) da-DK Danish (Denmark) Deutsch (Deutschland) de-DE German (Germany) English (Australia) en-AU English (Australia) English (Canada) en-CA English (Canada) English (Ghana) en-GH English (Ghana) English (Great Britain) en-GB English (United Kingdom) English (India) en-IN English (India) English (Ireland) en-IE English (Ireland) English (Kenya) en-KE English (Kenya) English (New Zealand) en-NZ English (New Zealand) English (Nigeria) en-NG English (Nigeria) English (Philippines) en-PH English (Philippines) English (South Africa) en-ZA English (South Africa) English (Tanzania) en-TZ English (Tanzania) English (United States) en-US English (United States) Español (Argentina) es-AR Spanish (Argentina) Español (Bolivia) es-BO Spanish (Bolivia) Español (Chile) es-CL Spanish (Chile) Español (Colombia) es-CO Spanish (Colombia) Español (Costa Rica) es-CR Spanish (Costa Rica) Español (Ecuador) es-EC Spanish (Ecuador) Español (El Salvador) es-SV Spanish (El Salvador) Español (España) es-ES Spanish (Spain) Español (Estados Unidos) es-US Spanish (United States) Español (Guatemala) es-GT Spanish (Guatemala) Español (Honduras) es-HN Spanish (Honduras) Español (México) es-MX Spanish (Mexico) Español (Nicaragua) es-NI Spanish (Nicaragua) Español (Panamá) es-PA Spanish (Panama) Español (Paraguay) es-PY Spanish (Paraguay) Español (Perú) es-PE Spanish (Peru) Español (Puerto Rico) es-PR Spanish (Puerto Rico) Español (República Dominicana) es-DO Spanish (Dominican Republic) Español (Uruguay) es-UY Spanish (Uruguay) Español (Venezuela) es-VE Spanish (Venezuela) Euskara (Espainia) eu-ES Basque (Spain) Filipino (Pilipinas) fil-PH Filipino (Philippines) Français (Canada) fr-CA French (Canada) Français (France) fr-FR French (France) Galego (España) gl-ES Galician (Spain) ქართული (საქართველო) ka-GE Georgian (Georgia) ગુજરાતી (ભારત) gu-IN Gujarati (India) Hrvatski (Hrvatska) hr-HR Croatian (Croatia) IsiZulu (Ningizimu Afrika) zu-ZA Zulu (South Africa) Íslenska (Ísland) is-IS Icelandic (Iceland) Italiano (Italia) it-IT Italian (Italy) Jawa (Indonesia) jv-ID Javanese (Indonesia) ಕನ್ನಡ (ಭಾರತ) kn-IN Kannada (India) ភាសាខ្មែរ (កម្ពុជា) km-KH Khmer (Cambodia) ລາວ (ລາວ) lo-LA Lao (Laos) Latviešu (latviešu) lv-LV Latvian (Latvia) Lietuvių (Lietuva) lt-LT Lithuanian (Lithuania) Magyar (Magyarország) hu-HU Hungarian (Hungary) മലയാളം (ഇന്ത്യ) ml-IN Malayalam (India) मराठी (भारत) mr-IN Marathi (India) Nederlands (Nederland) nl-NL Dutch (Netherlands) नेपाली (नेपाल) ne-NP Nepali (Nepal) Norsk bokmål (Norge) nb-NO Norwegian Bokmål (Norway) Polski (Polska) pl-PL Polish (Poland) Português (Brasil) pt-BR Portuguese (Brazil) Português (Portugal) pt-PT Portuguese (Portugal) Română (România) ro-RO Romanian (Romania) සිංහල (ශ්රී ලංකාව) si-LK Sinhala (Sri Lanka) Slovenčina (Slovensko) sk-SK Slovak (Slovakia) Slovenščina (Slovenija) sl-SI Slovenian (Slovenia) Urang (Indonesia) su-ID Sundanese (Indonesia) Swahili (Tanzania) sw-TZ Swahili (Tanzania) Swahili (Kenya) sw-KE Swahili (Kenya) Suomi (Suomi) fi-FI Finnish (Finland) Svenska (Sverige) sv-SE Swedish (Sweden) தமிழ் (இந்தியா) ta-IN Tamil (India) தமிழ் (சிங்கப்பூர்) ta-SG Tamil (Singapore) தமிழ் (இலங்கை) ta-LK Tamil (Sri Lanka) தமிழ் (மலேசியா) ta-MY Tamil (Malaysia) తెలుగు (భారతదేశం) te-IN Telugu (India) Tiếng Việt (Việt Nam) vi-VN Vietnamese (Vietnam) Türkçe (Türkiye) tr-TR Turkish (Turkey) اردو (پاکستان) ur-PK Urdu (Pakistan) اردو (بھارت) ur-IN Urdu (India) Ελληνικά (Ελλάδα) el-GR Greek (Greece) Български (България) bg-BG Bulgarian (Bulgaria) Русский (Россия) ru-RU Russian (Russia) Српски (Србија) sr-RS Serbian (Serbia) Українська (Україна) uk-UA Ukrainian (Ukraine) עברית (ישראל) he-IL Hebrew (Israel) العربية (إسرائيل) ar-IL Arabic (Israel) العربية (الأردن) ar-JO Arabic (Jordan) العربية (الإمارات) ar-AE Arabic (United Arab Emirates) العربية (البحرين) ar-BH Arabic (Bahrain) العربية (الجزائر) ar-DZ Arabic (Algeria) العربية (السعودية) ar-SA Arabic (Saudi Arabia) العربية (العراق) ar-IQ Arabic (Iraq) العربية (الكويت) ar-KW Arabic (Kuwait) العربية (المغرب) ar-MA Arabic (Morocco) العربية (تونس) ar-TN Arabic (Tunisia) العربية (عُمان) ar-OM Arabic (Oman) العربية (فلسطين) ar-PS Arabic (State of Palestine) العربية (قطر) ar-QA Arabic (Qatar) العربية (لبنان) ar-LB Arabic (Lebanon) العربية (مصر) ar-EG Arabic (Egypt) فارسی (ایران) fa-IR Persian (Iran) हिन्दी (भारत) hi-IN Hindi (India) ไทย (ประเทศไทย) th-TH Thai (Thailand) 한국어 (대한민국) ko-KR Korean (South Korea) 國語 (台灣) cmn-Hant-TW Chinese, Mandarin (Traditional, Taiwan) 廣東話 (香港) yue-Hant-HK Chinese, Cantonese (Traditional, Hong Kong) 日本語(日本) ja-JP Japanese (Japan) 普通話 (香港) cmn-Hans-HK Chinese, Mandarin (Simplified, Hong Kong) 普通话 (中国大陆) cmn-Hans-CN Chinese, Mandarin (Simplified, China)

cloud.google.com

Pricing  |  Google Cloud Speech API Documentation  |  Google Cloud Platform

The Cloud Speech API is priced monthly based on the amount of audio successfully processed by the service, measured in increments rounded up to 15 seconds. Pricing tiers are based on the total amount of audio processed by the service per month.

Pricing Table

Feature 0-60 minutes 61+ - 1 million minutes
Speech Recognition Free $0.006 / 15 seconds*

This pricing is for applications on personal systems (e.g., phones, tablets, laptops, desktops). Please contact us for approval and pricing to use the Speech API on embedded devices (e.g., cars, TVs, appliances, or speakers).

* Each request is rounded up to the nearest increment of 15 seconds. For example, three separate requests, each containing 7 seconds of audio, would be billed as 45 seconds (3 × 15 seconds) of audio. Fractions of seconds are included when rounding up to the nearest increment of 15 seconds. That is, 15.14 seconds are rounded up and billed as 30 seconds.

Monthly usage is capped at 1 million minutes per month. For usage above 1 million minutes of audio per month, we would like to understand more about your needs. Please submit a Cloud Speech API Quota Request for your project.

Google Cloud Platform Costs

Note that you may be charged for other Google Cloud Platform resources used in your project, such as Google Compute Engine instances, Google Cloud Storage, etc. For full information, consult our Google Cloud Platform Pricing Calculator to determine those separate costs based on current rates.

cloud.google.com


Смотрите также