Недавно передо мной встала задача: Перевести аудио и видео файлы в текст. Так как я никогда не занимался этим вопросом, то как всегда — залез в интернет и начал гуглить как же люди это делают. Ведь ни для кого ни секрет, что транскрибацией/транскрибированием занимаются многие люди и даже профессиональные компании, которые построили на этом бизнес.

Википедия нам выдает: Действие по записи транскрипции называется транскрибированием.

В каком то смысле передача звука и написание его это та же транскрипция, но нас здесь интересует не что такое транскрибирование, а как этим пользоваться в практических целях.

Для чего может понадобиться транскрибирование в печатный текст

Допустим у вас есть аудио запись семинара или аудиокнига, которую вы хотите сохранить в текстовом виде для более удобного поиска информации. Ведь в тексте всегда можно воспользоваться поиском и текст занимает значительно меньше места, чем аудио и видео.

У вас есть несколько путей:

  • обратиться в компанию и заплатить примерно 16 руб за минуту файла;
  • найти фрилансера, который вам все это сделает дешевле;
  • сделать самому вручную, прослушивая и печатая;
  • сделать самому, прослушивая и надиктовывая;
  • сделать самому с помощью специальных программ.

Так как делегировать другому вы не захотели, а оказались на этой странице, то я могу сделать вывод, что вам интересно подробно разобраться в процессе и сделать все самому. Каждый знает, что если хочешь сделать хорошо, сделай это сам.

Кстати, если вы все же выберете надиктовывать текст голосом, то в этой статье я как раз дам ответ как это лучше всего делать.

Итак…

Какие способы существуют и какой лучше выбрать

Программные средства транскрибирования онлайн

Virtual Audio Cable

Я перерыл интернет и везде в основном советуют воспользоваться программой Virtual Audio Cable (инструкция как ей пользоваться ниже)

А что же предлагает нам данная программа и почему ее советуют? Ну вот представьте, что для того, чтобы голос был распознан, вам нужно сначала его воспроизвести, а потом в реальном времени передать в специальные транскрибаторы, которые и преобразуют звук в текст. Так вот если вы начнете включать звук через колонки и пытаться его передавать через микрофон, то будут огромные потери в качестве, так как у вас в комнате присутствуют шумы, вам нужно включать колонки на большую громкость. Микрофон может быть не самым лучшим. В итоге вы получите низкое качество из-за всех этих искажений. Качество будет идеальным, если вы сможете передать напрямую аудио или видео прямо в компьютере в транскрибатор. Как раз для этой цели и нужна программа Virtual Audio Cable.

Смысл ее работы в том, что она создает виртуальный кабель, с помощью которого, напрямую передает данные. Что нам и нужно!

Я попробовал сделать так как говорится в самом ролике и у меня получилось скачать программу, установить ее и сделать необходимые настройки. При включении всех настроек я понял, что у меня идет жуткое эхо и я целый час пытался разобраться почему у меня выдается дополнительный аудио канал.

В общем я потратил полдня на изучение информации и пришлось даже переустанавливать драйвера, так как они слетели из-за всех этих манипуляций. И теперь, я хочу поделиться, чтобы вам не пришлось тратить такое количество времени и чтобы у вас все получилось легко и просто.

Как сделать эмуляцию виртуального кабеля без программок

Сразу здесь выложу инструкцию как это сделать. Вам даже не потребуется устанавливать Virtual Audio Cable, так как можно обойтись простыми манипуляциями в настройках громкости. Сам я попробовал и мне понравилось, поэтому остановился на этом способе, так как он самый простой.

Нужно в настройках звука во вкладке запись включить стерео микшер и сделать его устройством записи по умолчанию. Таким образом звук сразу будет передаваться в компьютер и все так же останется воспроизведение через колонки. То есть вы сможете спокойненько слушать ваш файл и работать с ним. В видео много рассказывается о работе с сервисом «Блокнот для речевого ввода», о котором речь пойдет далее. Смотрите и обучайтесь.

Speechpad «Блокнот для речевого ввода» — сервис для надиктовки (транскрибирования текста)

Очень сильно хвалят вот этот сайт speechpad.ru так как он хорошо поддерживается, в нем есть все необходимые настройки.

В принципе разобраться с ним сможет любой за 10 минут, тем более, что там есть много инструкций. Хочу сказать свое мнение — мне он не подошел, так как когда идет транскрибация видео ролика, то существует буфер. Он длится примерно 20-30 секунд и видеоролик как бы перезагружается по истечение этого времени. И все было бы прекрасно, если бы перезагружаясь, ролик начинался с того места, на котором закончился, но он загружается на 1-2 секунды раньше и происходит повторение слов. Возможно это и не плохо, так как при перезагрузке может оборваться часть фразы, а потом она повторится и пойдет логично дальше, но для редактирования это ужасно неудобно. Нужно удалять повторы слов каждые 20 секунд и это отнимает много времени. Еще мне не понравилось качество. Конечно, в 95% сервис понимает речь, но вот эти 5% ошибок исправлять ой как не хочется. Порой даже не понимаешь что за слова он вставляет и откуда он их берет. Еще один минус в том, что если не успел сохранить текст или страница случайно перезагрузилась, то можно потерять весь результат, а если текст длинный, то придется начинать сначала и это ооочень раздражает.

В целом очень хороший сервис, многие пользуются и многие остаются довольны, особенно если речь четкая, так вообще никаких проблем не будет. Сервис бесплатный и внутри есть много инструментов, думаю, что вам понравится. Я попробовал этот сервис и продолжил искать дальше, более удобный инструмент.

Realspeaker — программа для транскрибирования и расшифровки

Нашел еще такую программу realspeaker почитал что о ней пишут, и подумал, что это скорее для тех, кто профессионально надиктовывает тексты. Программа для перевода звука в текст пригодится, если вы работаете транскрибатором и зарабатываете на этом.

Что она умеет:    

  • Голос в текст может обработать любой длины;
  • Транскрибирует аудио и видео в текст;
  • Большой объем данных и глубокое обучение;
  • Облачные вычисления и API по запросу;
  • Ввод данных в любой редактор или сайт;
  • Мульти-платформенность и мультиязычность;
  • Расшифровка с учетом акцентов и диалектов;
  • Простая и доступная система оплаты.

Из всего этого перечня следует, что если вы зарабатываете на текстах, то она вам возможно поможет. Ну а для меня она не подходит, так как платная и я пошел искать дальше.

Google Translate — просто переводчик и не только

Этого монстра знают если не все, то почти все! Находится он по адресу translate.google.ru. Все очень просто, заходите на сайт, нажимаете на микрофон и запись и мгновенная транскрибация пошла. Далее можно просто копировать и вставлять куда нужно. Вот такой вот переводчик на английский или переводчик звука в текст.

Как известно Гугл — очень хорош. Это компания, которая постоянно совершенствует свои технологии в создании интернет-поиска, облачных вычислений и дополнительные сервисы. Совсем недавно они анонсировали сервис по переводу голоса в текст, а сегодня он уже является самым популярным. Почему? Потому что все телефоны — андроиды начали использовать голосовые команды и вообще это очень удобно. А гугл изначально уже встроен во телефоны.

И вот еще почему, потому, что гугл делает свои продукты на высоком уровне. Что все это значит? Да то, что при нажатии на одну кнопку вы получаете максимально продуманный и качественный сервис без лишнего мусора. Гугл вложил огромные деньги в свои распознаватели голоса и вывел свой продукт на мировой рынок, и теперь на всех языках (в том числе русский язык) можно транскрибировать свой голос и переводить в любой другой язык.

 

В общем Google Translate наиболее качественно захватывает речь из звука и этим уже можно пользоваться, расставив знаки препинания. Пользуйтесь на здоровье, к хорошему быстро привыкаешь.

Из минусов могу отметить, что на данный момент можно записывать текстовый документ только 5000 символов длиной. Если вам необходимо надиктовать или распознать несколько предложений, то вам этот инструмент подойдет из-за своей простоты. Но если у вас более длинные тексты и вы хотите иметь возможность с Гугловской точностью транскрибировать текст любой длины то вам больше подойдет следующий инструмент.

Google Docs — самый универсальный инструмент перевода звука в текст онлайн

Почему этот инструмент лучше? Это же просто онлайн документ. Или не просто?

Вся фишка в том что он:

  • позволяет сохранять текст моментально и он никуда не исчезнет;
  • может записывать бесконечно, хоть на ночь поставьте аудиокнигу, на утро проснетесь и все будет ок;
  • использует голосовой модуль google, а он хорош (про это уже говорилось выше);
  • позволяет прямо там отредактировать и сохранить;
  • работает онлайн на любых устройствах.

В связи со всем вышеперечисленным, на мой взгляд это самый адекватный и удобный инструмент, который можно использовать для транскрибации звука в текст.

Как им пользоваться?

  1. Заходите в docs.google.com
  2. перед вами открывается список документов
  3. создаете новый документ
  4. жмете инструменты -> голосовой ввод или Ctrl+Shift+S
  5. нажимаете на микрофон

Всё! Транскрибация аудио в текст пошла! Из всех инструментов мне этот понравился больше всего. Никаких отвлекающих штуковин, там просто и понятно.

Чтобы сделать перевод в текст аудио файла или видео с youtube, просто сначала запустите файл, а потом перейдите в окошко документа и нажмите запись. Ждите и смотрите, как на ваших глазах происходит чудо. Потом останется отредактировать и оформить и текст готов!

Чтобы добавить в текст знаки препинания, используйте эти команды:

  • «точка»;
  • «запятая»;
  • «восклицательный знак»;
  • «вопросительный знак»;
  • «новая строка»;
  • «новый абзац».

Примечание. Ввод знаков препинания поддерживается на английском, испанском, итальянском, немецком, русском и французском языках.

Как и чем пользоваться если нужно надиктовывать голосом?

Рассмотренные выше варианты программных средств абсолютно так же подойдут для голосового ввода. Единственное отличие будет в том, что нужно будет вместо микшера использовать запись через микрофон.

  • Можно просто надиктовывать свои мысли, чтобы не терять времени на писанину и потом быстренько отформатировать;
  • Можно надеть наушники и слушая, воспроизводить так как вам больше нравится в микрофон;
  • Можно пользоваться специальными приложениями на телефоне.

Нужно надиктовать быстро, а под рукой только мобильный телефон?

Если у вас iPhone

Можете скачать бесплатно приложение Dragon Dictation

Очень удобно, когда нет под рукой компьютера и вам в голову пришли мысли, которые кровь из носа нужно записать, иначе пройдет 2 минуты и вы забудете, что хотели сказать. К сожалению это бывает очень часто и как хорошо, что мы теперь можем носить сотик вездеи с легкостью перевести голос в текст. Пришла мысль — запиши аудио. Это быстро и удобно.

Если у вас Android

Можете скачать бесплатно приложение Speechlogger

Хорошее приложение, которое поможет андроид-манам. Если вы журналист, домохозяйка, писатель и просто развивающийся человек, то обязательно используйте дополнительные возможности, чтобы сократить время и не забыть самое важное, пользуйтесь мобильными приложениями для записи текста голосом.

Кстати там еще можно знаки препинания расставлять, что облегчит дальнейшее редактирование. Все приложения отлично понимают русский язык.

Выводы:

  • Для того, чтобы передавать звук в компьютер лучше всего пользоваться настройками windows и встроенным микшером.
  • Для того, чтобы транскрибировать более качественно лучше всего пользоваться Google Docs с включенной настройкой голосовой ввод.
  • Для того, чтобы делать переведение с мобильника — скачайте приложения

Хорошей вам транскрибации, надеюсь вам поможет мой опыт. Кстати, напишите в комментариях, что вы об этом думаете, какие средства сами используете. Может есть еще лучше способ затранскрибировать и если вы о нем знаете, то обязательно расскажите, чтобы помочь тем, кто ищет решение этого вопроса.

16 КОММЕНТАРИИ

  1. Спасибо за статью..
    Дельная, толковая, а главное: написано предельно понятно..
    Еще раз спасибо и, дальнейшего развития вашего блога..

  2. Здравствуйте! Благодарю за удачную подсказку. Только у меня в гугл документе строка «Голосовой ввод» самая бледная по сравнению с другими (видимо, не активная) и при нажатии на неё ничего не происходит.

    • Вы, наверно, работаете не в браузере Google Chrome. Запустите его, откройте Google Docs, войдите в Интсрументы (Tools). Распознавание речи будет доступно.

  3. Когда в статье дошел до переключения устройства записи в винде — тут же переключил и попробовал на гугл-доках. Сработало. Потом уже в статье нашел инфу об этом.
    Есть ещё один интересный сервис: https://dictation.io/speech. Умеет транскибировать на лету, сохранять, отправлять по email, печатать, публиковать записи. Есть базовые функции редактирования.
    Но учитывая, что есть гугл-докс, то все остальные сервисы теряют смысл, если только у пользователя нет аккаунта в гугле

  4. Прекрасная, очень полезная статья. Правда, у меня в ДОКе прерывается запись, хотя качество звука все время хорошее. Не подскажете, в чем причина? Спасибо.

  5. А у меня не вышло ничего. Включила голосовой ввод, включила аудиозапись, но текст не воспроизводится в Гугл документе(((

  6. КАК? Как запустить это? не работает фишка 🙁
    «Чтобы сделать перевод в текст аудио файла или видео с youtube, просто сначала запустите файл, а потом перейдите в окошко документа и нажмите запись». Можете снять видео об этом?

  7. Большое спасибо действительно полезная статья единственное что у меня не получилось это перевод в текст звукового файла—в каком плеере его открыть и где кнопка «запись» ? С микрофона голос записывается хорошо а на воспроизводимый на плеере файл нет реакции ни с микрофона ноутбука ни внешнего микрофона. Буду благодарен за помощь!

  8. Самый простой способ транскрибирования голоса: Айфон — Заметки (или даже сообщения, где нужно печатать любой текст) — Клавиатура — нижняя третья кнопка слева «Микрофон». Навёл курсор на экран, нажал на микрофон, болтай! Тебе на экране все пишется! Самых шепелявых распознает.

    Автору поста спасибо! Благодаря Вам я и нашла этот способ в целом!

  9. Здравствуйте Валерий! Очень интересная статья, обнадеживающая! Подскажите пжлста, где гуглдокументе находится кнопка записи. Хочу записать видео в текст. Кнопку не нашла.

  10. Здравствуйте! Большое спасибо за нужную своевременную информацию! Хорошо, что в России есть светлые головы!

  11. Пробовал Speechlogger. Отличная вещь! Только не ставит знаки препинания. Пробовал говорить и быстрый текст. Успевает.

  12. Огромное, приогромное спасибо за статью! Только у вас и нашла толковую рекомендацию как включить аудио, и получить содержание в напечатаном виде! Низкий вам поклон!)))

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here