23/04/2017 Услуги перевода Цены Акции Статьи Блог Контакты Заказать перевод

Мой опыт подбора программ статистической обработки текста

Мой опыт подбора программ статистической обработки текста

Расскажу о своем опыте подбора программ для решения довольно нестандартной для переводчиков задачи - статистической обработки текста. На самом деле, такие программы не очень распространены в переводческой среде. И напрасно: с их помощью можно быстро выделить в тексте ключевые слова и выражения и, соответственно, оценить тематику и уровень сложности текста перед тем, как взять заказ, а во время перевода - обратить особое внимание именно на ключевые слова. Также потребность в подобных программах возникает, если переводчики не пользуются программами переводческой памяти, но требуется отслеживать употребление и перевод ключевых терминов.

Первая программа статистической обработки текста, с которой я столкнулась в Интернете - Wordstat (распространяется бесплатно).



Пользоваться программой предельно просто - выбираете файл (правда, поддерживаются только форматы txt и html\htm), нажимаете на кнопку и через секунду получаете файл - опять в формате txt - с ключевыми словами:



Как можно заметить по результатам, алгоритм программы также предельно прост: программа считает количество употреблений каждого слова, и на основании этих данных строит свой список-рейтинг. В результате - на первое место попадают предлоги, союзы, артикли - совсем не то, что в действительности несет важную информацию. К тому же, слова анализируются только "в розницу" - это минус, ведь в глоссарий ключевых терминов нужно включать и словосочетания.

Таким образом, я продолжила свой поиск и нашла программу TextAnalyst (распространяется бесплатно), обладающую более совершенным алгоритмом, учитывающую, наряду с частотностью, целый ряд лингвистических параметров: положение слова в предложении, положение предложения в тексте, связь слов между собой, семантические параметры.



И, хотя в результатах получается много "шума", важные термины действительно выделяются и могут быть использованы для создания глоссария ключевых слов. К сожалению, чудо-программка поддерживает только русский язык.

Если исходный текст - на английском языке (или другом языке, с письменностью кириллицей или латиницей), то можно воспользоваться моей следующей находкой - программой Textanz. По сравнению с отечественной программой TextAnalyst, программа Textanz использует более "грубые методы" и ограничивается только анализом частотности. Единственная лингвистическая премудрость этой программы - способность не учитывать предлоги, союзы и артикли и прочие слова, занесенные в специальный список. Очевидно, именно простота алгоритма и позволяет программе работать со многими языками.



Разумеется, если Вам необходимо создать профессиональный глоссарий текста большого объема, лучше воспользоваться специализированной программой. Упомянутые выше программы подойдут, скорее, для беглого изучения содержания текста перед переводом (чтобы лучше оценить тематику), выделения ключевых терминов и отслеживания их перевода "для себя".

Alex
22.12.2010 07:06:58
TextAnalyst ещё отлично реферирует.
В.И.
27.12.2010 14:14:36
Я знаю, что вордстат используют ребята продвиженцы и копирайтеры, чтобы сайт правильно "раскручивать", а про применение в переводе слышу впервые. Хотя, собственно использовать его в переводе никто и не мешает... smile;)
denver
12.01.2011 12:24:39
Вот этот материал полезный! еще бы ссылки на программки добавили - цены бы не было
Elena
31.03.2011 00:44:15
хм... заставляет задуматься
Софья
04.04.2011 13:20:31
А вот я с удовольствием почитал. Возьму на вооружение
Лилия
04.04.2011 16:26:47
Интересная информация о новом
adwords
10.04.2011 20:40:23
даже никогда бы не подумала делать глоссарий этими программами
Фаина
12.05.2011 09:03:09
сегодня на свет рождаются новые нанотехнологии. В ближайшем будущем появится много причудливых объектов, поражающих воображение. Аппараты изобретут современные инженеры уже сегодня.
михаил
16.05.2011 23:40:39
у меня есть такие проги
admon
12.10.2011 17:41:07
Нормальных программ для обработки текста сейчас не хватает
Галактион
06.06.2012 00:26:26
Полезная информация, очень помогла.
Dina
26.09.2012 12:27:24
Сильные публикации. Важно, что они реально проверены практикой.