Блог

Полезные статьи и новости о жизни WaveAccess

Интеллектуальный анализ текста: что это и зачем он нужен

В современном мире генерируется огромный объем информации, и он растет с каждым  годом. Данные становятся важнейшим организационным ресурсом, обеспечивающим конкурентные преимущества, дают начало инициативам по менеджменту знаний. Ручная обработка и классификация данных становится неэффективной и дорогостоящей. Ее стремятся либо полностью автоматизировать, либо использовать только на тех этапах работы, когда среди большого количества данных автоматически отобраны нужные.

Интеллектуальный анализ текста, или text mining — автоматизация извлечения сведений из текстовых данных. Его особенность (в отличие от анализа других данных) заключается в неформализованности исходной информации: ее не описать простой математической функцией.

Технологии анализа текста, машинного обучения и Big Data у всех на слуху и доступны все большему количеству компаний, но информации об условиях их реального применения не так много. Мы хотим восполнить этот пробел и рассказать, какие задачи и каким образом можно решить с помощью text mining.

text_mining_WaveAccess

Основные задачи в text mining 

Всего за несколько шагов системы интеллектуального анализа извлекают из "корпуса" ключевые смыслы, определяют, пригоден ли текст для решения поставленной задачи, и выявляют детали его содержания. В данном случае под "корпусом" подразумевается набор текстов, которые отвечают предварительно заданным параметрам: сначала формируются критерии, а затем подбираются соответствующие им тексты.

  • Релевантность документа (поиск текстов по заданной теме). Тема может быть узкой: например, научные статьи по хирургии глаза.
  • Именованные сущности. Если документ релевантный, может потребоваться отыскать в нем некоторые факты: например, фамилии ученых или названия патологий.
  • Тип документа. Необходимо присвоить документу метку в зависимости от его содержания: например, классифицировать обзоры на товар как "положительные" или "отрицательные".
  • Связи между сущностями. Кроме самих фактов, часто необходимо найти те части документов, где говорится о взаимосвязи фактов: например, поиск связей между медицинскими препаратами и побочными эффектами или поиск связей между именем сотрудника и отрицательными отзывами на его работу.

Примеры задач в text mining 

Анализ текста позволяет не только извлекать полезные сведения из проектов по управлению неструктурированными данными, но и ожидать от них большего ROI (показатель окупаемости инвестиций). Для бизнеса это означает возможность получать выгоду от использования крупных массивов данных, избегая затратной ручной обработки: отставить в сторону нерелевантный материал и просто получать ответы. 

Вот некоторые области, где text mining уже успешно применяется: 

Поиск научной литературы определенной тематики

Text mining помогает сориентироваться в огромном потоке научных публикаций: настроить получение релевантных статей, сэкономить деньги и время. 

В соответствии с требованиями законодательства, фармацевтические компании США и Европы должны самостоятельно отзывать свои продукты или добавлять соответствующие данные в информационные материалы, если у продукта были обнаружены побочные эффекты, влияющие на здоровье пациентов. При этом основным источником такой информации, кроме собственных исследований компании, выступают научные публикации в различных журналах. В силу большого объема выпускаемых статей, обработать его вручную практически невозможно.

Чтобы решить эту проблему, издательства (или отдельные компании, оказывающие услуги по автоматической обработке текста) предлагают сервис по поиску статей по алгоритмам и подходам, согласованным с заказчиком. В результате такой обработки заказчик получает краткий отчет о найденных статьях в требуемом для него формате. Изучив список, он при необходимости приобретает необходимые публикации.

Платные публикации 

Получить доступ к новейшим научным статьям и отчетам о результатах  исследований в англоязычных изданиях бесплатно нельзя. Тексты можно лишь купить, и каждый будет стоить не меньше 25-30 долларов.

text mining_priced publications

К примеру, статья о влиянии переработки и хранения на полифенольный состав и антиоксидантные свойства Rubus adenotrichus обойдется почти в 42 доллара.

Эта ситуация ставит многие фармацевтические компании США перед сложным выбором. По закону они обязаны отслеживать все упоминания своих препаратов, связанные с побочными эффектами, чтобы добавлять в инструкции новые данные или отзывать препараты с рынка. Однако приобретение всех существующих статей, в которых может присутствовать упоминание медикамента, обойдется в крупную сумму, не говоря уже о затратах человеко-часов на обработку текстов.

Одному из наших клиентов из отрасли здравоохранения мы предложили решение по автоматизации поиска среди статей: организовали поиск по публикациям и их метаданным при помощи text mining платформы. Теперь автоматизированный поиск публикаций позволяет компании экономить: приобретать только те статьи, в которых, наиболее вероятно, содержится важный для компании текст.

Подобные задачи требуют применения text mining в силу своей сложности: например, не во всех источниках стандартизованы библиографические данные. Иногда эти данные  нужно искать в тексте самостоятельно. Порой даже для того, чтобы разобрать адрес организации из метаданных, приходится применять методы машинного обучения.

Маркетинговые исследования

Приложения на основе text mining помогают лучше понять, в каком информационном поле действует компания и как к ней относится аудитория. 

Чтобы строить стратегию развития, компаниям необходимы отзывы и объективные оценки использования своих и конкурирующих продуктов. Из-за большого количества источников информации (научные статьи, обзоры продуктов, исследования, конференции, новости и др.) здесь также требуется автоматическая обработка текстов.

Степень доверия к источнику

С использованием text mining сложно отличить заказные обзоры (особенно, если они хорошо составлены) от честных и объективных. Дело в том, что в медицинской сфере гораздо чаще анализ проводится среди отзывов в авторитетных научных журналах, в которых гораздо сложнее опубликовать фальшивый обзор благодаря высоким требованиям к материалам.

text mining_доверие к источнику

Десятки компаний пишут отзывы на заказ, хотя авторы далеко не всегда пользовались товаром или услугой, которую оценивают.

Но если бы стояла задача проанализировать данные в интернете, то для решения такой задачи пришлось бы составлять соответствующий рейтинг авторов и источников, чтобы выявлять заказные работы. Кстати, для научных журналов и авторов как раз имеются индексы цитирования. Мы используем такую информацию в проектах по поиску научных статей — она добавляется в итоговый отчет, чтобы помочь читателю определиться со степенью доверия к источнику.

Отдельной задачей, связанной с остальными, является анализ тональности текста (sentiment analysis). В данном случае требуется оценить эмоциональное отношение автора документа к некоторому объекту. Это используется, например, для классификации отзывов о товарах или о самой компании.

Управление знаниями (knowledge management) 

Наведение порядка в документообороте помогает лучше понять, какими данными и документами уже располагает компания, и настроить к ним быстрый доступ.

С ростом организация накапливает значительный объем интеллектуальных активов. Их хранение не всегда хорошо структурировано и стандартизировано, разные отделы могут использовать разные инструменты для хранения документов или вообще обходиться без них. Это затрудняет поиск нужной информации или делает его невозможным. Особенно остро проблема проявляется при слиянии компаний. 

Для эффективного использования накопленных знаний могут быть использованы text mining системы, которые:

  • выполняют автоматический сбор информации из различных источников и приводят ее к единому формату;

  • дополняют документы метаданными (например: источник документов, дата его создания, авторы и т.д.);

  • предварительно индексируют и кластеризуют документы;

  • предоставляют интерфейс для поиска документов по заданным пользователем параметрам.

Такие системы могут иметь возможность настройки уровней доступа к информации, исходя из требований безопасности.

Оптимизация отдела по работе с клиентами  

Помимо документов, которые создаются внутри компании, бизнес получает много входящей текстовой информации. Например, запросы и заказы через формы обратной связи на сайте. 

Входящие заявки от потенциальных клиентов часто бывают заполнены недостаточно подробно. Менеджеры тратят много времени на обработку заказа и переговоры с клиентом, а до звонка им может быть неясно, что именно хочет клиент и на самом ли деле он заинтересован в покупке.

Text mining системы могут сортировать входящие заявки и предоставлять на выходе более полную информацию о клиенте и его потребностях. Сокращается время обработки заказов, разгружается клиентский отдел, компания может увеличивать свой доход.

Как text mining повышает выручку? 

Один из наших клиентов занимается ремонтом и техобслуживанием промобъектов. Категорий ремонта — множество (электрика, ремонт дорожного покрытия, десятки других категорий), а разновидностей ремонта всего два: 

  • гарантийный ремонт, который осуществляется бесплатно; 

  • негарантийный ремонт, на котором компания зарабатывает.

За день на сайт компании приходит до 3 000 заявок на ремонт, каждую из которых необходимо обработать: менеджер создает в CRM-системе заказ на ремонт, выбирая из всплывающего списка категорию и подвид ремонта, а также планируя загрузку ремонтных бригад разной направленности.

Заказчики ремонта оставляют заявки в свободной форме, ранее оцифровать их могли только менеджеры. На это уходило много времени, и при этом не всегда было очевидно, бесплатный ли ремонт или нет. 

Мы разработали систему, которая помогает отделу по работе с заказами быстрее сортировать заявки, опираясь только на текст в свободной форме. Text mining система подсказывает менеджеру несколько наиболее вероятных категорий и подвидов ремонта, позволяя быстрее найти их в CRM. 

Но главным плюсом решения оказалось умение отличить гарантийный ремонт от негарантийного. Автоматически выявляя случаи платного ремонта, система помогла увеличить выручку компании. Также сократилось количество случаев, когда с клиентов ошибочно взималась плата за гарантийный ремонт.

Фильтрация спама 

В данном случае задача заключается в классификации большого потока сообщений (писем, SMS) с целью отсеивания "мусорных". Здесь важна скорость работы алгоритмов в силу большого объема информации.

Кроме приведенных text mining приложений, могут существовать и более специфические, определяемые потребностями заказчиков.

Заключение 

Основная задача обработки текстов — извлечение информации, которая необходима для эффективного принятия решений. С ростом объема текстовой информации для сокращения расходов на ее обработку возникает необходимость в автоматизации. 

В силу неформализованности текстовой информации и разнообразия решаемых задач  не существует единого подхода для анализа, что усложняет разработку автоматических text mining систем. Они могут быть построены как системы поддержки принятия решения для повышения производительности экспертов, работающих с текстами.  

Во второй части статьи мы расскажем, как можно оптимизировать процесс text mining, на какие этапы делится разработка и какие подходы используются.

Хотите узнать, как text mining можно применить в вашем проекте?

Мы расскажем!

Свяжитесь с нами: hello@wave-access.com

Заказать звонок

Удобное время:

Отменить

Пишите!

Присоединить
Файл не больше 30 Мб.
Отменить