Нлп тексты примеры: 14 техник НЛП в копирайтинге

Содержание

14 техник НЛП в копирайтинге

Копирайтеры пишут рекламные и презентационные тексты. Чтобы информация сработала правильно, способности правильно излагать мысли и писать без ошибок мало. Несколько простых, но действенных, секретов управления аудиторией

НЛП в копирайтинге

Для тех, кто подзабыл, что означает термин «копирайтинг», напомним, что это слово происходит от английских «copy» – текст, рукопись и «write» – писать. Таким образом, копирайтинг – это написание текстов, однако не любых, а тех, которые носят рекламный или презентационный, пропагандистский характер. Подобные тексты направлены на продвижение идеи, товара, услуги, компании и т. д.

Человека, который пишет такие рекламные тексты, называют копирайтером. Его работа непроста, и ему мало иметь писательский талант, ведь текст должен быть написан так, чтобы клиент поверил в уникальность описываемого товара и отдал предпочтение именно ему.

НЛП и копирайтинг

НЛП, или нейролингвистическое программирование, – это направление в практической психологии. Техники НЛП, которые применяются в копирайтинге, позволяют манипулировать сознанием и мнением потенциальных покупателей товаров и услуг с целью убедить их приобрести такой товар.

Мастером продвижения определенного товара или услуги был известный американский торговый эксперт Элмер Уиллер. Придуманные им тексты рекламных объявлений позволяли увеличить объем продаж рекламируемого товара в два-три раза. Своим опытом он поделился в книге: «Испытанное умение продавать».

Многим известен его совет для тех, кто пишет рекламные тексты: «Не продавайте бифштекс – продавайте его шипение на сковородке». В своей книге Элмер Уиллер поделился еще одним секретом, важным для копирайтеров: меньшая часть текста должна быть посвящена преимуществам товара, а большая – доказательствам этого.

Элмер Уиллер был не только талантливым маркетологом, но и психологом. Ведь чтобы тексты, написанные копирайтером, были убедительны и достигли цели, он должен хорошо разбираться в человеческой психике, понимать мотивы, движущие людьми при совершении покупок. Поэтому он должен хорошо владеть техниками НЛП.

Какие методы НЛП используются в копирайтинге

1. Подстраиваемся под потенциальных клиентов

Прежде чем приступать к составлению текста, копирайтер должен иметь представление о своей целевой аудитории. Термин «целевая аудитория» широко используется в маркетинге и рекламе и обозначает группу людей, которые объединены общей целью. Например, это люди, которые носят очки или мамы детей грудного возраста, то есть это люди, которые с большой вероятностью приобретут рекламируемый продукт.

Определив целевую аудиторию, копирайтер изучает, какие черты свойственны типичному представителю данной целевой аудитории. Он должен «вжиться в образ» и показать, что он один из ее представителей, единомышленник, который уже обладает этим продуктом и спешит поделиться с другими секретами его преимущества.

2. Не забываем о законе причины и следствия

Этот закон гласит, что «в нашей Вселенной все имеет свою причину. Не бывает причины без следствия, а каждое следствие исходит из причины. По своим масштабам следствие равно породившей его причине». Грамотно используя прием «причина-следствие» и наоборот, копирайтер может ненавязчиво убедить читателя, какую выгоду он извлечет, если последует совету и воспользуется предложенным товаром или услугой.

Простейший пример: «Из-за сухого воздуха в помещении ваша кожа утратила упругость, а волосы стали ломкими и тусклыми, но если вы воспользуетесь термальной водой «С», которая творит чудеса, ваши волосы и кожа отблагодарят вас!». Применяя данный метод, не следует увлекаться и чересчур давить на эмоции читателей, а также искажать факты.

3. Чтобы убедить клиента совершить покупку, выдвигаем ему условие

Наверно, каждому из нас приходилось получать смс- или почтовые уведомления наподобие: «Поздравляем вас – наша фирма провела рекламную кампанию, в результате которой Вы выиграли iPhone». Такие уведомления направлены на определенную целевую аудиторию – доверчивых людей, которые хотят получить что-то бесплатно. Что от них требуется? Всего лишь оплатить доставку, куда-то перевести деньги. Но такая просьба может не возыметь должного эффекта, поэтому для большей убедительности выдвигается условие: «Если в течение суток вы не оплатите доставку, то путем повторной жеребьевки мы выберем другого победителя». Как правило, такой прием срабатывает, клиент попадается на удочку и решается оплатить доставку. Тем более, что суммы обычно незначительные.

Метод, когда принятие решения ограничивается временными условиями, очень популярен. Нам сообщают: «Вы упустите шанс купить на 20% дешевле, если не сделаете покупку сегодня!», или «Скидки действуют только два дня!» и т. д.

4. Повторяем

Одно из правил копирайтинга: главную мысль необходимо повторить три раза: в заголовке, в середине рекламного текста и в конце, чтобы она запечатлелась в сознании читателя как истина. Главное, не «переборщить» и не делать это слишком явно и навязчиво.

5. Предоставляем возможность

Эта техника направлена на борьбу с сомнениями клиента. Копирайтер в этом случае ничего не доказывает, он просто советует и ссылается на то, что множество людей уже последовали этому совету и остались довольны выбором. При этом необходимо подчеркнуть, что уникальная возможность предоставляется именно сейчас, в дальнейшем ее не будет. Совет будет работать эффективнее, если преподнести его доверительно, в виде раскрытия тайны.

6. Используем трюизмы

Термин «трюизм» происходит от английского true – правильный, верный. И употребляют его, когда говорят о банальности и общеизвестной истине. С высказыванием-трюизмом соглашаются практически все, поэтому с его помощью воздействуют на психику человека, не вызывая у него сопротивления. Ведь трюизмы настолько очевидны, что не требуют размышлений, поэтому сразу попадают в подсознание человека, минуя всякие сознательные фильтры.

Один из приемов продаж – это три «да». Читателю задают три вопроса. Два первых – это трюизмы, на которые он не может не ответить «да». Но основной – это третий. Ответив согласием на два первых вопроса, человек на подсознании отвечает «да» и на третий. Чтобы усилить эффект, трюизмы можно дополнить вопросами: «Не правда ли?», «Вы согласны?» «Не так ли?» и пр.

7. Напоминаем о долге

В тексте используются указания, что нужно сделать. Однако они должны быть не прямые, а завуалированные, деликатные. Их цель – расположить читателя, с тем чтобы «заманить» его вглубь текста. Например, «Чтобы добиться такого эффекта, вы должны…», или «Чтобы это осуществилось, вам необходимо…».

8. Аргументируем

Сообщаемая нами информация не должна быть голословной. Ее необходимо подтвердить примерами, фактами, аргументами. Это может быть мнение эксперта, информация из опыта компании или личного опыта и пр.

9. Ссылаемся на мнение «утерянного автора»

Наверно, многие обращали внимание, что некоторые статьи сопровождаются ссылкой на какое-то лицо или группу лиц, чье мнение необычайно авторитетно. Но что это за лицо или лица – никто не знает. Это и есть «утерянные авторы». Их имена, как правило, не называются, а если и называются, то лишь кто-то очень дотошный может проверить, существуют ли они в действительности. Но это и не важно, потому что основная масса читателей примет информацию на веру и сделает те выводы, на которые эта статья была направлена.

Профессиональные копирайтеры стараются избегать подобных штампов. Однако многие их применяют, и они работают. Например: «Многочисленные исследования показали…», «Эксперты настойчиво рекомендуют…» и пр.

10. Используем согласие по инерции

Этот метод заключается в том, что читателю предлагают выполнить несложные действия вроде «представьте себе…», «вспомните, что вы…», «вообразите, что вы находитесь…». Откликнувшись на эти простые просьбы в первый раз, читатель по инерции будет следовать далее, выполняя более сложные. Таким образом, копирайтер будет управлять читателем, сохраняя инициативу в своих руках.

11. Обобщаем

Человек живет в социуме и следует его законам, подсознательно соглашаясь с определенными правилами и принципами. Его действия нередко подчинены так называемому стадному инстинкту. Никто не хочет показаться менее информированным и осведомленным, чем другие. Эту слабость активно используют копирайтеры для управления эмоциями читателей. Например, они употребляют следующие обороты: «Всем известно, что…», «Каждый знает, что…», «Известное правило гласит…» и т. п.

12. Оцениваем

Копирайтер должен дать оценку предлагаемому товару. Он должен быть «наилучшим», «наиболее качественным», «самым быстрым», «самым надежным и доступным» и др.

13. Играем на слабостях

У каждого представителя той или иной целевой аудитории имеются свои слабости. Например, бизнесмены хотят опередить своих конкурентов, женщины старшего возраста хотят выглядеть моложе, родители хотят, чтобы их ребенок был самый умный. Изучив страхи, слабости и амбиции целевой аудитории, копирайтер может заинтересовать читателя своим предложением. Например: «Мы предлагаем вам новый способ, как подчеркнуть свою женственность, и о нем еще никто не знает!».

14. Правильно пользуемся частицей «не»

Частицы «не», «нет» вызывают негативные эмоции и принесут вред, настраивая подсознание на то, что товар покупать не стоит. Однако их можно использовать в зависимости от ситуации. Например, заголовки вроде «Мужчинам не читать!» лишь привлекут их внимание.

© Тимошенко Елена, BBF.RU

Нейролингвистика и НЛП для копирайтинга: 6 способов повышения конверсии

Для того, чтобы написать высокоэффективный конвертирующий текст, нужно заранее предвидеть возможные возражения его читателей, которые — за редким исключением — под любыми предлогами (в основном из-за лени) постараются не дочитать описание оффера до конца, не кликнуть на CTA-элемент, не совершить вообще ни одного действия, что вы от него ожидаете.

Независимо от творческих методов и писательских техник цель у маркетолога или копирайтера одна: донести до людей послание, которое заставит их действовать в соответствии с определенной стратегией. Следовательно, автор продающего текста должен думать над каждым словом, что он предлагает прочесть потенциальному лиду/клиенту/покупателю.

Используя приемы нейролингвистического программирования (НЛП) и нейролингвистики можно повысить вероятность того, что заголовки лендингов, слоганы, описания офферов — любые маркетинговые послания — войдут во взаимодействие с целевой аудиторией, мягко и незаметно подталкивая ее к конверсионным действиям.

Необходимые уточнения: что такое нейролингвистика и НЛП?

Вот достаточно простое определение нейролингвистики (Neurolinguistics), данное Американским лингвистическим обществом (Linguistic Society of America):

«Нейролингвистика — это исследование того, каким образом язык представлен в головном мозге: то есть изучение того, где и как мозг хранит наше знание языка, используемого нами для разговора, чтения и письма; выяснение того, что происходит в сером веществе, когда мы приобретаем это знание».

Нейролингвистика — междисциплинарная наука, тесно связанная с психолингвистикой и когнитивной лингвистикой.

Нейролингвистическое программирование (НЛП; англ. Neurolinguistic programming, NLP) — термин, введенный в обращение лингвистом Джоном Гриндером (John Grinder) и психологом Ричардом Бендлером (Richard Bandler), соавторами-разработчиками данного направления психотерапии.

3 составляющие НЛП: нейропсихология (neuro) — ваши мыслительные процессы; способы, которыми вы обрабатываете информацию, поступающую от ваших органов чувств, чтобы понять, что происходит вокруг вас; лингвистика (linguistic) — ваши слова; способы, которыми вы используете язык, и влияние, оказываемое этим на вас и ваш окружение; программирование (programming) — ваше поведение; способы организации ваших мыслей и действий, приводящие к ожидаемым или неожиданным результатам. На пересечении отдельных составляющих находятся: поведение (behaviour), концепции (concepts) и запланированные модели поведения (roadmaps) конкретного индивида.

По словам консультанта по НЛП Роберта Б. Дилтса (Robert B. Dilts) эта отрасль практической психологии «описывает основные динамические связи между сознанием (neuro) и языком (linguistic) и то, как взаимодействие языка и сознания влияет на наше тело и поведение (programming)».

У нейролингвистики и НЛП есть сходство: в центре их внимания находится процесс обработки языка мозгом, но НЛП делает особый упор на воздействие языка на поведение человека. И пусть нейролингвистика принадлежит к числу «добропорядочных» академических наук, а за НЛП тянется шлейф скандальных слухов, но у и той, и у другой в инструментарии есть несколько полезных методик, прошедших проверку практикой. Знание этих приемов воздействия на целевую аудиторию будет полезным и для маркетолога, и для копирайтера.

Вот 6 принципов нейролингвистики и НЛП, потенциально способные повысить убедительность ваших текстов.

1. Выбор правильного фрейма для усиления действия заголовка

«Выбор языка для общения имеет жизненно важное значение: он создает обрамление — моральные и концептуальные фреймы», — Джордж Лакофф (Джордж Лакофф), профессор когнитивной лингвистики, Калифорнийский университет в Беркли (The University of California, Berkeley).

Если вас попросят выбрать между говяжьим фаршем, содержащим 75% мяса, и фаршем с 25% жира, то каков будет ваш выбор?

Исследования влияния эффекта обрамления, или эффекта фрейминга (framing effect), на выбор потребителей, проведенные в 1987 г. Ирвином П. Левином (Irwin P. Levin), профессором психологии из Университета Айовы (University of Iowa), показали, что большинство опрошенных предпочли «фарш, в составе которого 75% мяса», несмотря на то что состав продукта абсолютно идентичен «фаршу, на 25% состоящему из жира».

Эффект обрамления — это когнитивное искажение, при котором люди реагируют на конкретный выбор по-разному в зависимости от того, как сформулированы результаты выбора — например как потеря (loss) или выигрыш (gain). Упоминание выигрыша формирует положительный фрейм (от англ. frame — рамка; контекст, в котором воспринимаются те или иные события, переживания, сведения), упоминание проигрыша — отрицательный фрейм.

В ситуации выбора человек, как правило, ведет себя в соответствии с представленным фреймом: избегает риска в случае положительного фрейма и склонен рисковать, если фрейм отрицательный. Выигрыши и потери определяются в сценарии эксперимента через описание результатов выбора (человеческие жизни будут спасены или потеряны в зависимости от того, будут или нет лечить пациентов новым непроверенным лекарством, какой из вариантов лечения будет применен и т. д.).

Вот пример, взятый из ставшей классикой когнитивной науки работы Амоса Тверски (Amos Tversky) и Даниэля Канемана (Daniel Kahneman) «Обрамление решений и психология выбора» (The framing of decisions and the psychology of choice, 1981). В ходе исследования участникам предлагалось выбрать один из двух методов лечения 600 гипотетических больных. Описание выигрышей и потерь от применения каждого из методов формулируется дважды: с применением положительного и отрицательного фреймов.

При использовании положительного фрейма («200 жизней будет спасено») 72% респондентов выбрали метод лечения А. Когда это же лечение было представлено через отрицательный фрейм, то число выбравших его снизилось до 22%.

Существование эффекта обрамления предполагает, что то, как вы представляете информацию (задаете контекст восприятия контента), влияет на пользовательский выбор. Каким же образом можно применить фрейминг для повышения конверсии?

Обрамление можно применять к различным составляющим текста, но лучшие результаты достижимы через представление через фреймы критически важных конвертирующих элементов лендинга, например, заголовков. Для проверки этой гипотезы маркетолог Микаэль Огард (Michael Aagaard) провел сплит-тестирование заголовков с положительными и отрицательными фреймами.

В первом случае он пытался увеличить число подписчиков на рассылку от bettingexpert.com:

Контрольный (вопрос): «Нравятся ставки? Нам тоже»
Вариант 1 (выгода): «Получайте больше денег со ставок — бесплатные советы»
Вариант 2 (потеря): «Хватит терять деньги на ставках — бесплатные советы»

В другой раз он намеревался повысить количество регистраций на датском сайте, предоставляющем возможность продажи/покупки подержанных мобильных телефонов:

Контрольный (выгода): «Заработайте на подержанном мобильном телефоне»
Вариант 1 (потеря): «Прекратите терять деньги на продаже подержанного мобильного телефона»
Вариант 2 (вопрос): «Хотите продать подержанный мобильный телефон?»

Оба теста подтвердили, что четко сформулированные заголовки с положительным фреймом (обещание выгоды) способствуют повышению конверсии.

Однако и отрицательный фрейм, сформированный через неприятие потери (loss aversion), иногда может творить чудеса.

В первой половине девяностых годов прошлого века американские психологи исследовали влияние эффекта обрамления на поведение целевых групп. Женщинам старше 40 лет показывали 2 видеофильма о риске заболевания раком груди и необходимости регулярной маммографии для обнаружения недуга на ранней стадии. В первом видео использовался положительный фрейм — упоминались преимущества своевременного прохождения маммографии. Второй фильм — с отрицательным фреймом — подчеркивал риски, связанные с пренебрежением данным профилактическим обследованием.

Результаты эксперимента были такими: положительный фрейм вдохновил записаться на маммографию 51,5% участниц просмотра первого видео. Но среди зрительниц, посмотревших фильм с отрицательным фреймом, на обследование отправились 61,2% — в данном случае неприятие потери конвертирует лучше.

Исследования маркетинговой платформы Outbrain также показывают, что «средняя кликабельность заголовков (CTR), содержащих «отрицательные» наречия и прилагательные превосходной степени (суперлативы) была на ошеломляющие 63% выше, чем у заголовков с диаметрально противоположными по смыслу оценочными словами».

CTR заголовков, содержащих «положительные» оценочные слова превосходной степени — Always (всегда) и Best (лучший) — на 29% ниже, чем кликабельность контрольного варианта, вообще не содержащего наречий и прилагательных подобного вида (средний столбец диаграммы). «Отрицательные» суперлативы — Never (никогда) и Worst (худший) — повышают уровень вовлечения (Engagement) целевой аудитории на 30%.

Очевидно, что и положительный, и отрицательный фреймы могут успешно преобразовывать посетителей в лиды. Но как решить, когда какие «рамки» использовать?

Как правило, отрицательный фрейм конвертирует лучше тогда, когда потенциальный клиент боится потерять нечто ощутимое — трафик, деньги и т. д. Вот пример формирования такого фрейма через фокусирование внимания читателя на слове «кража» (stealing), то есть апелляции к неприятию потерь:

«Как красть у конкурентов трафик, клиентов, контент, прибыль и остальное?»

Так какой же фрейм будет правильным для заголовка вашей посадочной страницы? Увы, но однозначного ответа на этот вопрос нет: ваш оффер, потребности целевого рынка, восприятие вашего продукта потенциальными потребителями — все эти факторы играют важную роль при создании вашего маркетингового предложения.

Выясните, что думают клиенты, напишите пробные версии заголовков с разными фреймами, проведите их тестирование, чтобы определить, что сработает в вашем уникальном случае.

2. Подрывной рефрейминг увеличивает воспринимаемую ценность оффера

В НЛП подрывным рефреймингом (Disruptive reframing) принято называть смещение фокуса восприятия читателя/слушателя.

Американские психологи Дэвид (David) и Ноулз (Knowles) обнаружили, что рефрейминг может применяться в качестве мощного инструмента убеждения. В ходе одного из своих экспериментов они собирали средства на благотворительность, переходя от дома к дому и предлагая жителям купить открытки.

  • Вначале исследователи предлагали купить 8 открыток за $3, и 40% людей приняли это предложение. Это первая стадия эксперимента.
  • На второй стадии Дэвид и Ноулз применили подрывной рефрейминг: они просили заплатить за те же 8 открыток 300 центов (100 центов = $1), причем добавляли к своему маркетинговому предложению фразу «Это выгодная покупка».

Столь простое изменение произносимого продающего текста увеличило конверсию в 2 раза: открытки купили 80% участников второй стадии эксперимента.

Итак, рефрейминг увеличил эффективность продаж. Почему?

Привычный мыслительный процесс искажался в тот момент, когда потенциальные покупатели слышали «300 центов» вместо «3 доллара». Пока они обдумывали неожиданно прозвучавшую формулировку цены, им предложили совершить «выгодную покупку». Этот сдвиг переключил на себя все внимание, что снизило — хотя бы на долю секунды — сопротивление внешнему воздействию на сознание и увеличило шансы на то, что потенциальный покупатель признает, что ему предлагают удачную для него сделку.

Описанный выше опыт не уникален: многочисленные исследования (о некоторых будет упомянуто далее) показывают, что рефрейминг помогает изменить отношение к чему-либо, стимулирует респондентов заполнять анкеты опросов, увеличивает количество пожертвований на благотворительность.

Если дело касается написания продающих текстов, то рефрейминг бывает полезен для снижения «веса» цены вашего продукта/услуги или для влияния на потребительский выбор. Вот целевая страница с оффером от Volkswagen:

«Откажитесь от двух латте и получите Up! (имеется в виду модель Volkswagen Up! от 2011 года, в данном случае применена игра слов — «get the up» в переводе с английского может также означать «добейтесь успеха» — прим. ред.)

Какая формулировка выплат звучит более привлекательно для покупателя?

$2920 долларов в год,

$240/месяц,

или

по цене 2 латте в день ($8)?

Маркетологи Volkswagen применили рефрейминг цены автомобиля, сопоставив ее со стоимостью 2 чашек кофе ($8), что приводит к нарушению рутинного процесса мышления (цена автомобиля, выраженная через количество чашек кофе, вызывает у читателя рекламы когнитивный диссонанс). Вдобавок смещение фокуса восприятия оффера способствует проявлению эффекта контраста («автомобиль против порции латте») и смягчает психологический удар, производимый высокой ценой.

Этот тип рефрейминга базируется на сравнении как средстве воздействия на привычный ход мыслей. Еще один способ «переформатировать» мышление покупателя — добавить к предлагаемому выбору заведомо худший вариант товара/услуги, часто называемый приманкой (decoy).

Приманка — худший вариант выбора из всех предложенных для покупателя, который вряд ли даже станет его рассматривать. Почему же приманку включают в маркетинговые предложения?

Ответ на этот вопрос найдется в книге Эллиота Аронсона (Elliot Aronson) и Энтони Пратканиса (Anthony Pratkanis) «Эпоха пропаганды» (Age of Propaganda), содержащей описание задокументированного эксперимента по изучению влияния приманки на потребительский выбор.

В ходе исследования участников просили сделать выбор между тремя условными бургерами:

  • «нутрибургером» — очень питательным, но средним по вкусовым качествам;
  • «тейстибургером» — очень вкусным, но средней питательности;
  • «баммербургером» — менее вкусным, чем два других, и средней питательности (это приманка).

Исследование продемонстрировало, что приманка повысила вероятность выбора продуктов, похожих на приманку, но превосходящих ее по качеству, на 6,7%. Иными словами, на 6,7% больше участников эксперимента выбрали «нутрибургер» только потому, что в списке предложений присутствовала приманка.

В книге «Предсказуемая иррациональность» (Predictably Irrational) профессор психологии и поведенческой экономики Дэн Ариэли (Dan Ariely) описал собственноручно проведенный эксперимент, показавший, что при наличии приманки 62% опрошенных выбирали похожий на приманку, но лучший вариант оффера.

Оффер А:
$59 — подписка только на интернет-версию [журнала] (68 выбравших)
$125 — подписка на печатную и интернет-версию (32 выбравших)

Оффер Б:
$59 — подписка только на интернет-версию (16 выбравших)
$125 — подписка только на печатную версию (0 выбравших, приманка)
$125 — подписка на печатную и интернет-версию (84 выбравших)

Пример рефрейминга с приманкой можно наблюдать на посадочной странице курсов копирайтинга copyhour:

Сравнение величины единовременной оплаты тарифов с их «ежедневной стоимостью» смягчает психологический «ценовой удар». При ближайшем рассмотрении оказывается, что тариф «Journeyman» служит приманкой: разовая выплата за него как за премиум-тариф «Master», но его ежедневная стоимость выше, а функциональность — скромнее. Так при помощи рефрейминга самый дорогой тариф позиционируется как лучший выбор.

3. Как использовать пресуппозиции и смежные пары для усиления убедительности

Начнем с определения: термин «пресуппозиция» (от англ. «presupposition» — предположение) в лингвистике обозначает исходную предпосылку высказывания, то, что неявным образом заложено в нем. Пресуппозиции помогают определить смысловое значение выражения, поскольку в них в неявном виде содержится уже существующее знание об объекте высказывания. Понятие пресуппозиции включает в себя контекст высказывания и ситуацию, в которой делается данное утверждение.

Рассмотрим, как предпосылки работают на практике. Для этого достаточно вспомнить сцену допроса в любом криминальном сериале, в которой следователь спрашивает у подозреваемого нечто вроде «Где ты спрятал пистолет?» или «И как часто вы это делаете?». Возьмем для примера вопрос, который Карлсон задал фрекен Бок:

« — Представь себе, трудно, — вмешался Карлсон. — Я сейчас задам тебе простой вопрос, и ты сама в этом убедишься. Вот, слушай! Ты перестала пить коньяк по утрам, отвечай — да или нет?
У фрекен Бок перехватило дыхание, казалось, она вот-вот упадет без чувств. Она хотела что-то сказать, но не могла вымолвить ни слова.
— Ну вот вам, — сказал Карлсон с торжеством. — Повторяю свой вопрос: ты перестала пить коньяк по утрам?».

Вопросы, что задают некий обобщенный следователь или всеми любимый Карлсон, который живет на крыше, в рамках прагматики, одном из ответвлений общей лингвистики, называются загруженными/заряженными вопросами (loaded questions; самый точный по смыслу, пусть и заранее заряженный отрицательными коннотациями перевод — «провокационные вопросы»).

Провокационные вопросы всегда формулируются на основе пресуппозиций. Согласно положениям прагматики:

Пресуппозиция подразумевает предположение, необходимое для завершения вопроса, заявления, законченной мысли.

В приведенных выше примерах гипотетический следователь, спрашивая, где подозреваемый спрятал пистолет, подразумевает, что пистолет у подозреваемого есть или подозреваемый точно занимается чем-то предосудительным — остается выяснить только, насколько часто; а коварный Карлсон ставит «домомучительницу» в логически безвыходное положение: любой ответ на вопрос «в меру упитанного мужчины в самом расцвете сил» по умолчанию предполагает согласие фрекен Бок с тем, что она либо по-прежнему пьет коньяк по утрам, либо покончила с нездоровой привычкой, которая все-таки у нее наличествовала. 😉

Маркетологу пресуппозиции могут показаться чем-то бессмысленным в практическом плане. Однако перед нами достаточно мощный инструмент, доказавший свою способность влиять на память читателя продающего текста.

Ставшее классическим исследование известного американского психолога Элизабет Лофтус (Elizabeth Loftus) доказало влияние предположительных вопросов на свидетельские показания. Участникам эксперимента, разделенным на несколько групп, показывали видеозаписи столкновений автомобилей. После показа первой группе задавался вопрос: «Как вы считаете, насколько быстро двигались автомобили в момент, когда они разбились (smashed) друг о друга?». Смысл эксперимента заключался в том, что остальным группам участников задавался тот же вопрос, только глагол «разбились» был заменен синонимами «соприкоснулись» (contacted), «ударились» (hit), «врезались» (bumped), «столкнулись» (collided).

Слову «разбились» (smashed) сопутствует наивысшая предполагаемая скорость показанных на видео автомобилей, поскольку это самый заряженный по смыслу глагол из всех использованных.

Таким образом, форма вопроса влияет на ответ опрашиваемого. Чем более предположительный (заряженный) глагол использовался, тем выше была названная участниками скорость столкнувшихся автомобилей.

Более того, пресуппозиция может показать участнику эксперимента то, чего не было на самом деле: отвечая на сильно «заряженный» вопрос о том, видели ли респонденты то, как в ходе аварии разбивались стекла столкнувшихся автомобилей, многие из опрошенных утверждали, что да, видели — даже при отсутствии битого стекла в видеороликах (упомянутое исследование Лофтус).

Мы не пытаемся вас научить тому, как манипулировать памятью клиента. Мы хотим, чтобы вы увеличили коэффициент конверсии. Как же можно использовать пресуппозиции для оптимизации?

Комбинируйте пресуппозиции и смежные пары

Любое ваше утверждение или заявление по сути своей является предположительным (пресуппозиционным). Но чтобы эту пресуппозицию с наибольшей возможной вероятностью разделил с вами читатель продающего текста или посетитель лендинга, вам потребуется комбинировать предположения со смежными парами (adjacency pairs).

В прагматике постулируется принцип функциональной зависимости второй части смежной пары (типовой последовательности реплик, например, «вопрос – ответ») от первой. Другими словами, для того чтобы ответить на вопрос или завершить утверждение, вы должны понять первую реплику диалога/первую часть высказывания.

В сущности говоря, это означает: для понимания того, о чем говорится в некоем высказывании, ваше сознание должно — хотя бы на мгновение — принять первую часть утверждения как существующий факт.

Вопрос с использованием комбинации пресуппозиции и смежной пары может быть таким: «Как вы будете использовать законы нейролингвистики для оптимизации конверсии?». Чтобы ответить на него, вы должны принять первоначальную предпосылку, что вы прочтете этот пост и будете использовать нейролингвистические принципы в своей маркетинговой практике.

Еще пример, взятый со страницы курсов онлайн-коучинга:

Когда посетителю предлагается вообразить (Imagine) нечто, он, отталкиваясь от высказанного в первой части утверждения, автоматически завершает высказывание, визуализируя предполагаемый результат: новых клиентов и пополнение банковского счета.

Подобным способом работает тонкая техника убеждения известная как самопродажа (self selling).

В начале восьмидесятых американские психологи Роберт Чалдини (Robert Cialdini) и Ларри Грегори (Larry Gregory) провели эксперимент, в ходе которого продавец предлагал подписку на кабельное телевидение.

Первый вариант маркетингового предложения базировался на описании преимуществ кабельного телевидения. Потенциальным клиентам говорилось, что «просмотр кабельного ТВ обходится дешевле и доставляет меньше хлопот, чем посещение кинотеатра; так вы сможете проводить больше времени со своей семьей».

Второй вариант предлагал «воспользоваться моментом и представить, как кабельное телевидение расширит выбор доступных вам развлечений».

Вариант оффера с акцентом на преимущества сконвертировал 19,5% охваченной целевой аудитории. Обращение к воображению потенциальных подписчиков (второй вариант) способствовало закрытию сделки с 47,4% участников эксперимента. Чем объясняются столь различные результаты?

Формулировка второго варианта оффера, содержащая смежную пару «предложение представить нечто — собственно его представление», запускала механизм самоубеждения, способствующий самопродажам. Вот по этой причине известный американский политический консультант Фрэнк Лунц (Frank Luntz) назвал «imagine» (представьте, вообразите) самым убедительным словом в английском языке (это высказывание, скорее всего, справедливо и для русского языка).

4. Семантическое фиксирование установки для улучшения понимания текста

Широко известный факт: реклама и маркетинг опираются на тонкое понимание законов человеческой психики. Но знаете ли вы, что психология — даже безотносительно искусства позиционирования нового товара или секретов гипнотически притягательной упаковки продуктов — способствует опустошению вашего кошелка во время рутинного посещения обычного супермаркета? 😉

Сейчас мы поговорим о гораздо более тонкой материи: о фоновой музыке, звучащей в торговых центрах.

Исследователи из Лестерского университета (University of Leicester) обнаружили, что музыка влияет на предпочтения покупателями одних сортов вина перед другими. В течение двух недель в винном магазине ежедневно чередовали фоновую музыку — немецкую и французскую. Каковы были результаты этого странного на первый взгляд эксперимента? Проигрывание французской музыки приводило к тому, что в этот день продавалось больше французских вин, чем немецких; когда звучали немецкие мелодии, покупатели охотнее покупали немецкие вина.

Чем можно объяснить происходящее? Существует такое явление как фиксирование установки (то же, что эффект предшествования или прайминг, англ. priming).

Прайминг устанавливает связь между неким стимулом и реакцией на него: если в первый раз столкнувшись с новым для вас явлением, вы думали и действовали определенным образом, то в следующий раз в сходных обстоятельствах вы воспользуетесь хранящимся в имплицитной (скрытой) памяти опытом, подходящим к случаю. Фиксирование установки может осознаваться человеком или происходить на подсознательном уровне.

Для несведущего наблюдателя фиксирование установки похоже на магию. Колдовством выглядит и применение прайминга для воздействия на будущие действия участников эксперимента, проведенного студентом кафедры психиатрии медицинского факультета университета Макгилла (McGill University) Джеем Олсоном (Jay Olson).

Тасуя колоду карт, Олсон просил участника выбрать случайную карту, а затем почти всегда безошибочно угадывал ее. Чего не знали участники, так это что Джей заранее определял, какую карту они выберут — чтобы повлиять на выбор, он задерживал палец на конкретной карте чуть дольше. Подсознательно участник узнавал ее и запоминал, чтобы позже выбрать эту конкретную карту.

Олсон, используя эффект предшествования, сумел точно отрегулировать выбор 103 из 105 участников. Дальнейший опрос показал, что более 90% участников исследования были убеждены в том, что они совершили совершенно самостоятельный выбор.

Чтобы результативно использовать семантическое фиксирование установки, маркетологам и копирайтерам необходимо располагать достоверными сведениями об обобщенной персоне клиента — владеть языком своей целевой аудитории, понимать, какие слова могут отпугнуть потенциальных покупателей, знать, какие коннотации возникают в их сознании при упоминании вашего продукта.

5. Важность ритма, рифмы, аллитерации

Умение пользоваться ритмом и аллитерациями (повтор согласных звуков в начале близко расположенных ударных слогов) может пригодиться не только поэту, но автору продающих текстов.

В ходе исследований воздействия поэтических «инструментов» (например, аллитерации и резонанса) на читательскую аудиторию выяснилось, что не имеет значения, произносятся ли тексты вслух или их читают молча: аллитерированные и ритмизированные строки в любом случае запоминаются лучше.

При разработке короткого текста — слоганов, заголовков, подзаголовков — аллитерация и ритм помогут сделать его более запоминающимся и признаваемым целевой аудиторией как что-то давно знакомое. Взгляните на бренды, перечисленные ниже:

  • Coca-Cola
  • PayPal
  • BlackBerry
  • Dunkin Donuts

Несмотря на то, что эти торговые марки уже популярны, аллитерация помогает нам легче произносить, распознавать и запоминать их.

Apple также использует аллитерации:

Smaller (меньше) и Smarter (умнее) — аллитерация как она есть

Еще лучше на целевую аудиторию воздействуют рифмованные предложения. Психолог Мэтью Макглоун (Matthew McGlone) провел исследование, в ходе которого просил участников оценить истинность рифмованных и нерифмованных высказываний.

Макглоун обнаружил, что зарифмованные утверждения чаще воспринимаются как истинные (более правдоподобные). Кроме того, он обнаружил, что рифма склоняет читателей согласиться с заявлением, нерифмованный вариант которого они отвергают.

Когда аудитории задавали вопрос, согласны ли они с тем, что «финансовый успех ведет к здоровью», большинство опрошенных не соглашалось с этой сентенцией. То же утверждение, зарифмованное как «Wealth makes health» (что-то вроде «богатеть — значит здороветь»), показалось аудитории более правдоподобным и приемлемым.

Так проявляется описанный Макглоуном эффект «рифмы как аргумента в пользу высказывания» (rhyme as reason), тесно связанный с концепцией когнитивной флюентности (cognitive fluency), утверждающей, что чем нам легче что-либо сделать или понять, тем более выгодным, приятным и безопасным оно нами воспринимается.

Маяковский сочинял гениальные рифмованные слоганы задолго до появления нейролингвистики и НЛП. Источник adme.ru

Вам не нужно пытаться превзойти Шекспира или Маяковского, чтобы написать эффективно конвертирующий заголовок целевой страницы или призыв к действию. Однако если вы при написании своего продающего текста используете ритмы, рифмы и аллитерации, то ваше маркетинговое послание будет более запоминающимся и действенным.

6. «Продвиньте» читателя к следующему предложению при помощи отложенных переходов

В лингвистике когезией (cohesion; букв. «связность») называют взаимосвязь между частями предложения, обеспечивающую целостность и смысл всего предложения.
Есть 2 основных типа связности:

  • Грамматическая когезия — связность, достигаемая за счет структурирования текста.
  • Лексическая когезия, обеспечиваемая лексическим содержанием и фоновыми знаниями (пресуппозициями), добавляющими тексту смысл и ясность.

Оба типа связности важны для хорошего копирайтинга, но мы рассмотрим грамматическую когезию — в частности, вопрос усиления взаимосвязи предложений при помощи отложенных переходов (delayed transitions).

Йеллоулис Дуглас (Yellowlees Douglas), профессор коммуникационных наук из Университета Флориды (University of Florida), полагает, что:

«Переходы служат для читателей чем-то вроде спасательных тросов, крепко связывающих воедино ваши идеи и предложения, что делает текст понятным и запоминающимся».

Переход — это литературный аналог метрополитена, использующего определенные слова или фразы для соединения идей и предложений в единое целое.

Вот пример:

«Вы хотите увеличить конверсию без лишних затрат, поэтому вы проводите «тонкую настройку» вашего текста».

Здесь для перехода используется соединительное слово «поэтому».

Отложенный переход немного отличается от нормального перехода, поскольку в этом случае соединительные слова или фразы помещаются в начале следующего предложения или абзаца.

В приведенном ниже предложении отложенные переходы, сформированные соединительными словами «но» и «поэтому», ведут читателя от одной законченной мысли к другой, создавая из отдельных предложений связное утверждение:

«Вы знаете, что эффективный продающий текст жизненно важен для конверсии. Но вы также знаете, что написать его непросто. Поэтому вы читаете этот пост, чтобы узнать об эффективном копирайтинге больше».

Отложенные переходы усиливают воздействие вашего текста, потому что:

  • они облегчают понимание написанного;
  • они делают текст менее предсказуемым, что поддерживает интерес читателя;
  • они позволяют использовать более короткие предложения, что помогает ускорить процесс чтения.

Спросите себя, способны ли вы выразить одну мысль в одном предложении? Если нет, то используйте переходы, чтобы «обезжирить» ваше утверждение и сделать текст более удобоваримым.

Вместо заключения

Копирайтинг часто описывают как своеобразный синтез науки и искусства. В этом посте мы рискнули углубиться в научную составляющую копирайтинга, чтобы показать, как принципы нейролингвистики и НЛП могут быть использованы для усиления воздействия продающих текстов, слоганов, заголовков.

Подведем итог.

Вот 6 принципов нейролингвистики, имеющих практическую пользу для маркетологов и копирайтеров:

  1. Правильный фрейм усиливает воздействие заголовка
  2. Подрывной рефрейминг может увеличить воспринимаемую ценность оффера
  3. Пресуппозиции и смежные пары усиливают убеждающий эффект текста
  4. Семантический прайминг проясняет смысл маркетингового предложения
  5.  Ритм, рифмы и аллитерации помогут написать текст, надолго «застревающий» в памяти
  6. Отложенные переходы проведут читателя от предложения к предложению, не дав ему оставить текст недочитанным

Но в динамичном мире лидогенерации нет ничего неизменного, ничего навеки застывшего, нет истин на все времена. Единственный способ узнать, какие фразы и заголовки конвертируют лучше всего — создавать тексты и тестировать их воздействие на целевую аудиторию.

Создали лендинг пейдж и задумываетесь об оптимизации конверсии? Ознакомьтесь с нашей технологией по увеличению бизнес-показателей >>>

Высоких вам конверсий!

По материалам conversionxl.com, image source mlloydphotography 

24-05-2016

Суггестивный текст в копирайтинге | Секреты от копирайтера

Задача копирайтера состоит в том, чтобы повлиять на читателя и доказать полезность описанного продукта или услуги. Для воздействия на целевую аудиторию используются разные методы НЛП и множество других хитростей. Одним из таких является суггестивный текст.

Особенностью этого способа является отчаянное желание повлиять на мнение пользователя и возможность руководить его желаниями. Достигнуть подобного результата удается благодаря использованию специального ритма, который создает логическую цепочку и закрепляет нужное для автора мнение в голове пользователя.

Сегодня копирайтеры оперируют тремя объяснениями для управления эмоциями. Каждое из них немного отличается, однако суть остается неизменной: предложения должны внушать уверенность в правильности приобретения продукта. Термин предполагает использование фраз, которые позволят закрепить мнение.

Что такое суггестивный текст

Примеры обсуждаемого суггестивного текста встречаются на каждом шагу. Копирайтеры и маркетологи используют этот прием для привлечения внимания к товару (услуге) и убеждения читателей в его незаменимости. Для того чтобы определить, какой текст перед вами, человеку достаточно обратить внимание на наличие:

  1. Влияния. Используя фразы, которые воздействуют на подсознание потенциального потребителя, удается вызвать определенные эмоции и желания. Таким образом, читатель сам не замечает того, что идет на поводу у автора и загорается идеей получить рекламируемый продукт или услугу.
  2. Отвлечения. Попытка изменить состояние потребителя, прибегая к помощи отвлекающих моментов, позволяет заставить окунуться в мир продавца. Любая связь с окружающим миром становится едва заметной, а читатель погружается в некое подобие сна.
  3. Внушения. Задача автора, который пишет суггестивные тексты, заключается в том, чтобы внушить читателю некую идею. Полная сосредоточенность на определенной теме позволяет близко подобраться к психике человека и заставить забыть обо всем.

Пример суггестивного текста часто приравнивается к приему нейролингвистического программирования, однако это мнение не совсем верно. Воздействие на сознание достигается за счет других якорей, потому формулы НЛП остаются не у дел. Управление вниманием читателя – приоритет, который прослеживается независимо от специфики работы над текстом.

Особенности написания суггестивных текстов

После того как копирайтеру стало понятно, что такое суггестивный текст, стоит уделить внимание особенностям подготовки такого рода контента. Опытные авторы знают, что построение статьи по формуле способствует повышению популярности и позволяет достучаться до читателя.

К категории универсальных суггестивных текстов относят контент, который перекликается с прочтением заговоров. Но в этом случае речь идет не о магии, а соблюдении особого ритма. Правильно подобранные слова позволяют погрузить пользователя в легкий транс.

Для того чтобы подготовить контент, который способен повлиять на подсознание, также потребуется использовать:

  • словосочетания с яркой эмоциональной окраской;
  • логичные предложения, которые закрепят определенное мнение;
  • лексические повторы одних и тех же выражений;
  • некоторая степень словесной избыточности;
  • необычное построение формулировок.

Эти элементы, внедренные в суггестивный текст, способны оказать необходимое влияние на читателя и заставить почувствовать себя на медитации. Контент, который станет отправной точкой для размышлений, должен выполнять направляющую роль и перевести всеобщее внимание на определенный продукт.

Преимущества суггестивного текста

Для того чтобы разобраться, как писать суггестивный текст, необходимо изучить преимущества использования этого метода. Копирайтеры, которые умело оперируют определениями, смогут достичь желаемого результата только при условии глубокого погружения в тему.

Минимум знаний не позволит полностью раскрыть вопрос. Наличие соответствующей базы знаний сулит успех, поскольку преимуществом суггестивного текста считается полный контакт с аудиторией. Значением погруженности в тему пренебрегать не стоит. Смысл метода заключается в полном управлении эмоциями и ожиданиями читателя.

Текст для людей и НЛП в SEO — Инструкции и уроки

 

Все мы знаем постоянно повторяющуюся фразу Яндекса : делайте сайты для людей». Но какой это оказывает эффект? В действительности никто кроме руководителей поисковика не скажет этого, и понять сам алгоритм довольно сложно. Но это не значит что не стоит этим пренебрегать. И вот почему. Одним из факторов развития сайта являются социальные сети. Чем больше в соцсетях распространяется информация о сайте – тем больше о нем узнают и следовательно посещают. К тому же естественное распространение ссылок несомненно скажется положительно.

 

Как этого достичь? Как сделать так что бы вашу статью копировали и распространяли живые люди а не автоматические платные системы? Ответ прост и сложен одновременно так же как и слова руководителей Яндекса. Это лингвистика. Те кто пишут тексты профессионально, знают что текст создается с учетом многих условий и есть ряд правил. Рассмотрим основные из них :

 

  1. Необходимо определиться с тем для кого вы пишите текст. Для какой категории и чем они увлекаются. Известно, что заинтересованность определенных людей своеобразна. Финансовому аналитику не интересна информация о размножении жуков в поле при воздействии вредоносных факторов. Такую статью он не только не прочитает, но и маловероятно что где-то разместит у себя. Или же автомеханик не будет вчитываться в информацию о котировках бирж и о том что влияет на их изменение. Ваша же задача что бы статья распространялась.
  2. Структура предложений. Длинна и сложность предложения напрямую влияет на запоминаемость и понимание текста. Если вы будете использовать длинные , сложно структурированные предложения – многие просто не дочитают до конца. А следовательно про дальнейшее распространение вашей статьи не идет речи. Человек просто закроет страницу и вероятно больше не зайдет на ваш сайт. Однако в научной среде и сложных финансовых анализах, простой текст будет восприниматься как примитив и не получит серьезного отношения.
  3. Терминология и сленг.  Пожалуй это один из наиболее важных факторов. Вы замечали что общение специалистов всегда происходи на каком то своем языке? Часто посторонние люди не могут понять даже смысла разговора. Это происходи автоматически. При этом иногда определенные фразы не являются « фразами и определениями  из учебников» а складывались так исторически.  Например : спросите токаря что такое колумбик. Он поймет что разговор идет о штангенциркуле. А называют колумбик, потому что первые импортные инструменты этого класса были произведены фирмой «колумбус», чья надпись и красовалась на инструменте. Доверие тексту написанному на языке тех для кого это пишется – конечно же будет выше. Именно поэтому необходимо знать тех кто будет посещать ваш сайт. И хотя бы немного просмотреть термины которыми наиболее часто пользуются. Послушать ( если конечно возможно) как строятся диалоги между ними. Использование непонятных для посетителя  слов просто оттолкнет от сайта.
  4. Плотность фраз и направленность на определенный круг лиц. В предыдущем пункте говорилось о спец терминологии. Использование ее хорошо, но главное не переусердствовать. Помните что чрезмерное плотность подобных фраз – только навредит. Необходимо что бы текст воспринимался «как родной» для людей
  5. Нейролингвистическое  программирование в тексте.

 

 

Пожалуй самый объемный и сложный пункт. Нейролингвистическое  программирование используется давно и повсеместно. Крупные  торговые сети, рекламные компании, пиар технологи. Большинство людей даже не замечает как ими манипулируют и заставляют делать именно то, что от них хотят. Так почему не использовать это в своих целях. Конечно использовать подобное  по полной, могут лишь профессионалы – психологи.  Использование простых, знакомых и главное легко запоминающихся сочетаний  слов – наиболее  яркий пример. Вспомните мелодии которые вы где то услышали а потом напевали весь оставшийся день. То же самое и  с сайтом. Если в сознании легко останется какая-то информация о сайте – с большой долей вероятности человек туда вернется.  Это помимо самого факта посещения , сказывается на поведенческих факторах.

 

Это лишь небольшие моменты, но они способны заметно улучшить репутацию сайта  в глазах тех, для кого он создавался.

пошаговое руководство по обработке естественного языка / Блог компании Конференции Олега Бунина (Онтико) / Хабр

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

За прошедший год команда

Insight

приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению

наиболее распространенных прикладных задач машинного обучения

.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

  • осуществлять сбор, подготовку, и инспектирование данных;
  • строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
  • интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.


К оригинальному посту прилагается интерактивный блокнот Jupyter, демонстрирующий применение всех упомянутых техник. Мы призываем вас воспользоваться им по мере того, как вы будете читать статью.

Применение машинного обучения для понимания и использования текста

Обработка естественного языка позволяет получать

новыевосхитительныерезультаты

и является очень широкой областью. Однако,

Insight

идентифицировала следующие ключевые аспекты практического применения, которые встречаются гораздо чаще остальных:

  • Идентификация различных когорт пользователей или клиентов (например, предсказание оттока клиентов, совокупной прибыли клиента, продуктовых предпочтений)
  • Точное детектирование и извлечение различных категорий отзывов (позитивные и негативные мнения, упоминания отдельных атрибутов вроде размера одежды и т.д.)
  • Классификация текста в соответствии с его смыслом (запрос элементарной помощи, срочная проблема).

Невзирая на наличие большого количества научных публикаций и обучающих руководств на тему NLP в интернете, на сегодняшний день практически не существует полноценных рекомендаций и советов на тему того, как

эффективно

справляться с задачами NLP, при этом рассматривающих решения этих задач с самых основ.

Шаг 1: Соберите ваши данные


Примерные источники данных

Любая задача машинного обучения начинается с данных — будь то список адресов электронной почты, постов или твитов. Распространенными источниками текстовой информации являются:

  • Отзывы о товарах (Amazon, Yelp и различные магазины приложений).
  • Контент, созданный пользователями (твиты, посты в Facebook, вопросы на StackOverflow).
  • Диагностическая информация (запросы пользователей, тикеты в поддержку, логи чатов).

Датасет «Катастрофы в социальных медиа»

Для иллюстрации описываемых подходов мы будем использовать датасет «Катастрофы в социальных медиа», любезно предоставленный компанией

CrowdFlower

.

Авторы рассмотрели свыше 10 000 твитов, которые были отобраны при помощи различных поисковых запросов вроде «в огне», «карантин» и «столпотворение». Затем они пометили, имеет ли твит отношение к событию-катастрофе (в отличие от шуток с использованием этих слов, обзоров на фильмы или чего-либо, не имеющего отношение к катастрофам).

Поставим себе задачу определить, какие из твитов имеют отношение к

событию-катастрофе

в противоположность тем твитам, которые относятся к

нерелевантным темам

(например, фильмам). Зачем нам это делать? Потенциальным применением могло бы быть эксклюзивное уведомление должностных лиц о чрезвычайных ситуациях, требующих неотложного внимания — при этом были бы проигнорированы обзоры последнего фильма Адама Сэндлера. Особая сложность данной задачи заключается в том, что оба этих класса содержат одни и те же критерии поиска, поэтому нам придется использовать более тонкие отличия, чтобы разделить их.

Далее мы будем ссылаться на твиты о катастрофах как «катастрофа», а на твиты обо всём остальном как «нерелевантные».

Метки (Labels)

Наши данные имеют метки, так что мы знаем, к каким категориям принадлежат твиты. Как подчеркивает Ричард Сочер, обычно быстрее, проще и дешевле

найти и разметить достаточно данных

, на которых будет обучаться модель — вместо того, чтобы пытаться оптимизировать сложный метод обучения без учителя.

Rather than spending a month figuring out an unsupervised machine learning problem, just label some data for a week and train a classifier.

— Richard (@RichardSocher) March 10, 2017

Вместо того, чтобы тратить месяц на формулирование задачи машинного обучения без учителя, просто потратьте неделю на то, чтобы разметить данные, и обучите классификатор.

Шаг 2. Очистите ваши данные


Правило номер один: «Ваша модель сможет стать лишь настолько хороша,
насколько хороши ваши данные»

Одним из ключевых навыков профессионального Data Scientist является знание о том, что должно быть следующим шагом — работа над моделью или над данными. Как показывает практика, сначала лучше взглянуть на сами данные, а только потом произвести их очистку.


Чистый датасет позволит модели выучить значимые признаки и не переобучиться на нерелевантном шуме.

Далее следует чеклист, который используется при очистке наших данных (подробности можно посмотреть в коде).

  1. Удалить все нерелевантные символы (например, любые символы, не относящиеся к цифро-буквенным).
  2. Токенизировать текст, разделив его на индивидуальные слова.
  3. Удалить нерелевантные слова — например, упоминания в Twitter или URL-ы.
  4. Перевести все символы в нижний регистр для того, чтобы слова «привет», «Привет» и «ПРИВЕТ» считались одним и тем же словом.
  5. Рассмотрите возможность совмещения слов, написанных с ошибками, или имеющих альтернативное написание (например, «круто»/«круть»/ «круууто»)
  6. Рассмотрите возможность проведения лемматизации, т. е. сведения различных форм одного слова к словарной форме (например, «машина» вместо «машиной», «на машине», «машинах» и пр.)

После того, как мы пройдемся по этим шагам и выполним проверку на дополнительные ошибки, мы можем начинать использовать чистые, помеченные данные для обучения моделей.

Шаг 3. Выберите хорошее представление данных

В качестве ввода модели машинного обучения принимают числовые значения. Например, модели, работающие с изображениями, принимают матрицу, отображающую интенсивность каждого пикселя в каждом канале цвета.

Улыбающееся лицо, представленное в виде массива чисел

Наш датасет представляет собой список предложений, поэтому для того, чтобы наш алгоритм мог извлечь паттерны из данных, вначале мы должны найти способ представить его таким образом, чтобы наш алгоритм мог его понять.

One-hot encoding («Мешок слов»)

Естественным путем отображения текста в компьютерах является кодирование каждого символа индивидуально в виде числа (пример подобного подхода — кодировка

ASCII

). Если мы «скормим» подобную простую репрезентацию классификатору, он будет должен изучить структуру слов с нуля, основываясь лишь на наших данных, что на большинстве датасетов невозможно. Следовательно, мы должны использовать более высокоуровневый подход.

Например, мы можем построить словарь всех уникальных слов в нашем датасете, и ассоциировать уникальный индекс каждому слову в словаре. Каждое предложение тогда можно будет отобразить списком, длина которого равна числу уникальных слов в нашем словаре, а в каждом индексе в этом списке будет хранится, сколько раз данное слово встречается в предложении. Эта модель называется «Мешком слов» (Bag of Words), поскольку она представляет собой отображение полностью игнорирущее порядок слов предложении. Ниже иллюстрация такого подхода.

Представление предложений в виде «Мешка слов». Исходные предложения указаны слева, их представление — справа. Каждый индекс в векторах представляет собой одно конкретное слово.

Визуализируем векторные представления

В словаре «Катастрофы в социальных медиа» содержится около 20 000 слов. Это означает, что каждое предложение будет отражено вектором длиной 20 000. Этот вектор будет содержать

преимущественно нули

, поскольку каждое предложение содержит лишь малое подмножество из нашего словаря.

Для того, чтобы выяснить, захватывают ли наши векторные представления (embeddings), релевантную нашей задаче информацию (например, имеют ли твиты отношение к катастрофам или нет), стоит попробовать визуализировать их и посмотреть, насколько хорошо разделены эти классы. Поскольку словари обычно являются очень большими и визуализация данных на 20 000 измерений невозможна, подходы вроде метода главных компонент (PCA) помогают спроецировать данные на два измерения.

Визуализация векторных представлений для «мешка слов»

Судя по получившемуся графику, не похоже, что два класса разделены как следует — это может быть особенностью нашего представления или просто эффектом сокращения размерности. Для того, чтобы выяснить, являются ли для нас полезными возможности «мешка слов», мы можем обучить классификатор, основанный на них.

Шаг 4. Классификация

Когда вы в первый раз принимаетесь за задачу, общепринятой практикой является начать с самого простого способа или инструмента, который может решить эту задачу. Когда дело касается классификации данных, наиболее распространенным способом является

логистическая регрессия

из-за своей универсальности и легкости толкования. Ее очень просто обучить, и ее результаты можно интерпретировать, поскольку вы можете с легкостью извлечь все самые важные коэффициенты из модели.

Разобьем наши данные на обучающую выборку, которую мы будем использовать для обучения нашей модели, и тестовую — для того, чтобы посмотреть, насколько хорошо наша модель обобщается на данные, которые не видела до этого. После обучения мы получаем точность в 75.4%. Не так уж и плохо! Угадывание самого частого класса («нерелеватно») дало бы нам лишь 57%.

Однако, даже если результата с 75% точностью было бы достаточно для наших нужд, мы никогда не должны использовать модель в продакшне без попытки понять ее.

Шаг 5. Инспектирование


Матрица ошибок

Первый шаг — это понять, какие типы ошибок совершает наша модель, и с какими видами ошибок нам в дальнейшем хотелось бы встречаться реже всего. В случае нашего примера,

ложно-положительные

результаты классифицируют нерелевантный твит в качестве катастрофы,

ложно-отрицательные

— классифицируют катастрофу как нерелевантный твит. Если нашим приоритетом является реакция на каждое потенциальное событие, то мы захотим снизить наши ложно-отрицательные срабатывания. Однако, если мы ограничены в ресурсах, то мы можем приоритезировать более низкую частоту ложно-отрицательных срабатываний для уменьшения вероятности ложной тревоги. Хорошим способом визуализации данной информации является использование

матрицы ошибок

, которая сравнивает предсказания, сделанные нашей моделью, с реальными метками. В идеале, данная матрица будет представлять собой диагональную линию, идущую из левого верхнего до нижнего правого угла (это будет означать, что наши предсказания идеально совпали с правдой).

Наш классификатор создает больше ложно-отрицательных, чем ложно-положительных результатов (пропорционально). Другими словами, самая частая ошибка нашей модели состоит в неточной классификации катастроф как нерелевантных. Если ложно-положительные отражают высокую стоимость для правоохранительных органов, то это может стать хорошим вариантом для нашего классификатора.

Объяснение и интерпретация нашей модели

Чтобы произвести валидацию нашей модели и интерпретировать ее предсказания, важно посмотреть на то, какие слова она использует для принятия решений. Если наши данные смещены, наш классификатор произведет точные предсказания на выборочных данных, но модель не сможет достаточно хорошо обобщить их в реальном мире. На диаграмме ниже показаны наиболее значимые слова для классов катастроф и нерелевантных твитов. Составление диаграмм, отражающих значимость слов, не составляет трудностей в случае использования «мешка слов» и логистической регрессии, поскольку мы просто извлекаем и ранжируем коэффициенты, которые модель использует для своих предсказаний.

«Мешок слов»: значимость слов

Наш классификатор верно нашел несколько паттернов (hiroshima — «Хиросима», massacre — «резня»), но ясно видно, что он переобучился на некоторых бессмысленных терминах («heyoo», «x1392»). Итак, сейчас наш «мешок слов» имеет дело с огромным словарем из различных слов и все эти слова для него равнозначны. Однако, некоторые из этих слов встречаются очень часто, и лишь добавляют шума нашим предсказаниям. Поэтому далее мы постараемся найти способ представить предложения таким образом, чтобы они могли учитывать частоту слов, и посмотрим, сможем ли мы получить больше полезной информации из наших данных.

Шаг 6. Учтите структуру словаря


TF-IDF

Чтобы помочь нашей модели сфокусироваться на значимых словах, мы можем использовать скоринг

TF-IDF

(

Term Frequency, Inverse Document Frequency

) поверх нашей модели «мешка слов». TF-IDF взвешивает на основании того, насколько они редки в нашем датасете, понижая в приоритете слова, которые встречаются слишком часто и просто добавляют шум. Ниже приводится проекция метода главных компонент, позволяющая оценить наше новое представление.

Визуализация векторного представления с применением TF-IDF.

Мы можем наблюдать более четкое разделение между двумя цветами. Это свидетельствует о том, что нашему классификатору должно стать проще разделить обе группы. Давайте посмотрим, насколько улучшатся наши результаты. Обучив другую логистическую регрессию на наших новых векторных представлениях, мы получим точность в 76,2%.

Очень незначительное улучшение. Может, наша модель хотя бы стала выбирать более важные слова? Если полученный результат по этой части стал лучше, и мы не даем модели «мошенничать», то можно считать этот подход усовершенствованием.

TF-IDF: Значимость слов

Выбранные моделью слова действительно выглядят гораздо более релевантными. Несмотря на то, что метрики на нашем тестовом множестве увеличились совсем незначительно, у нас теперь гораздо больше уверенности в использовании модели в реальной системе, которая будет взаимодействовать с клиентами.

Шаг 7. Применение семантики


Word2Vec

Наша последняя модель смогла «выхватить» слова, несущие наибольшее значение. Однако, скорее всего, когда мы выпустим ее в продакшн, она столкнется со словами, которые не встречались в обучающей выборке — и не сможет точно классифицировать эти твиты,

даже если она видела весьма похожие слова во время обучения

.

Чтобы решить данную проблему, нам потребуется захватить семантическое (смысловое) значение слов — это означает, что для нас важно понимать, что слова «хороший» и «позитивный» ближе друг к другу, чем слова «абрикос» и «континент». Мы воспользуемся инструментом Word2Vec, который поможет нам сопоставить значения слов.

Использование результатов предварительного обучения

Word2Vec

— это техника для поиска непрерывных отображений для слов. Word2Vec обучается на прочтении огромного количества текста с последующим запоминанием того, какое слово возникает в схожих контекстах. После обучения на достаточном количестве данных, Word2Vec генерирует вектор из 300 измерений для каждого слова в словаре, в котором слова со схожим значением располагаются ближе друг к другу.

Авторы публикации на тему непрерывных векторных представлений слов выложили в открытый доступ модель, которая была предварительно обучена на очень большом объеме информации, и мы можем использовать ее в нашей модели, чтобы внести знания о семантическом значении слов. Предварительно обученные векторы можно взять в репозитории, упомянутом в статье по ссылке.

Отображение уровня предложений

Быстрым способом получить вложения предложений для нашего классификатора будет усреднение оценок Word2Vec для всех слов в нашем предложении. Это все тот же подход, что и с «мешком слов» ранее, но на этот раз мы теряем только синтаксис нашего предложения, сохраняя при этом семантическую (смысловую) информацию.

Векторные представления предложений в Word2Vec

Вот визуализация наших новых векторных представлений после использования перечисленных техник:

Визуализация векторных представлений Word2Vec.

Теперь две группы цветов выглядят разделенными еще сильнее, и это должно помочь нашему классификатору найти различие между двумя классами. После обучения той же модели в третий раз (логистическая регрессия), мы получаем точность в 77,7% — и это наш лучший результат на данный момент! Настало время изучить нашу модель.

Компромисс между сложностью и объяснимостью

Поскольку наши векторные представления более не представлены в виде вектора с одним измерением на слово, как было в предыдущих моделях, теперь тяжелее понять, какие слова наиболее релевантны для нашей классификации. Несмотря на то, что мы по-прежнему обладаем доступом к коэффициентам нашей логистической регрессии, они относятся к 300 измерениям наших вложений, а не к индексам слов.

Для столь небольшого прироста точности, полная потеря возможности объяснить работу модели — это слишком жесткий компромисс. К счастью, при работе с более сложными моделями мы можем использовать интерпретаторы наподобие LIME, которые применяются для того, чтобы получить некоторое представление о том, как работает классификатор.

LIME

LIME доступен на Github в виде открытого пакета. Данный интерпретатор, работающий по принципу черного ящика, позволяет пользователям объяснять решения любого классификатора

на одном конкретном примере

при помощи изменения ввода (в нашем случае — удаления слова из предложения) и наблюдения за тем, как изменяется предсказание.

Давайте взглянем на пару объяснений для предложений из нашего датасета.

Правильные слова катастроф выбраны для классификации как «релевантные».

Здесь вклад слов в классификацию выглядит менее очевидным.

Впрочем, у нас нет достаточного количества времени, чтобы исследовать тысячи примеров из нашего датасета. Вместо этого, давайте запустим LIME на репрезентативной выборке тестовых данных, и посмотрим, какие слова встречаются регулярно и вносят наибольший вклад в конечный результат. Используя данный подход, мы можем получить оценки значимости слов аналогично тому, как мы делали это для предыдущих моделей, и валидировать предсказания нашей модели.

Похоже на то, что модель выбирает высоко релевантные слова и соответственно принимает понятные решения. По сравнению со всеми предыдущими моделями, она выбирает наиболее релевантные слова, поэтому лучше будет отправить в продакшн именно ее.

Шаг 8. Использование синтаксиса при применении end-to-end подходов

Мы рассмотрели быстрые и эффективные подходы для генерации компактных векторных представлений предложений. Однако, опуская порядок слов, мы отбрасываем всю синтаксическую информацию из наших предложений. Если эти методы не дают достаточных результатов, вы можете использовать более сложную модель, которая принимает целые выражения в качестве ввода и предсказывает метки, без необходимости построения промежуточного представления. Распространенный для этого способ состоит в рассмотрении предложения как

последовательности индивидуальных векторов слов

с использованием или Word2Vec, или более свежих подходов вроде

GloVe

или

CoVe

. Именно этим мы и займемся далее.

Высокоэффективная архитектура обучения модели без дополнительной предварительной и последующей обработки (end-to-end, источник)

Сверточные нейронные сети для классификации предложений (CNNs for Sentence Classification) обучаются очень быстро и могут сослужить отличную службу в качестве входного уровня в архитектуре глубокого обучения. Несмотря на то, что сверточные нейронные сети (CNN) в основном известны своей высокой производительностью на данных-изображениях, они показывают превосходные результаты при работе с текстовыми данными, и обычно гораздо быстрее обучаются, чем большинство сложных подходов NLP (например, LSTM-сети и архитектуры Encoder/Decoder ). Эта модель сохраняет порядок слов и обучается ценной информации о том, какие последовательности слов служат предсказанием наших целевых классов. В отличии от предыдущих моделей, она в курсе существования разницы между фразами «Лёша ест растения» и «Растения едят Лёшу».

Обучение данной модели не потребует сильно больше усилий по сравнению с предыдущими подходами (смотрите код), и, в итоге, мы получим модель, которая работает гораздо лучше предыдущей, позволяя получить точность в 79,5%. Как и с моделями, которые мы рассмотрели ранее, следующим шагом должно быть исследование и объяснение предсказаний с помощью методов, которые мы описали выше, чтобы убедиться в том, что модель является лучшим вариантом, который мы можем предложить пользователям. К этому моменту вы уже должны чувствовать себя достаточно уверенными, чтобы справиться с последующими шагами самостоятельно.

В заключение

Итак, краткое содержание подхода, который мы успешно применили на практике:

  • начинаем с быстрой и простой модели;
  • объясняем ее предсказания;
  • понимаем, какие разновидности ошибок она делает;
  • используем полученные знания для принятия решения о следующем шаге — будь то работа над данными, или над более сложной моделью.

Данные подходы мы рассмотрели на конкретном примере с использованием моделей, заточенных на распознавание, понимание и использование коротких текстов — например, твитов; однако, эти же идеи

широко применимы к множеству различных задач

.

Как уже отмечалось в статье, кто угодно может извлечь пользу, применив методы машинного обучения, тем более в мире интернета, со всем разнообразием аналитических данных. Поэтому темы искусственного интеллекта и машинного обучения непременно обсуждаются на наших конференциях РИТ++ и Highload++, причем с совершенно практической точки зрения, как и в этой статье. Вот, например, видео нескольких прошлогодних выступлений:
А программа майского фестиваля РИТ++ и июньского Highload++ Siberia уже в пути, за текущим состоянием можно следить на сайтах конференций или подписаться на рассылку, и мы будем периодически присылать анонсы одобренных докладов, чтобы вам ничего не пропустить.

5 удивительных примеров NLP в жизни

Одним из самых сложных и революционных решений, которые может сделать искусственный интеллект (ИИ), является говорение, письмо, слушание и понимание человеческого языка.  Обработка естественной речи (НЛП) — это форма ИИ, которая извлекает смысл из человеческого языка для принятия решений на основе информации.  Эта технология все еще развивается, но сегодня уже существует множество невероятных способов обработки естественно речи. 
Здесь выделены некоторые примеры  повседневного использования NLP и пять удивительных примеров того, как эта технология преобразует бизнес.

Вот некоторые функции обработки естественной речи:

  • Для достижения целей люди каждый день  обмениваются друг с другом бесчисленным количеством  слов. Но общение — это нечто большее, чем просто слова: контекст, язык тела, интонация и многое другое помогают нам понять смысл слов, когда мы общаемся друг с другом. Именно технология NLP способна понимать человеческую речь. Технология обладает огромным потенциалом, который может оказать огромное влияние на наше современное существование. Сегодня существует широкий выбор приложений, за которые отвечает NLP.
  •  Многие из нас пользуются виртуальными помощниками в форме Amazon Echo или Google Home в нашей повседневной жизни, и мы с удовольствием общаемся с компьютером через диалоговый интерфейс, поддерживаемый данную технологию.  Многие компании изучают, как диалоговые интерфейсы могут изменяться, потому что технология не зависит от платформы и может постоянно учиться и предлагает клиентам полезный опыт. NLP скрыта за вещами, которые вы можете воспринимать как должное каждый день.  Например, когда вы что-то запрашиваете у Siri — это прямой пример использования указанной технологии.

Вот еще несколько примеров обработки естественной речи:

Email assistant: автокоррекция, проверка грамматики и орфографии, а также автозаполнение — все функции содержат NLP. Для того, чтобы определить, какие электронные письма вы хотите хранить в своем почтовом ящике, а какие, скорее всего, являются спамом и должны быть отсортированы — фильтр использует NLP, 

Ответы на вопросы: если вы совершали покупки в Интернете или общались в чате на сайте, скорее всего, вы общались не с человеком, а с чат-ботом.  Чтобы иметь возможность понимать ваш запрос и отвечать на ваши вопросы адекватно, автоматически и в режиме реального времени, эти гуру обслуживания клиентов ИИ на самом деле являются алгоритмами, использующими технологию NLP.

Управляет e-commerce: НЛП обеспечивает лучшие результаты поиска при совершении покупок в Интернете.  Он становится искусным в расшифровке цели вашего сообщения, даже если есть орфографические ошибки или важные детали, которые вы пропускаете в своих поисковых терминах.  Выполняя поиск в Интернете, вы фактически добавляете информацию к имеющимся данным о клиентах, которые помогают ритейлерам изучать ваши привычки и предпочтения и, следовательно, реагировать на них.  Фактически, Gartner предсказывает, что к 2020 году 85% взаимодействий с клиентами будут обходиться без людей.

Извлечение и обобщение информации: NLP может извлекать и синтезировать информацию из различных текстовых источников, таких как новостные репортажи, руководства пользователя и многое другое.  Получив информацию, он может использовать то, что понял, для принятия решений или действий на основе алгоритмов.

 

5 удивительных примеров обработки естественной речи

  1. NLP помогает приложению Livox быть средством связи для людей с ограниченными возможностями. Приложение Карлоса Перейры, отца, который разработал приложение, чтобы помочь своей немой дочери, страдающей церебральным параличом, теперь доступно на 25 языках.
  2. Другим инструментом, содержащим технологию, является SignAll, который преобразует язык жестов в текст. Это может помочь глухим людям общаться с теми, кто не знает языка жестов.
  3. Машинный перевод — это огромное приложение для НЛП, которое позволяет нам преодолевать барьеры в общении с людьми со всего мира, а также понимать технические руководства и каталоги, написанные на иностранном языке. Google Translate ежедневно использует 500 миллионов человек, чтобы понимать более 100 языков мира.
  4. Технология NLP применяется даже для технического обслуживания самолетов. Она может не только помочь механикам синтезировать информацию из огромных авиационных пособий, но также найти смысл в описании проблем, данных в устной или письменной форме от пилотов и других людей.
  5. Хотя проблема и сложная, но технология NLP используется даже в предиктивной работе полиции, чтобы конкретно определить мотив преступления.

Лидеры отрасли не стоят на месте и продолжают экспериментировать и усовершенствовать NLP. В частности, Команда Amazon использует миллионы взаимодействий с Alexa, чтобы уменьшить количество ошибок NLP. Таким образом мы можем ожидать, что NLP станет еще лучше и более влиятельным для бизнеса в ближайшем будущем.

 

Источник

Плавное введение в Natural Language Processing (NLP) 

Введение в NLP с Sentiment Analysis в текстовых данных. 

Люди общаются с помощью каких-либо форм языка и пользуются либо текстом, либо речью. Сейчас для взаимодействия компьютеров с людьми, компьютерам необходимо понимать естественный язык, на котором говорят люди. Natural language processing занимается как раз тем, чтобы научить компьютеры понимать, обрабатывать и пользоваться естественными языками.

В этой статье мы рассмотрим некоторые частые методики, применяющиеся в задачах NLP. И создадим простую модель сентимент-анализа на примере обзоров на фильмы, чтобы предсказать положительную или отрицательную оценку.

Что такое Natural Language Processing (NLP)?

NLP — одно из направлений искуственного интеллекта, которое работает с анализом, пониманем и генерацией живых языков, для того, чтобы взаимодействовать с компьютерами и устно, и письменно, используя естественные языки вместо компьютерных.

Применение NLP

  • Machine translation (Google Translate)
  • Natural language generation
  • Поисковые системы
  • Спам-фильтры
  • Sentiment Analysis
  • Чат-боты

… и так далее

Очистка данных (Data Cleaning):

При Data Cleaning мы удаляем из исходных данных особые знаки, символы, пунктуацию, тэги html <> и т.п., которые не содержат никакой полезной для модели информации и только добавляют шум в данные.

Что удалять из исходных данных, а что нет зависит от постановки задачи. Например, если вы работаете с текстом из сферы экономики или бизнеса, знаки типа $ или другие символы валют могут содержать скрытую информацию, которую вы не хотите потерять. Но в большинстве случаев, мы их удаляем.

Код на Python: Data cleaning

Предварительная обработка данных (Preprocessing of Data)

Preprocessing of Data это этап Data Mining, который включает в себя трансформацию исходных данных в доступный для понимания формат.

 

Изменение регистра:

Одна из простейших форм предварительной обработки текста — перевод всех символов текста в нижний регистр.

Источник изображения

 

Код на Python: перевод в нижний регистр

 

Токенизация:

Токенизация — процесс разбиения текстового документа на отдельные слова, которые называются токенами.

Код на Python: Токенизация

Как можно видеть выше, предложение разбито на слова (токены).

Natural language toolkit (библиотека NLTK) — популярный открытый пакет библиотек, используемых для разного рода задач NLP. В этой статье мы будем использовать библиотеку NLTK для всех этапов Text Preprocessing.

Вы можете скачать библиотеку NLTK с помощью pip:

!pip install nltk

 

Удаление стоп-слов:

Стоп-слова — это часто используемые слова, которые не вносят никакой дополнительной информации в текст. Слова типа «the», «is», «a» не несут никакой ценности и только добавляют шум в данные.

В билиотеке NLTK есть встроенный список стоп-слов, который можно использовать, чтобы удалить стоп-слова из текста. Однако это не универсальный список стоп-слов для любой задачи, мы также можем создать свой собствпнный набор стоп-слов в зависимости от сферы.

Код на Python: Удаление стоп-слов

В библиотеке NLTK есть заранее заданный список стоп-слов. Мы можем добавитьили удалить стоп-слова из этого списка или использовать его в зависимости от конкретной задачи.

 

Стеммизация:

Стеммизация — процесс приведения слова к его корню/основе.

Он приводит различные вариации слова (например, «help», «helping», «helped», «helpful») к его начальной форме (например, «help»), удаляет все придатки слов (приставка, суффикс, окончание) и оставляет только основу слова.

Источник изображения

 

Код на Python: Стеммизация

Корень слова может быть существующим в языке словом, а может и не быть им. Например, «mov» корень слова «movie», «emot» корень слова «emotion».

 

Лемматизация:

Лемматизация похожа на стеммизацию в том, что она приводит слово к его начальной форме, но с одним отличием: в данном случае корень слова будет существующим в языке словом. Например, слово «caring» прекратится в «care», а не «car», как в стеммизаци.

Код на Python: Лемматизация

WordNet — это база существующих в английском языке слов. Лемматизатор из NLTK WordNetLemmatizer() использует слова из WordNet.

 

N-граммы:

Источник изображения

N-граммы — это комбинации из нескольких слов, использующихся вместе, N-граммы, где N=1 называются униграммами (unigrams). Подобным же образом, биграммы (N=2), триграммы (N=3) и дальше можно продолдать аналогичным способом.

N-граммы могут использоваться, когда нам нужно сохранить какую-то последовательность данных, например, какое слово чаще следует за заданным словом. Униграммы не содержат никкой последовательности данных, так как каждое слово берется индивидуально.

Векторизация текстовых данных (Text Data Vectorization):

Процесс конвертации текста в числа называется векторизацией. Теперь после Text Preprocessing, нам нужно представить текст в числовом виде, то есть закодировать текстовые данные в виде чисел, которые в дальнейшем могут использоваться в алгоритмах.

 

«Мешок слов» (Bag of words (BOW)):

Это одна из самых простых методик векторизации текста. В логике BOW два предложения могут называться одинаковыми, если содержат один и тот же набор слов.

Рассмотрим два предложения:

Источник изображения

В задачах NLP, каждое текстовое предложение называется документом, а несколько таких документов называют корпусом текстов.

BOW создает словарь уникальных d слов в корпусе (собрание всех токенов в данных). Например, корпус на изображении выше состоит из всех слов предложений S1 и S2.

Теперь мы можем создать таблицу, где столбцы соответствуют входящим в корпус уникальным d словам, а строки предложениям (документам). Мы устанавливаем значение 1, если слово в предложении есть, и 0, если его там нет.

Источник изображения

Это позволит создать  dxn  матрицу, где d это общее число уникальных токенов в корпусе и  n равно числу документов. В примере выше матрица будет иметь форму 11×2.

 

TF-IDF:

Источник изображения

Это расшифровывается как Term Frequency (TF)-Inverse Document Frequency (IDF).

 
Частота слова (Term Frequency):

Term Frequency высчитывает вероятность найти какое-то слово в документе. Ну, например, мы хотим узнать, какова вероятрность найти слово wi в документе dj.

Term Frequency (wi, dj) =

Количество раз, которое wi встречается в dj / Общее число слов в dj

 
Обратная частота документа (Inverse Document Frequency):

В логике IDF, если слово встречается во всех документах, оно не очень полезно. Так определяется, насколько уникально слово во всем корпусе.

IDF(wi, Dc) = log(N/ni)

Здесь Dc = Все документы в корпусе,

N = Общее число документов,

ni = документы, которые содержат слово (wi).

Если wi встречается в корпусе часто, значение IDF снижается.

Если wi используется не часто, то ni снижается и вследствие этого значение IDF возрастает.

TF(wi, dj) * IDF(wi, Dc)

TF-IDF — умножение значений TF и IDF. Больший вес получат слова, которые встречаются в документе чаще, чем во всем остальном корпусе.

Sentiment Analysis: Обзоры фильмов на IMDb

Источник изображения

Краткая информация

Набор данных содержит коллекцию из 50 000 рецензий на сайте IMDb, с равным количеством положительных и отрицательных рецензий. Задача — предсказать полярность (положительную или отрицательную) данных отзывов (тексты).

1. Загрузка и исследование данных

Набор данных IMDB можно скачать здесь.

Обзор набора данных:

Положительные рецензии отмечены 1, а отрицательные 0.

Пример положительной рецензии:

 
Пример отрицательной рецензии:

 

2. Data Preprocessing

На этом этапе мы совершаем все шаги очистки и предварительной обработки данных тем методом, который был описан выше. Мы используем лемматизацию, а не стеммизацию, потому что в процессе тестирования результатов обоих случаев лемматизация дает лучшие результаты, чем стеммизация.

Использовать ли стеммизацию или лемматизацию или и то, и другое — зависит от поставленной задачи, так что нам стоит попробовать и решить, какой способ сработает лучше для данной задачи.

Добавляем новую колонку preprocessed_review в dataframe, применяя data_preprocessing() ко всем рецензиям.

 

3. Vectorizing Text (рецензии)

Разделяем набор данных на train и test (70–30):

Используем train_test_split из sklearn, чтобы разделить данные на train и test. Здесь используем параметр stratify,чтобы иметь равную пропорцию классов в train и test.

BOW

Здесь мы использовали min_df=10, так как нам нужны были только те слова, которые появляются как минимум 10 раз во всем корпусе.

TF-IDF

 

4. Создание классификаторов ML

Наивный байесовский классификатор (Naive Bayes) с рецензиями, закодированными BOW

Naive Bayes c BOW выдает точность 84.6%. Попробуем с TF-IDF.

 
Наивный байесовский классификатор (Naive Bayes) с рецензиями, закодированными TF-IDF

TF-IDF выдает результат немного лучше (85.3%), чем BOW. Теперь давайте попробуем TF-IDF с простой линеарной моделью, Logistic Regression.

 
Logistic Regression с рецензиями, закодированными TF-IDF

Logistic Regression с рецензиями, закодированными TF-IDF, выдает результат лучше, чем наивный байемовский — точность 88.0%.

Построение матрицы неточностей даст нам информацию о том, сколько точек данных верны и сколько неверны, классифицированную с помощью модели.

Из 7500 отрицательных рецензий 6515 были верно классифицированы как отрицательные и 985 были неверно классифицированы как положительные. Из 7500 положительных рацензий 6696 были верно классифицированы как положительные, и 804 неверно классифицированы как отрицательные.

Итоги

Мы узнали основные задачи NLP и создали простые модели ML для сентимент-анализа рецензий на фильмы. В дальнейшем усоверешенствований можно добиться с помощью Word Embedding с моделями Deep Learning.

Благодарю за внимание! Полный код смотрите здесь. 

 

Ссылки:

 

Источник

12 примеров НЛП: как используется обработка естественного языка | Чудо-поток

Мы написали обновленную версию этого блога с еще большим количеством примеров. Обязательно загляните в новый блог здесь!

Обработка естественного языка и ИИ. Технология ИИ для предприятий становится все более популярной темой и практически неизбежна для большинства компаний. Он может автоматизировать поддержку, повысить качество обслуживания клиентов и проанализировать отзывы. Хотя внедрение технологии искусственного интеллекта может показаться пугающим, это не обязательно.

Обработка естественного языка (NLP) — это форма ИИ, которую легко понять и начать использовать. Это также может во многом помочь продвинуть ваш бизнес вперед.

Эта статья расскажет об основах НЛП, чтобы помочь вам начать работу.

Прочтите или воспользуйтесь ссылками ниже, чтобы «перейти» к каждому разделу:

Что такое обработка естественного языка?

Обработка естественного языка (NLP) описывает взаимодействие между человеческим языком и компьютером. Это технология, которую многие люди используют ежедневно, она существует уже много лет, но часто считается само собой разумеющимся.

Вот несколько примеров НЛП, которые люди используют каждый день:

  • Проверка орфографии
  • Автозаполнение
  • Голосовые текстовые сообщения
  • Спам-фильтры
  • Ключевые слова, связанные с поисковыми системами
  • Siri, Alexa или Google Assistant

В любом случае компьютер может идентифицировать соответствующее слово, фразу или ответ, используя контекстные подсказки, так же, как это сделал бы любой человек. Концептуально это довольно простая технология.

НЛП превосходит людей по количеству языка и данных, которые оно может обрабатывать. Таким образом, его потенциальное использование выходит за рамки приведенных выше примеров и позволяет решать задачи, на выполнение которых в противном случае у сотрудников потребовались бы месяцы или годы.

Почему предприятия должны использовать обработку естественного языка?

Взаимодействие с людьми — движущая сила большинства предприятий. Будь то обычный магазин с товарными запасами или крупный SaaS-бренд с сотнями сотрудников, клиентам и компаниям необходимо общаться до, во время и после продажи.

Это означает, что у НЛП есть бесчисленные возможности вмешаться и улучшить работу компании. Это особенно верно в отношении крупных предприятий, которые хотят отслеживать, упрощать и анализировать тысячи взаимодействий с клиентами, чтобы улучшить свой продукт или услугу.

Для сотрудников было бы практически невозможно регистрировать и интерпретировать все эти данные самостоятельно, но технологии, интегрированные с NLP, могут помочь сделать все это и даже больше.

Как предприятия могут использовать НЛП?

Существует множество различных приложений для НЛП.Ниже приведены лишь три различных способа, которыми компании могут использовать эту технологию в своем бизнесе.

Улучшение взаимодействия с пользователем

NLP можно интегрировать с веб-сайтом, чтобы сделать его более удобным для пользователя. Такие функции, как проверка орфографии, автозаполнение и автокоррекция в панелях поиска, могут упростить пользователям поиск нужной информации, что, в свою очередь, не позволит им уйти с вашего сайта.

Автоматическая поддержка

В чат-ботах нет ничего нового, но достижения в области НЛП повысили их полезность до такой степени, что живые агенты больше не должны быть первой точкой связи для некоторых клиентов.Некоторые функции чат-ботов включают в себя возможность помогать пользователям перемещаться по статьям поддержки и базам знаний, заказывать продукты или услуги и управлять учетными записями.

Мониторинг и анализ обратной связи

В социальных сетях, обзорах, контактных формах, обращениях в службу поддержки и других формах связи клиенты постоянно оставляют отзывы о продукте или услуге. НЛП может помочь собрать и понять всю эту обратную связь, превратив ее в практическую информацию, которая может помочь улучшить компанию.

Вкладка «Полезные обзоры»

Wonderflow внутри Wonderboard особенно полезна для анализа общей обратной связи:

Здесь вы можете просмотреть самые полезные отзывы. Затем Wonderflow выделит положительные и отрицательные утверждения в этих обзорах, чтобы вы могли быстро выделить эту информацию и оценить, как каждый из ваших продуктов или услуг воспринимается клиентами.

Недавно Wonderflow была выбрана независимой исследовательской фирмой Aragon Research как одна из компаний, оказывающих влияние на аналитику документов.Ознакомьтесь с отчетом здесь.

Примеры обработки естественного языка для предприятий

Ниже приведены несколько реальных примеров использования НЛП, обсужденных выше. Некоторые из этих примеров относятся к компаниям, которые использовали эту технологию для улучшения своих продуктов или услуг, а некоторые — к фактическим поставщикам программного обеспечения, которые делают эту технологию доступной для предприятий.

1. Проверка орфографии формы

Источник

Проверка правописания — это форма НЛП, к которой все уже привыкли.Он ненавязчивый, простой в использовании и может уменьшить массу головной боли как для пользователей, так и для агентов.

Не каждый пользователь будет тратить время на составление грамматически совершенного предложения при обращении в службу поддержки или к торговому агенту. Salesforce знает это, поэтому они позаботились о том, чтобы в их контактной форме была предусмотрена функция проверки орфографии, чтобы облегчить жизнь пользователям.

Это также облегчает жизнь их сотрудников. Сообщения клиентов, содержащие ошибки, могут быть трудными для интерпретации, что приводит к недопониманию и разочарованию всех участников.

2. Автозаполнение поиска

Источник

Автозаполнение поиска — это еще один тип НЛП, который многие люди используют ежедневно и почти ожидают, когда что-то ищут. Это во многом благодаря пионерам, таким как Google, которые годами использовали эту функцию в своей поисковой системе. Эта функция так же полезна на веб-сайтах компаний.

Salesforce интегрировала эту функцию в свою личную поисковую систему. Пользователи, заинтересованные в получении дополнительных сведений о теме или функции продукта Salesforce, могут знать одно ключевое слово, но, возможно, не весь термин.

Автозаполнение поиска поможет им найти нужную информацию и быстрее ответить на свои вопросы. Это помогает снизить вероятность того, что они потеряют интерес и уйдут с сайта.

3. Поиск автозамены

Источник

При наборе текста легко ошибиться и не осознавать этого. Если поисковая система на веб-сайте не обнаруживает эту ошибку и вместо этого не показывает результатов, то потенциальные покупатели могут подумать, что у вас нет информации или ответов, которые они ищут, и вместо этого могут обратиться к конкуренту.

HubSpot снижает вероятность этого, оснащая поисковую систему своего сайта функцией автозамены. Он выявляет ошибки и отображает соответствующие результаты, не требуя от пользователей дополнительных действий, как при поиске в Google.

4. Умный поиск

Источник

Благодаря NLP автозаполнение — не единственный способ обновить поиск на сайте.

Klevu — это система интеллектуального поиска, работающая на основе NLP, но также самообучающаяся.Лучше всего он работает для электронной коммерции, потому что он учится, наблюдая за тем, как покупатели взаимодействуют с поиском в магазине.

В дополнение к базовой функции поиска с автозаполнением, Klevu автоматически добавляет контекстуально релевантные синонимы в каталог, что может увеличить глубину результатов поиска в 3 раза. Программное обеспечение также обеспечивает персонализированный поиск, предлагая продукты, с которыми клиенты ранее взаимодействовали, или продукты, которые находятся в тренде.

5. Машинный перевод

Источник

Глобализация расширяет или открывает рынки, которые ранее могли быть недоступны для компаний, тем самым увеличивая возможности для роста.Это определенно захватывающая перспектива, но менее интересная заключается в том, как правильно обслуживать и общаться с клиентами и потенциальными покупателями из разных стран.

Lilt — это инструмент для перевода, который интегрируется с другими платформами, такими как вспомогательное программное обеспечение, такое как Zendesk (который является одним из их клиентов), чтобы сделать общение через языковые барьеры быстрее и дешевле, чем с одним переводчиком-человеком.

Инструмент, который был разработан двумя бывшими инженерами, работавшими над Google Translate, не полностью автоматизирован, но на самом деле работает с переводчиком-человеком и учится у него, чтобы со временем стать более эффективным.

6. Боты-мессенджеры

Источник

Facebook Messenger — это один из новейших способов связи предприятий с клиентами через социальные сети. NLP позволяет расширить функциональность этих ботов, чтобы они не просто рекламировали продукт или услугу, а могли действительно взаимодействовать с клиентами и обеспечивать уникальный опыт.

В 2015 году Uber запустил своего бота Facebook Messenger. Бот позволяет пользователям быстро и легко заказать автомобиль из приложения Facebook Messenger.Это особенно полезно, если у клиента есть доступ к адресу назначения из приложения, как показано здесь:

Источник

Чем проще пользоваться услугой, тем больше вероятность, что люди ею воспользуются. Uber воспользовался этим, когда разработал этого бота и создал для себя новый источник дохода.

7. Виртуальные помощники

Источник

В 2016 году Mastercard запустила собственного чат-бота, совместимого с Facebook Messenger, но по сравнению с ботом Uber бот Mastercard больше похож на виртуального помощника.

Бот Mastercard почти так же хорош, как и кассир в банке. Он может выполнять множество задач для пользователей, например помогать им получить представление об их привычках тратить с высоты птичьего полета или сообщать им, какие преимущества доступны им с помощью их карты.

Лучше всего то, что это избавляет клиентов от необходимости учиться использовать отдельное приложение, а также может сократить расходы Mastercard на разработку другого приложения.

8. Поддержка базы знаний

Источник

К настоящему времени многие люди видели окна чата на веб-сайтах, где они могут немедленно попросить агента о помощи или дополнительной информации.Чат-боты могут выполнять ту же функцию, что и живой агент, освобождая их для решения задач более высокого уровня и более сложных обращений в службу поддержки.

Zendesk предлагает программное обеспечение Answer Bot для предприятий и, конечно же, использует эту технологию на своем собственном веб-сайте, чтобы отвечать на вопросы потенциальных покупателей. Answer Bot помогает пользователям ориентироваться в существующей базе знаний, указывая им на нужную статью или серию статей, которые лучше всего отвечают на их вопросы.

Если пользователь по-прежнему не удовлетворен, Answer Bot запустит запрос поддержки для пользователя и свяжется с действующим агентом.

9. Автоматизация обслуживания клиентов

Источник

Боты полезны для помощи клиентам в навигации по базам знаний, но можно ли их использовать для обработки уникальных обращений в службу поддержки? С НЛП ответ: да

.

Автоматизация обслуживания клиентов, предоставляемая DigitalGenius, немного отличается от Answer Bot, предоставляемого Zendesk. DigitalGenius использует собственный механизм НЛП и искусственного интеллекта, чтобы генерировать ответы на входящие вопросы и автоматически заполнять данные об обращениях.

Те, у которых рейтинг достоверности выше определенного порога, как показано выше, автоматизируются, а остальные направляются агенту-человеку. DigitalGenius учится на каждом взаимодействии, делая будущие обращения в службу поддержки еще более эффективными. Такая автоматическая поддержка не только экономит деньги предприятиям. Это также ускоряет оказание помощи клиентам, которые уходят, чувствуя себя более довольными.

10. Алекса Навыки

Источник

Alexa работает аналогично вышеперечисленным мессенджерам, за исключением почти неограниченного количества возможных навыков.Компании могут воспользоваться этим, развивая свои собственные навыки, которые интегрируются с их продуктами или получают доступ к своим облачным сервисам.

На сайте разработчиков Amazon подробно рассказывается о том, как компании могут потенциально получить прибыль от развития навыков работы с Alexa, в первую очередь от приобретения навыков для премиального контента. Гал Шенар, разработчик навыков Alexa, утверждает, что коэффициент конверсии одного из своих навыков составляет 34%, что выше, чем он ожидал увидеть на мобильных устройствах.

Amazon также финансово вознаграждает разработчиков, которые развивают наиболее привлекательные навыки, ежемесячно раздавая деньги тем, кто обеспечил наибольшее взаимодействие с клиентами в каждой подходящей категории.

11. Обзорная аналитика

Источник

Технология

NLP не просто улучшает непосредственный опыт клиентов или потенциальных покупателей. Это также может улучшить опыт компании. Один из лучших способов сделать это — проанализировать данные о частоте ключевых слов и тенденциях, которые могут указать на общее отношение потребителей к бренду.

Несмотря на название, IBM SPSS Text Analytics for Surveys может анализировать практически любой произвольный текст, а не только опросы.Один рецензент решил попробовать, введя файлы из своего архива в Twitter. Программное обеспечение также может переводить текст одним щелчком мыши, поэтому никакая обратная связь не остается без анализа.

Хотя программное обеспечение имеет несколько функций, которые могут быть полезны предприятиям, интерфейс не совсем удобен для пользователя. Есть и другие варианты, на которые стоит обратить внимание, как показано ниже.

12. Мониторинг социальных сетей

Источник

Знание того, что клиенты говорят о бренде в социальных сетях, может помочь компаниям продолжать предлагать отличный продукт, услугу или обслуживание клиентов.НЛП упрощает мониторинг и реагирование на эту обратную связь.

Sprout Social — это инструмент для прослушивания социальных сетей, который отслеживает и анализирует активность в социальных сетях, связанных с брендом. В отличие от IBM SPSS Text Analytics for Surveys, Sprout Social имеет более удобный интерфейс и не требует ввода большого количества файлов для запуска.

В приведенном выше примере программное обеспечение отслеживает упоминания в Твиттере воображаемой Sprout Coffee Co. В этом случае имеется большое количество упоминаний с хэштегом #sproutfail, что может быть знаком руководству, что что-то нужно изменить.Однако также много упоминаний о «миндале», что может указывать на то, что новые продукты с миндальным молоком или сиропом могут понравиться покупателям Sprout.

Маркетинговая стратегия

Еще один способ, которым NLP может развивать бизнес, — это улучшение их стратегии контент-маркетинга.

MarketMuse — один из таких инструментов контент-стратегии, основанный на NLP и AI. Программа анализирует статьи по мере их написания, давая авторам подробные инструкции, чтобы обеспечить максимально возможное качество контента.

MarketMuse также анализирует текущие события и недавние истории, позволяя пользователям мгновенно создавать контент, который актуален и занимает место в Новостях Google.

13. Описательная аналитика

Источник

Накопление отзывов о продуктах и ​​услугах дает много преимуществ. Отзывы могут повысить доверие потенциальных покупателей и даже использоваться для активации рейтингов продавцов в Google Рекламе. Однако есть еще одно преимущество обзоров, которым вы должны воспользоваться, если вы еще этого не сделали.

Инструменты

, оснащенные НЛП, такие как Wonderflow’s Wonderboard, могут собирать отзывы клиентов и анализировать их, показывая, как часто упоминаются различные плюсы и минусы.

Однако Wonderboard не просто извлекает эту информацию из обзоров. Он может собирать данные из опросов, внутренние данные и многое другое. Это дает руководителям компании четкое представление о лучших качествах продукта и о том, над какими функциями продукта может потребоваться дополнительная работа. Более подробную информацию о нашем решении можно найти здесь или заказать демонстрацию с помощью кнопки в правом верхнем углу экрана!

14.Автоматическая статистика

Источник

Технология НЛП продолжает развиваться и разрабатываться для новых целей. Следующим шагом будет автоматическая аналитика.

Эта функция не просто анализирует или идентифицирует тенденции в коллекции произвольного текста, но может фактически формулировать идеи о производительности продукта или услуги, которые представлены и читаются в форме предложений. Это ценная технология, к которой нужно вернуться, когда придет время разработать последнюю версию продукта.

Wonderboard делает автоматические выводы с помощью генерации естественного языка. Другими словами, он составляет предложения, моделируя человеческую речь, при этом оставаясь беспристрастным. Итак, если у кого-то возникнет такой вопрос, как «Какая тема для этого продукта является наиболее негативной и актуальна ли она?» Wonderboard может предложить ответ, опираясь на ранее накопленные данные для анализа.

Используйте обработку естественного языка для развития вашего бизнеса

Автоматизация может помочь быстро преобразовать ваш бизнес.Когда вы улучшаете навигацию по сайту, упрощаете использование продуктов с помощью чат-ботов или разрабатываете услуги, анализируя отзывы, ваш бизнес будет расти.

НЛП позволяет выполнять все эти задачи, а также некоторые другие. Правильное программное обеспечение может помочь вам воспользоваться преимуществами этой захватывающей и развивающейся технологии. В качестве универсального решения узнайте, как наша технология на основе искусственного интеллекта помогает многим предприятиям стать более клиентоориентированными.

5 примеров обработки естественного языка: как используется NLP

Компьютеры, как правило, не предназначены для того, чтобы понимать нас, когда мы общаемся, как это делают люди.Они говорят кодом, используя длинные строки из единиц и нулей.

Мы, с другой стороны, более сложны, говорим цветно и используем такие вещи, как фразеология или сарказм.

Кажется, что человек и компьютер не могут по-настоящему соединиться. Но, как известно, они уже есть. Компьютеры ежедневно реагируют на наши поисковые запросы, даже на голосовые команды.

Что такое обработка естественного языка

Natural Language Processing (NLP) — это решение на основе искусственного интеллекта, которое помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком.

НЛП, часто называемое «текстовой аналитикой», помогает машинам понимать, что люди пишут или говорят в разговоре.

Используя такие методы, как преобразование звука в текст, он дает компьютерам возможность понимать человеческую речь. Это также позволяет нам осуществлять голосовое управление различными системами.

Если вы продаете продукты или создаете контент в сети, NLP, как его называют знающие люди, может помочь согласовать намерения потребителей с контентом вашего сайта.

Почему НЛП так важно

В мире Google и других поисковых систем покупатели ожидают ввести фразу или даже идею в окно поиска и мгновенно увидеть персонализированные рекомендации, которые явно соответствуют тому, что они хотели открыть.

Это взаимодействие, которое должно происходить с такой скоростью и масштабом, которые не могут быть поддержаны одними людьми.

Вместо этого, чтобы поступать правильно со стороны потребителей, необходимы машины и системы, которые постоянно учатся и развивают понимание того, что имеют в виду клиенты и чего они хотят.

Это тяжелая задача для тех, кто продает продукты или предоставляет контент в Интернете, но обработка естественного языка может значительно облегчить нагрузку. Компании хотят предоставлять услуги каждый раз и для каждого пользователя, поэтому НЛП просто необходимо.

NLP — это мощный инструмент машинного обучения, используемый для расширения человеческих коллективов и помощи организациям в достижении конкурентного преимущества.

Это обучающая машина, которая создает незабываемые и приятные впечатления от покупателя, понимая:

Спрос: Намерения потребителя, включая синонимы, которые они используют.
Предложение: Продукты и все способы их описания розничными продавцами.

[Факт 1] Плохой поиск по сайту = потерянные клиенты

Потребители описывают продукты практически бесконечным числом способов, а предприятия электронной коммерции — нет. У них есть фиксированный список описаний своих онлайн-продуктов и услуг.

Итак, уже существует несоответствие между тем, что ищет покупатель, и тем, что поймет веб-сайт продавца. Это влияет на качество поиска, что имеет последствия.

По словам директора по информационным технологиям, плохие возможности поиска и навигации по сайту входят в число 12 основных причин, по которым сайты электронной коммерции могут потерять клиентов.

Неэффективный поиск тратит драгоценное время людей, и время действительно имеет существенное значение. Первые 10 секунд посещения страницы на самом деле имеют решающее значение для принятия пользователем решения остаться или уйти.

Проще говоря, поиск должен иметь смысл. Это должно быть быстро и легко, иначе посетители не останутся без дела, а это означает потерю продаж.


[Факт 2] Чтобы добывать груды данных, нужна помощь

Компании все больше узнают о потребностях, отношении, предпочтениях и разочарованиях клиентов в Интернете.

Это создает объем неструктурированных данных, который увеличивается каждую секунду по мере сбора тонны информации из поисковых запросов клиентов, отзывов, отслеживания и других источников.

Тысячи и тысячи электронных писем, бесплатные текстовые формы, сообщения в социальных сетях, обзоры продуктов и многое другое. Это большой текст, и он очень запутанный.

Его тоже в изобилии. В исследовании IDC отмечается, что неструктурированные данные составляют до 90 процентов всей цифровой информации.

Что еще хуже, эти данные не вписываются в предопределенные модели данных, которые понимают машины.

Все это представляет собой серьезную проблему для розничных торговцев — и в то же время огромные возможности. Если розничные продавцы смогут разобраться во всех этих данных, они смогут извлечь много полезной информации.

Методы обработки естественного языка

НЛП распознает, понимает, резюмирует и анализирует то, что мы говорим, чтобы понять нас. Он делает это так хорошо, что может даже помочь в создании самого языка.

Алгоритмы, синтаксис и семантика помогают придать НЛП невероятные способности к дедукции.

НЛП использует алгоритмы для преобразования наших разнообразных, неструктурированных, спонтанных коммуникаций во что-то, что компьютер может понять и действовать.

На основе этих алгоритмов НЛП расшифровывает значение из беспорядка предложений, разговорных выражений, жаргона и жаргона, которые мы используем каждый день.

Он выбирает то, что мы говорим, и превращает это в базу данных, преобразовывая нашу речь в форму, понятную компьютерам.

Два ключевых элемента НЛП — это синтаксический и семантический анализ.Синтаксис определяет, что говорится, а семантика немного глубже вникает в смысл.

Синтаксис разделяет предложения и использует такие вещи, как правила грамматики или базовые словоформы для понимания фрагмента текста.

Семантика извлекает смысл, стоящий за всем этим. Используя контекст и такие инструменты, как категоризация слов или базы данных значений, он обнаруживает намерение использования определенных слов. Вот как компьютер узнает, что на самом деле кто-то имеет в виду.

5 повседневных примеров обработки естественного языка

Большинство из нас уже контактировало с НЛП.Мы подключаемся к нему через панели поиска веб-сайта, виртуальных помощников, таких как Alexa или Siri, на нашем смартфоне.

Почтовый ящик для спама или расшифровки стенограмм голосовой почты на нашем телефоне, даже Google Translate — все это примеры технологии НЛП в действии. В бизнесе много приложений.

Ключом к тому, чтобы каждый поиск был плодотворным, является включение семантического поиска.

Семантический поиск настолько интуитивно понятен, что покупатели по-прежнему получают релевантные результаты даже при использовании собственных уникальных поисковых запросов.

Он определяет намерение и выявляет продукты, расположенные глубоко в онлайн-каталоге продуктов продавца, в течение срока аренды.

И цифры доказывают, что это работает.

Сайты с семантической панелью поиска исторически имели процент отказов на много процентных пунктов ниже, чем сайты с текстовой панелью поиска.

Прочтите следующее: Семантический поиск за 5 минут [Блог]

Прослушивание информации в социальных сетях стало важным инструментом для интернет-магазинов, которые хотят понимать покупательские привычки потребителей, прогнозировать спрос на продукты или отслеживать тенденции для целевых маркетинговых сообщений.

Исследование показало, что подготовка ко Дню благодарения включает в себя множество стрессовых и даже неловких взаимодействий с членами семьи.

Зная это, маркетологи, упоминающие в своих сообщениях о снятии стресса во время праздников, могут найти отклик у клиентов в преддверии Дня благодарения.

Источник

Анализ также показал, что люди много говорят о похмелье в Черную пятницу.

Фармацевтические бренды могут использовать эту тенденцию, упоминая «лекарства от похмелья» в тот день в своих маркетинговых кампаниях в реальном времени.

NLP помогает выделить модные слова, чтобы маркетинговые сообщения могли быть адресованы более эффективно.

Прочтите следующее: Лучшие практики электронной коммерции от Holiday Trends [Блог]

  • Поиск пробелов в качестве обслуживания

Управление клиентским опытом — еще одно важное приложение НЛП, как онлайн, так и офлайн.

Американский розничный торговец Nordstrom проанализировал объемы отзывов клиентов, полученные с помощью форм комментариев, опросов и карточек с благодарностями.

Они обнаружили, что многие покупатели в магазинах изо всех сил пытались найти своих продавцов, поскольку носили обычную одежду, а не униформу.

Nordstrom решила эту проблему, раздав своим продавцам фирменные ярко окрашенные футболки, после чего покупатели могли легко их заметить.

В течение двух дней после пилотного проекта компания увидела 30-балльный скачок в ключевой метрике, которую они используют для оценки эффективности торгового персонала.

Одно небольшое наблюдение может иметь огромное влияние.Такие технологии, как НЛП, выявляют такую ​​информацию.

Смотрите дальше: Управляемые продажи в бутиках из кирпича и раствора — с Desigual [Веб-семинар]

  • Рекомендации по умным продуктам

Упрощение покупок для клиентов может принести много пользы.

предприятий электронной коммерции, которые поддерживают интерес посетителей, могут значительно сократить количество отказов и даже стимулировать импульсивные покупки, направляя людей на продукты, которые точно соответствуют их потребностям.

Одно исследование даже показало, что рекомендации по продуктам составляют треть доходов от электронной коммерции и улучшают показатели отказа от корзины на 4,35%.

В прошлом Amazon заявляла, что 35% их доходов поступает от покупок, которые клиенты нашли с помощью рекомендаций.

Ключевые слова традиционно были в центре внимания рекомендаций по продукту, но современные розничные продавцы добавляют контекст, данные предыдущего поиска и другие факторы, чтобы обогатить предложения продуктов.

Инсайты, предоставленные NLP, помогают розничным продавцам составлять эти комбинации и получать правильные рекомендации.

Помимо понимания того, что мы на самом деле имеем в виду, машины готовы решать саму задачу совершения покупок.

Gartner ранее предсказывала резкое увеличение числа мобильных цифровых помощников, совершающих покупки в Интернете.

Благодаря автоматическому заполнению адреса и информации о кредитной карте эти машины могут перейти к рутинным задачам, таким как покупка канцелярских товаров.

На самом деле, в обозримом будущем вполне возможно, что значительный процент посетителей онлайн-сайтов будет машинами, поскольку люди передают обычные задачи по покупкам.

Преимущества NLP для электронной коммерции

Учитывая характер розничного бизнеса, ориентированный на клиентов, неудивительно, что как отрасль он обеспечивает почти треть роста рынка текстовой аналитики.

компаний электронной коммерции пользуются большой базой клиентов, которые все чаще выражают свои потребности, отношения, предпочтения и разочарования в Интернете.

Ежедневно миллиарды людей ищут информацию через веб-сайты, поисковые системы или онлайн-форумы. Они ищут по первой фразе, которая приходит на ум, и ожидают мгновенных релевантных результатов.

Прочтите следующее: Поиск по-настоящему интерактивного потребительского опыта начинается с поиска [Блог]

То же самое относится и к онлайн-покупателям.

Такие термины, как «шапка-бини с напуском», совершенно чужды компьютеру. Однако покупатель рассчитывает легко найти этот товар на веб-сайте модного магазина.

НЛП превращает подобные поисковые запросы в нечто, что компьютер может понять, чтобы он мог соответствующим образом обрабатывать информацию.

Объемы данных IoT постоянно собираются с устройств и интерфейсов, которые мы используем каждый день.

По оценкам, только

Walmart каждый час собирает более 2,5 петабайт данных в результате взаимодействия с клиентами.

После того, как все эти данные собраны, аспекты искусственного интеллекта НЛП используются для их обработки и осмысления.

Более того, эта информация обрабатывается с масштабом и скоростью, которые намного превышают таковые у обычного человека.

NLP расширяет возможности человеческих команд, давая организациям конкурентное преимущество с быстрым мышлением.

Машины, способные понимать язык, также могут научить нас кое-чему и даже предложить розничным продавцам свежий взгляд на вещи.

Организации, которая много лет занималась костюмным бизнесом, пришла идея организовать все «костюмы Дракулы» на отдельной странице категории на основе предложенного алгоритма.

Прочтите следующее: Плавание в данных: превратите свои данные в прибыль и привлекайте новых клиентов на всю жизнь [Руководство]

  • Расширенное обслуживание клиентов

NLP можно использовать для анализа голосовых вызовов и электронных писем клиентов и определения таких вещей, как общая степень удовлетворенности клиентов.

Представьте себе, что вы можете извлекать информацию из тона клиентов или использования слов? Представьте, что это может показать вам, как они относятся к компании?

Путем отслеживания тенденций и кластеризации НЛП может дать эту силу, выявляя закономерности и показывая области, требующие немедленного внимания.

Это ценная информация для продавцов, которые хотят отслеживать степень удовлетворенности или видеть, какие проблемы возникают чаще всего.

Такую информацию можно использовать для целевого обслуживания клиентов и повышения лояльности клиентов.

Заключение: НЛП как драйвер производительности завтрашнего дня

Поскольку компании все чаще разговаривают с клиентами на их родном языке, спрос на решения НЛП растет.

Ранее в рыночном отчете отмечалось, что рынок НЛП будет расти со скоростью 18 в год.4% и к 2020 году будет стоить 13,4 млрд долларов.

Неудивительно, что он так быстро растет. В инновационном мире, наполненном покупателями, которым не хватает времени, розничные торговцы должны делать все правильно — с первого раза. НЛП доставляет их туда.

Двусторонняя коммуникация всегда была ключом к эффективным продажам. Несмотря на то, что все мы перешли на цифровые технологии, это не изменилось.

Эта увлекательная технология помогает поддерживать бизнес в сознании клиентов — и ее эволюция только начинается.

В нашем флагманском продукте brX используется обработка естественного языка и семантическое понимание, чтобы узнать намерения ваших клиентов и создать соответствующие предложения для пользователей, соответствующие обычно используемому языку.В сочетании с автоматическим предложением, оптимизированным для дохода, Bloomreach предлагает самый быстрый способ найти продукты, которые ищут ваши клиенты.

Если вам интересно, как наши клиенты используют brX, ознакомьтесь с историями успеха клиентов здесь:

Классификация текста в обработке естественного языка

Эта статья была опубликована в рамках Блогатона по Data Science.

Введение

Искусственный интеллект был значительно улучшен без необходимости изменения базовой аппаратной инфраструктуры.Пользователи могут запускать программу искусственного интеллекта в старой компьютерной системе. С другой стороны, положительный эффект машинного обучения неограничен. Обработка естественного языка — это одна из ветвей искусственного интеллекта, которая дает машинам возможность читать, понимать и передавать смысл. НЛП было очень успешным в здравоохранении, СМИ, финансах и человеческих ресурсах.

Самая распространенная форма неструктурированных данных — это тексты и выступления. Извлечь полезную информацию много, но сложно. В противном случае поиск информации займет много времени.Письменный текст и речь содержат богатую информацию. Это потому, что мы, как разумные существа, используем письмо и речь в качестве основной формы общения. NLP может анализировать эти данные за нас и выполнять такие задачи, как анализ настроений, когнитивный помощник, фильтрация диапазона, выявление фейковых новостей и языковой перевод в реальном времени.

Эта статья расскажет, как НЛП понимает тексты или части речи. В основном мы сосредоточимся на анализе слов и последовательностей. Он включает в себя классификацию текста, векторную семантику и встраивание слов, вероятностную языковую модель, последовательную маркировку и реорганизацию речи.Мы рассмотрим анализ настроений пятидесяти тысяч рецензентов IMDB. Наша цель — определить, является ли отзыв, опубликованный на сайте IMDB его пользователем, положительным или отрицательным.

Список тем

  • Понять, что такое НЛП?
  • Для чего используется НЛП?
  • слов и последовательностей
    • Классификация текста
    • Векторная семантика и встраивание слов
    • Вероятностные языковые модели
    • Маркировка последовательности
  • Парсеры
  • Семантика
  • Выполнение семантического анализа по проекту данных обзора фильмов IMDB

NLP широко используется в автомобилях, смартфонах, динамиках, компьютерах, веб-сайтах и ​​т. Д.Google Translator использует машинный переводчик, который является системой НЛП. Google Translator писал и говорил на естественном языке, чтобы пользователи хотели переводить на другой язык. НЛП помогает переводчику Google понимать слово в контексте, удалять лишние шумы и создавать CNN для понимания собственного голоса.

NLP также популярен среди чат-ботов. Чат-боты очень полезны, потому что они сокращают человеческую работу по выяснению потребностей клиентов. Чат-боты НЛП могут задавать последовательные вопросы, например, в чем проблема пользователя и где найти решение.У Apple и AMAZON есть надежный чат-бот в своей системе. Когда пользователь задает какие-то вопросы, чат-бот преобразует их в понятные фразы во внутренней системе.

Это вызов. Затем токен переходит в NLP, чтобы понять, о чем спрашивают пользователи. НЛП используется в поиске информации (IR). IR — это программа, которая занимается большим хранилищем, оценкой информации из больших текстовых документов из репозиториев. Он получит только релевантную информацию. Например, он используется в распознавании голоса Google для обрезки ненужных слов.

Применение НЛП

  • Машинный перевод, например, Google Translator
  • Поиск информации
  • Ответ на вопрос, например, чат-бот
  • Обобщение
  • Анализ настроений
  • Анализ социальных сетей
  • Майнинг больших данных \

Слова и последовательности

Система

NLP должна правильно понимать текст, знак и семантику. Многие методы помогают системе НЛП понимать текст и символы.Это классификация текста, векторная семантика, встраивание слов, вероятностная языковая модель, маркировка последовательностей и реорганизация речи.

  1. Классификация текста

    Разъяснение текста — это процесс разбивки текста на группы слов. Используя NLP, классификация текста может автоматически анализировать текст, а затем назначать набор предопределенных тегов или категорий в зависимости от его контекста. НЛП используется для анализа настроений, определения темы и определения языка.В основном существует три подхода к классификации текста —

    • Система на основе правил,
    • Машинная система
    • Гибридная система
    • .

    При подходе, основанном на правилах, тексты разделяются на организованную группу с использованием набора ручных лингвистических правил. Эти ремесленные лингвистические правила содержат пользователей для определения списка слов, которые характеризуются группами. Например, такие слова, как Дональд Трамп и Борис Джонсон, можно отнести к категории политики. Людей вроде Леброна Джеймса и Роналду можно отнести к спортивным.

    Машинный классификатор учится делать классификацию на основе прошлых наблюдений из наборов данных. Пользовательские данные предварительно помечаются как tarin и тестовые данные. Он собирает стратегию классификации из предыдущих входных данных и непрерывно учится. Машинный классификатор использует набор слов для расширения функции.

    В пакете слов вектор представляет частоту слов в предопределенном словаре списка слов. Мы можем выполнять НЛП, используя следующие алгоритмы машинного обучения: Naïve Bayer, SVM и Deep Learning.

    Третий подход к классификации текста — гибридный подход. Использование гибридного подхода сочетает в себе подход, основанный на правилах, и подход, основанный на машинах. Гибридный подход: использование системы на основе правил для создания тега и машинного обучения для обучения системы и создания правила. Затем список правил на основе компьютера сравнивается со списком правил на основе правил. Если что-то не соответствует тегам, люди улучшают список вручную. Это лучший способ реализовать классификацию текста

  2. Vector Semantic

    Vector Semantic — это еще один способ анализа слов и последовательностей.Векторная семантика определяет семантику и интерпретирует значение слов для объяснения таких функций, как похожие слова и противоположные слова. Основная идея векторной семантики заключается в том, что два слова похожи, если они использовались в похожем контексте. Векторное семантическое разделение слов в многомерном векторном пространстве. Векторная семантика полезна при анализе тональности.

  3. Вложение слова

    Встраивание слов — это еще один метод анализа слов и последовательностей. Встраивание переводит резервные векторы в низкоразмерное пространство, которое сохраняет семантические отношения.Встраивание слов — это тип представления слов, который позволяет словам с одинаковым значением иметь аналогичное представление. Есть два типа встраивания слов —

    Word2Vec — это статистический метод для эффективного изучения автономного встраивания слов из корпуса текста.

    Doc2Vec похож на Doc2Vec, но он анализирует группу текста, подобную страницам.

  4. Вероятностная модель языка

    Другой подход к анализу слов и последовательностей — вероятностная языковая модель.Цель вероятностной языковой модели — вычислить вероятность предложения последовательности слов. Например, вероятность появления слова «а» в данном слове «до» составляет 0,00013131 процент.

  5. Маркировка последовательностей

    Маркировка последовательности — это типичная задача НЛП, которая присваивает класс или метку каждому токену в заданной входной последовательности. Если кто-то говорит: «Включи фильм Тома Хэнкса». Последовательно, маркировка будет [игра, фильм, том Хэнкс]. Игра определяет действие.Фильмы — это пример действия. Том Хэнкс идет за поисковой организацией. Он разделяет ввод на несколько токенов и использует LSTM для его анализа. Есть две формы маркировки последовательностей. Это маркировка токена и маркировка диапазона.

    Синтаксический анализ — это этап НЛП, на котором синтаксический анализатор определяет синтаксическую структуру текста путем анализа составляющих его слов на основе лежащей в основе грамматики. Например, «том съел яблоко» будет разделено на существительное том, глагол  ate, определитель , существительное яблоко.Лучший пример — Amazon Alexa.

    Мы обсуждаем, как классифицируется текст и как разделить слово и последовательность, чтобы алгоритм мог понять и классифицировать его. В этом проекте мы собираемся открыть для себя анализ настроений пятидесяти тысяч рецензентов фильмов IMDB. Наша цель — определить, является ли отзыв, опубликованный на сайте IMDB его пользователем, положительным или отрицательным.

    Этот проект охватывает такие методы интеллектуального анализа текста, как встраивание текста, пакеты слов, контекст слова и другие вещи.Мы также рассмотрим введение двунаправленного классификатора настроений LSTM. Мы также рассмотрим, как автоматически импортировать помеченный набор данных из TensorFlow. Этот проект также охватывает такие шаги, как очистка данных, обработка текста, балансировка данных посредством выборки, а также обучение и тестирование модели глубокого обучения для классификации текста.

Разбор

Parser определяет синтаксическую структуру текста, анализируя составляющие его слова на основе лежащей в основе грамматики.Он разделяет групповые слова на составные части и разделяет слова.

Подробнее о синтаксическом анализе читайте в этой статье.

Семантика

Текст — это основа нашего общения. Что действительно сложно, так это понять, что говорится в письменной или устной беседе? Еще сложнее понять объемные статьи и книги. Семантика — это процесс, направленный на понимание языкового значения путем построения модели принципа, который говорящий использует для передачи значения.Он использовался при анализе отзывов клиентов, анализе статей, обнаружении фейковых новостей, семантическом анализе и т. Д.

Пример приложения

Вот пример кода:

Импорт необходимой библиотеки
 # Он определяется образом Docker kaggle / python: https://github.com/kaggle/docker-python
# Например, вот несколько полезных пакетов для загрузки

импортировать numpy как np # линейная алгебра
import pandas как обработка данных pd #, ввод-вывод файла CSV (например,грамм. pd.read_csv)

# Файлы входных данных доступны в каталоге "../input/" только для чтения
# Например, запуск этого (нажав запустить или нажав Shift + Enter) отобразит все файлы во входном каталоге

импорт ОС
для dirname, _, имен файлов в os.walk ('/ kaggle / input'):
    для имени файла в именах файлов:
        print (os.path.join (имя каталога, имя файла))

# Вы можете записать до 20 ГБ в текущий каталог (/ kaggle / working /), который сохраняется как вывод, когда вы создаете версию с помощью «Сохранить и запустить все»
# Вы также можете записывать временные файлы в / kaggle / temp /, но они не будут сохранены вне текущего сеанса

# Для импорта требуются библиотеки
импорт ОС

import matplotlib.pyplot как plt
импортировать nltk
из tkinter import *
импортировать seaborn как sns
импортировать matplotlib.pyplot как plt
sns.set ()
импорт scipy

импортировать тензорный поток как tf
импортировать tensorflow_hub как концентратор
импортировать tenorflow_datasets как tfds
из tenorflow.python import keras

из tensorflow.keras.models импортировать последовательный
из tensorflow.keras.layers import Dense, Embedding, LSTM

из sklearn.model_selection import train_test_split
из склеарна.показатели импорта confusion_matrix
из sklearn.metrics импорт классификации_report 
Скачивание необходимого файла
 # эта ячейка требует времени, запустите один раз
# Разделите обучающий набор на 60% и 40%, так что у нас получится 15000 примеров
# для обучения, 10 000 примеров для проверки и 25 000 примеров для тестирования.
исходная_поездка_данные, исходная_валидация_данные, исходная_тест_дата = tfds.load (
    name = "imdb_reviews",
    split = ('тренировка [: 60%]', 'тренировка [60%:]', 'тест'),
    as_supervised = True) 
Получение индекса слов из наборов данных Keras
 # токанизация с помощью tenorflow
word_index = tf.keras.datasets.imdb.get_word_index (
    путь = 'imdb_word_index.json' 

)

В [8]:

 {k: v вместо (k, v) в word_index.items (), если v <20} 

Из [8]:

 {'with': 16, 'i': 10, 'as': 14, 'it': 9, 'is': 6, 'in': 8, 'but': 18, 'of': 4, 'this': 11, 'a': 3, 'for': 15, 'br': 7, 'the': 1, 'was': 13, 'and': 2, 'to': 5, 'film ': 19,' фильм ': 17,' тот ': 12} 
Сравнение положительных и отрицательных отзывов
Создание поезда, тестовые данные
Модель
и сводка моделей
Разделение данных и подгонка модели
Эффект модели Обзор
Матрица неточностей и отчет о корреляции

Примечание. Источник данных и данные для этой модели общедоступны, и к ним можно получить доступ с помощью Tensorflow.

Полный код и подробности можно найти в репозитории GitHub.

В заключение, НЛП - это поле, полное возможностей. НЛП оказывает огромное влияние на то, как анализировать текст и речи. НЛП становится все лучше и лучше с каждым днем. Пять лет назад извлечение знаний из большого массива данных было невозможно. Развитие техники НЛП сделало это возможным и простым. В НЛП есть еще много возможностей для открытий.

Связанные

10 примеров обработки естественного языка (NLP) и способы использования ее возможностей

Искусственный интеллект и машинное обучение оказывают большое влияние на бесчисленное множество функций во многих отраслях.Хотя эти технологии помогают компаниям оптимизировать эффективность и извлекать новые идеи из своих данных, есть новая возможность, которую многие только начинают открывать.

Обработка естественного языка, или сокращенно NLP, - это революционное новое решение, которое помогает компаниям улучшить свои знания и получить еще большую прозрачность во всех аспектах своей работы с клиентами, чем когда-либо прежде. Фактически, в отчете Statista за 2019 год прогнозируется, что к 2025 году рынок НЛП вырастет до более чем 43 миллиардов долларов.Но что в этом такого? Вот подробное описание того, что такое обработка естественного языка, как она используется, а также реальные сценарии использования в некоторых основных отраслях.

Что такое обработка естественного языка?

Проще говоря, обработка естественного языка использует искусственный интеллект и машинное обучение для извлечения смысла из текста. Однако понимание человеческого языка со всеми его тонкостями, диалектами, интонациями и тому подобным иногда бывает даже трудным для людей, не говоря уже о компьютерах.НЛП является революционным, потому что, как его определяет TechTarget,

«Обработка естественного языка (NLP) - это способность компьютерной программы понимать человеческий язык в том виде, в котором он произносится. Разработка приложений НЛП является сложной задачей, потому что компьютеры традиционно требуют, чтобы люди «разговаривали» с ними на языке программирования, который является точным, недвусмысленным и хорошо структурированным, или с помощью ограниченного числа четко сформулированных голосовых команд. Однако человеческая речь не всегда точна - она ​​часто неоднозначна, а языковая структура может зависеть от многих сложных переменных, включая сленг, региональные диалекты и социальный контекст.”

AI сегодня продвинулся до уровня, на котором обработка естественного языка может анализировать, извлекать значение и определять действенные идеи как из синтаксиса, так и из семантики в тексте.

  • Анализ синтаксиса: NLP определяет значение языка на основе грамматических правил этого языка. Часто используемые методы синтаксиса НЛП включают разбиение на сегментацию слов, разрыв предложений, морфологическую сегментацию и выделение корней.
  • Семантический анализ: НЛП также может определять значение и контекст из языка, используя алгоритмы для понимания значения и структуры предложений.Методы семантики НЛП включают устранение неоднозначности смысла слов, распознавание именованных сущностей и генерацию естественного языка.
Преимущества NLP

Обработка естественного языка является передовой разработкой по ряду причин. До НЛП организации, которые использовали ИИ и машинное обучение, лишь поверхностно анализировали данные. Теперь НЛП дает им инструменты не только для сбора расширенных данных, но и для анализа всей совокупности данных - как лингвистических, так и числовых данных.НЛП позволяет организациям получать результаты, основанные на данных, используя язык, а не просто числа.

Помимо потрясающих возможностей анализа данных, NLP имеет ряд преимуществ, которые оценят компании любой отрасли.

  • НЛП позволяет экспертам, не имеющим профильных знаний, получить ответы на свои вопросы.
  • Создает структуру из источника данных с высокой степенью неструктурированности.
  • Это помогает быстрее определять основные причины проблем с продуктом.
  • NLP может определить прибыльных клиентов и понять причины их лояльности.
  • NLP может распознавать и классифицировать мошенническое поведение или заявления.
  • Он понимает множество языков, жаргон и даже сленг.
  • NLP также может уменьшить количество жалоб клиентов за счет упреждающего определения тенденций в общении с клиентами.
  • Он может даже понять товарные предложения конкурентов.

Возможности обработки естественного языка

Поскольку обработка естественного языка все еще находится в зачаточном состоянии, ее возможности продолжают расширяться, казалось бы, еженедельно.Вот некоторые из наиболее заметных достижений и возможностей НЛП:

Умные помощники: Подумайте о Siri и Alexa - эти виртуальные умные помощники полагаются на обработку естественного языка, чтобы понимать интонацию и тон для выполнения своих задач.

Результаты поиска: Поисковые системы постоянно используют НЛП, чтобы заранее понимать намерения пользователей и быстрее предоставлять релевантные результаты. Он даже может генерировать ответы на основе аналогичного поведения или тенденций поиска.

Предиктивный текст: Это один из самых ранних примеров обработки естественного языка в действии. Такие вещи, как автозамена и автозаполнение, стали возможны благодаря НЛП, которое может даже изучать личные языковые привычки и делать предложения, основанные на индивидуальных поведенческих паттернах.

Аналитика текста: Обработка естественного языка может анализировать источники текста от электронной почты до сообщений в социальных сетях и не только, чтобы дать компаниям понимание, помимо цифр и цифр. Аналитика текста НЛП преобразует неструктурированный текст и общение в действенные и организованные данные для анализа с использованием различных лингвистических, статистических методов и методов машинного обучения.

Анализ тональности: Анализ тональности, возможно, самая захватывающая функция обработки естественного языка. Ранние возможности НЛП позволяли организациям собирать сообщения речи в текст или другие текстурные варианты, но не могли точно определить их полное значение. Сегодня обработка естественного языка может сортировать и понимать нюансы и эмоции в человеческих голосах и тексте, давая организациям беспрецедентное понимание.

Классификация текста: Классификация текста позволяет технологиям NLP и AI автоматически понимать, обрабатывать и классифицировать неструктурированный текст.Используя модели обработки естественного языка, данные можно сортировать и организовывать на основе заранее определенных тегов и категорий.

Извлечение текста: Также известное как распознавание именованных объектов, обработка естественного языка может автоматически идентифицировать определенные именованные объекты в тексте, такие как имена и места, или более специализированную информацию, такую ​​как ключевые слова или даже названия или описания продуктов.

Обобщение текста: Обобщение текста наиболее полезно в академических, исследовательских или медицинских учреждениях, поскольку оно использует обработку естественного языка для быстрой обработки текста и извлечения наиболее важной информации.НЛП может резюмировать текст на основе точных ключевых фраз в тексте или даже резюмировать на основе определенных значений и выводов, предоставляя перефразированное резюме.

Анализ рынка: Обработка естественного языка может помочь маркетологам и исследователям рынка, разбивая темы, настроения, ключевые слова и намерения в неструктурированных данных из любых текстов или сообщений с клиентами.

Классификация намерений: Эта возможность позволяет компаниям более точно определять цель в тексте.Это может принести пользу отделам обслуживания клиентов и продажам, поскольку они быстрее выявляют потенциальных клиентов, готовых к продажам, по электронной почте, сообщениям в социальных сетях и другим средствам коммуникации.

Обнаружение срочности: можно установить алгоритмов НЛП, которые ищут ключевые фразы или слова, которые указывают на срочность или ударение в тексте. Это может помочь компаниям расставить приоритеты в своей работе или работе с клиентами для тех, кто общался таким образом.

Тематическое моделирование: Этот метод НЛП сканирует текстовые документы на наличие определенных закономерностей в словах или фразах и автоматически группирует текст на основе этих тенденций.Он также может определять согласованные группы слов и похожие выражения, которые лучше всего характеризуют набор документов, и создавать резюме.

Приложения NLP по отраслям

Обработка естественного языка только начинает демонстрировать свое истинное влияние на бизнес-операции во многих отраслях. Вот лишь некоторые из наиболее распространенных применений НЛП в некоторых из крупнейших индустрий по всему миру.

Финансовые учреждения
  1. Используя анализ настроений, финансовые учреждения могут анализировать большие объемы маркетинговых исследований и данных, в конечном итоге используя эту информацию для принятия более обоснованных инвестиционных решений и оптимизации управления рисками.
  2. NLP может помочь банкам и другим службам безопасности выявлять отмывание денег или другие мошеннические ситуации.
Страхование
  1. Обработка естественного языка может быть использована, чтобы помочь страховщикам выявлять мошеннические претензии. Анализируя общение с клиентами и даже профили в социальных сетях, ИИ может выявить признаки мошенничества и пометить такие заявления для дальнейшей проверки.
  2. Еще один способ, которым страховщики могут использовать обработку естественного языка, - это мониторинг сверхконкурентного ландшафта страхового рынка.Используя функции интеллектуального анализа текста и анализа рынка, страховщики могут лучше понять, что делают их конкуренты, и спланировать, какие продукты вывести на рынок, чтобы не отставать от конкурентов или быть на шаг впереди них.
Производство и цепочка поставок
  1. Чтобы улучшить автоматизацию и оптимизировать производственный конвейер, NLP может анализировать тысячи отгрузочных документов и давать производителям лучшее представление о том, какие области их цепочки поставок отстают. Используя эту информацию, они могут обновлять определенные этапы процесса или вносить изменения в логистику для повышения эффективности.
  2. Производители могут использовать возможности обработки естественного языка, выполняя так называемый веб-скрапинг. NLP может «соскабливать» или сканировать онлайн-ресурсы для получения информации об отраслевых эталонных тарифах на транспортировку, цены на топливо и затраты на рабочую силу. Эти данные в конечном итоге помогают им сравнивать свои затраты с рыночными стандартами и определять возможности экономии затрат.
Розничная торговля
  1. Розничным торговцам особенно следует использовать анализ настроений. Анализируя отношение клиентов к своим брендам или продуктам, розничные компании могут принимать более обоснованные решения в рамках своих бизнес-операций, от выпуска / прекращения выпуска продукта до продаж и маркетинговых инициатив и даже эффективности отдельных магазинов.NLP использует комментарии в социальных сетях, отзывы клиентов и многое другое и превращает их в действенные данные, которые розничные продавцы могут использовать для устранения своих недостатков и, в конечном итоге, для укрепления бренда.
  2. NLP также может помочь повысить лояльность клиентов, в первую очередь помогая розничным продавцам понять это. Анализируя общение, настроения и поведение своих наиболее прибыльных клиентов, розничные компании могут лучше понять, какие действия делают покупателей более последовательными. Когда они понимают, что заставляет покупателей возвращаться за дополнительными предложениями, они могут заранее активизировать эти действия.
Здравоохранение
  1. Обработка естественного языка только начинает помогать в области здравоохранения, и ее потенциальные приложения многочисленны. В настоящее время он помогает исследователям бороться с пандемией COVID-19 различными способами, а именно путем анализа входящей электронной почты и данных чата из справочной службы пациентов, чтобы пометить тех, у кого есть потенциальные симптомы COVID-19. Это позволило врачам заранее определить приоритеты пациентов и быстрее доставить тех, кто нуждается в помощи, в больницу.
  2. Он также может помочь поставщикам медицинских услуг обобщать, регистрировать и использовать свои записи и информацию о пациентах быстрее и точнее. Используя текстовое обобщение и распознавание именованных сущностей, обычно длинную медицинскую информацию можно быстро обобщить и распределить по категориям на основе важных связанных ключевых слов. Это может помочь улучшить диагностику, лечение и, в конечном итоге, результаты лечения пациентов.

Первый и самый важный компонент, необходимый для эффективной обработки естественного языка, - это данные.Как только у предприятий появятся эффективные протоколы сбора данных и организации, они окажутся всего в одном шаге от реализации возможностей НЛП. Команда Hitachi Solutions - эксперты, помогающие организациям использовать свои данные для работы на них. Наши доступные и эффективные решения для обработки естественного языка могут быть адаптированы для любой отрасли и любой цели. Если вы готовы максимально использовать свои данные и начать использовать решения НЛП, свяжитесь с нами - мы готовы помочь вам начать работу.

наборов данных для обработки естественного языка

Последнее обновление 14 августа 2020 г.

Вам нужны наборы данных, чтобы попрактиковаться, когда вы приступите к глубокому обучению для задач обработки естественного языка.

Лучше использовать небольшие наборы данных, которые можно быстро загрузить и не отнимать много времени, чтобы соответствовать моделям. Кроме того, также полезно использовать стандартные наборы данных, которые хорошо понятны и широко используются, чтобы вы могли сравнить свои результаты, чтобы увидеть, добиваетесь ли вы прогресса.

В этом посте вы познакомитесь с набором стандартных наборов данных для задач обработки естественного языка, которые вы можете использовать при начале работы с глубоким обучением.

Обзор

Этот пост разделен на 7 частей; их:

  1. Классификация текста
  2. Моделирование языка
  3. Подписи к изображениям
  4. Машинный перевод
  5. Вопрос ответ
  6. Распознавание речи
  7. Обобщение документа

Я попытался предоставить набор наборов данных, которые популярны для использования в академических статьях небольшого размера.

Почти все наборы данных сегодня доступны для бесплатного скачивания.

Если вашего любимого набора данных нет в списке или вы думаете, что знаете лучший набор данных, который должен быть указан, сообщите мне об этом в комментариях ниже.

Начните свой проект с моей новой книги «Глубокое обучение для обработки естественного языка», включающей пошаговых руководств и файлы исходного кода Python для всех примеров.

Приступим.

Наборы данных для обработки естественного языка
Фотография предоставлена ​​Грантом, некоторые права защищены.

1. Классификация текста

Классификация текста означает пометку предложений или документов, например классификацию спама в электронной почте и анализ тональности.

Ниже приведены несколько хороших наборов данных для классификации текста для начинающих.

Подробнее в посте:

2. Языковое моделирование

Языковое моделирование включает в себя разработку статистической модели для предсказания следующего слова в предложении или следующей буквы в слове с учетом того, что было раньше. Это задача с предварительным курсором в таких задачах, как распознавание речи и машинный перевод.

Это задача с предварительным курсором в таких задачах, как распознавание речи и машинный перевод.

Ниже приведены несколько хороших наборов данных моделирования для начинающих.

  • Project Gutenberg, большая коллекция бесплатных книг, которые можно найти в виде обычного текста для разных языков.

Есть более формальные корпуса, которые хорошо изучены; например:

Нужна помощь с глубоким обучением текстовых данных?

Пройдите бесплатный 7-дневный ускоренный курс электронной почты (с кодом).

Нажмите, чтобы зарегистрироваться, а также получите бесплатную электронную версию курса в формате PDF.

Начните БЕСПЛАТНЫЙ ускоренный курс прямо сейчас

3. Подписи к изображениям

Подписи к изображениям - это задача создания текстового описания для данного изображения.

Ниже приведены несколько хороших наборов данных для подписей к изображениям для начинающих.

  • Общие объекты в контексте (COCO). Коллекция из более 120 тысяч изображений с описаниями
  • Flickr 8K. Коллекция из 8 тысяч описанных изображений, взятых с flickr.com.
  • Flickr 30К. Коллекция из 30 тысяч описанных изображений, взятых с flickr.com.

Подробнее в посте:

4. Машинный перевод

Машинный перевод - это задача перевода текста с одного языка на другой.

Ниже приведены несколько хороших наборов данных машинного перевода для начинающих.

Существует тонна стандартных наборов данных, используемых для ежегодных задач машинного перевода; см .:

5. Вопрос ответ на вопрос

Ответ на вопрос - это задание, в котором предоставляется предложение или образец текста, из которого задаются вопросы, на которые необходимо ответить.

Ниже приведены несколько хороших наборов данных для ответов на вопросы для начинающих.

Подробнее в посте:

6. Распознавание речи

Распознавание речи - это задача преобразования звука разговорного языка в читаемый человеком текст.

Ниже приведены несколько хороших наборов данных по распознаванию речи для начинающих.

Знаете ли вы еще несколько хороших наборов данных для автоматического распознавания речи?
Дайте мне знать в комментариях.

7. Обобщение документа

Резюмирование документа - это задача создания краткого содержательного описания более крупного документа.

Ниже приведены несколько хороших наборов данных для обобщения документов для начинающих.

Подробнее см .:

Дополнительная литература

В этом разделе представлены дополнительные списки наборов данных, если вы хотите углубиться.

Знаете ли вы какие-нибудь другие хорошие списки наборов данных для обработки естественного языка?
Дайте мне знать в комментариях ниже.

Сводка

В этом посте вы обнаружили набор стандартных наборов данных, которые можно использовать для задач обработки естественного языка при начале работы с глубоким обучением.

Вы выбрали набор данных? Вы используете один из вышеперечисленных наборов данных?
Дайте мне знать в комментариях ниже.

Разрабатывайте модели глубокого обучения для текстовых данных уже сегодня!

Разработка собственных текстовых моделей за считанные минуты

... всего несколькими строками кода Python

Узнайте, как это сделать, в моей новой электронной книге:
Глубокое обучение для обработки естественного языка

Он предоставляет руководств для самообучения по таким темам, как:
Пакет слов, встраивание слов, языковые модели, создание заголовков, перевод текста и многое другое...

Наконец-то привнесите глубокое обучение в свои проекты обработки естественного языка

Пропустить академики. Только результаты.

Посмотрите, что внутри
О Джейсоне Браунли
Джейсон Браунли, доктор философии, является специалистом по машинному обучению, который учит разработчиков добиваться результатов с помощью современных методов машинного обучения с помощью практических руководств.

8 примеров НЛП - Обработка естественного языка в повседневной жизни [Поиск, электронная почта и др.]

Что такое обработка естественного языка, или коротко НЛП? Если вы не уверены, вы не одиноки.Многие люди мало что знают об этой увлекательной технологии, но все мы используем ее ежедневно. Фактически, если вы читаете это, вы использовали НЛП сегодня, не осознавая этого.

Что такое НЛП?

Natural Language Processing - это то, что компьютеры и смартфоны используют для понимания нашего языка, как устного, так и письменного. Поскольку мы используем язык для взаимодействия с нашими устройствами, НЛП стало неотъемлемой частью нашей жизни. НЛП может быть сложно реализовать правильно, вы можете прочитать об этом здесь, но когда оно будет успешным, оно дает огромные преимущества.

реальных примеров НЛП

Вот восемь примеров того, как НЛП улучшает вашу жизнь, а вы этого не замечаете.

Более быстрый набор текста с использованием NLP

Каждый раз, когда вы вводите текст при составлении сообщения или поискового запроса, NLP помогает вам печатать быстрее.

1. Автозаполнение предлагает остальную часть слова.

2. Интеллектуальный набор предлагает следующее слово в предложении.

Мессенджеры, поисковые системы и онлайн-формы используют их одновременно.

Точное письмо с использованием NLP

Когда вы составляете электронное письмо, сообщение в блоге или любой документ в Word или Google Docs, NLP поможет вам писать более точно:

3. Проверка орфографии удаляет орфографические ошибки, опечатки или стилистически некорректное написание (американское / британское).

4. Программа проверки грамматики гарантирует, что вы используете пунктуацию правильно, и предупредит, если вы используете неправильный артикль или предложение.

Такой инструмент, как Grammarly (я фанат!), Использует оба и объясняет, почему вам нужно сделать исправление:

Улучшенный поиск с использованием NLP

При поиске в Google множество различных алгоритмов НЛП помогают быстрее находить нужные вещи.Понимание запросов и документов составляет основу поиска Google. С точки зрения непрофессионала, запрос - это ваш поисковый запрос, а документ - это веб-страница. Поскольку мы пишем их на нашем языке, НЛП играет важную роль в поиске. Прелесть НЛП в том, что все это происходит без необходимости знать, как это работает.

5. Автокоррекция находит правильные ключевые слова для поиска, если вы что-то написали с ошибкой или использовали менее распространенное имя.

6. Обнаружение дубликатов сопоставляет контент, повторно опубликованный на нескольких сайтах, для отображения различных результатов поиска.

7. Обнаружение спама удаляет страницы, которые соответствуют ключевым словам поиска, но не предоставляют фактических ответов поиска.

Вот пример того, как Новости Google распознают неправильное написание «jon key» и показывают только один результат по этой теме из каждого выпуска новостей. Обратите внимание, как слова «в отставку» совпали с аналогичными словами «в отставку» и «в отставку».

Продуктивная рассылка электронной почты с использованием NLP

Почтовые клиенты постоянно защищают вас от спама. Фактически, используя НЛП, они различают разные типы писем, которые выходят за рамки классических спам-фильтров:

8. Классификация электронной почты - это важная функция Gmail, которая разделяет электронные письма на основные (ваш личный адрес электронной почты), социальные (уведомление от Facebook и т.п.) и рекламные сообщения (информационные бюллетени, на которые мы подписываемся).

Обработка естественного языка повсюду

Как видите, обработка естественного языка широко распространена, и в ближайшие годы она станет только более мощной и полезной. Виртуальные помощники, такие как Cortana от Microsoft и Alexa от Amazon, становятся все более популярными.Компании обращаются к чат-ботам для различных взаимодействий с пользователем. Мы продолжим создавать все больше и больше языков, которые потребуют анализа.

Потребители уже получают выгоду от НЛП, но и бизнес тоже. Например, любая компания, которая собирает отзывы клиентов в свободной форме в виде жалоб, публикаций в социальных сетях или результатов опросов, таких как NPS, может использовать NLP для поиска практических идей в этих данных. Хотя не все так просто.

Здесь, в Thematic, мы используем NLP, чтобы помочь клиентам идентифицировать повторяющиеся закономерности в их данных обратной связи с клиентами.Мы также оцениваем, насколько положительно или отрицательно относятся к клиентам, и находим способы улучшить их общее впечатление.

Sky TV использует наше программное обеспечение, чтобы понять отзывы своих подписчиков и получить полезную информацию, особенно в отношении впечатлений от просмотра и показателей удовлетворенности клиентов. Применяя наши передовые алгоритмы обработки естественного языка к данным еженедельных опросов, Sky TV может понять, как повышение цен влияет на клиентов и что они могут сделать больше для увеличения удержания клиентов - важные идеи, которые имеют огромное значение для продукта и общей бизнес-стратегии.

Если вы в настоящее время собираете много качественных отзывов, мы будем рады помочь вам собрать практические идеи, применяя НЛП. Запланируйте демонстрацию или начните бесплатную пробную версию Thematic.

Первый шаг к овладению НЛП

Обработка естественного языка (НЛП) - это обширная область исследований, в которой сталкиваются миры искусственного интеллекта, информатики и лингвистики. Он включает в себя множество интересных тем с классными реальными приложениями, такими как распознавание именованных сущностей, машинный перевод или машинные ответы на вопросы.Каждая из этих тем имеет свой собственный способ работы с текстовыми данными.

Но прежде чем погрузиться в глубокую часть и рассмотреть эти более сложные приложения, нам нужно продвинуться в мелкой части и понять, как выполняются более простые задачи, такие как классификация текста .

Классификация текста предлагает хорошую основу для знакомства с обработкой текстовых данных без потери интереса. Фактически, существует множество интересных приложений для классификации текста, таких как обнаружение спама и анализ тональности.В этом посте мы рассмотрим последнее и подробно покажем, как создать надежную основу для классификации анализа настроений. Это позволит нам запачкать руки и узнать об основных методах извлечения признаков, которые, тем не менее, очень эффективны на практике.

Итак, давайте начнем с простого вопроса: что такое анализ настроений?

Облако слов статьи об анализе настроений в Википедии

Анализ настроений направлен на оценку полярности настроений основного текста, основываясь исключительно на его содержании.Полярность настроения текста может быть определена как значение, которое указывает, является ли выраженное мнение положительным ( полярность = 1 ), отрицательным ( полярность = 0 ) или нейтральным. . В этом руководстве мы будем предполагать, что тексты либо положительные, либо отрицательные, но они не могут быть нейтральными. Исходя из этого предположения, анализ тональности может быть выражен в виде следующей задачи классификации:

 Признак : строка, представляющая вводимый текст   Цель : полярность текста   (0 или 1) 

Но в этой задаче есть кое-что необычное: единственная функция, с которой мы работаем, не является числовой.А чтобы обучить классификатор машинного / глубокого обучения, нам нужны числовые функции.

К сожалению, мы даже не можем использовать одноразовое кодирование, как это сделали бы для категориальной функции (например, цветная функция со значениями красный , зеленый , синий и т. Д.), Потому что тексты не являются категориями, и, вероятно, нет текста, который был бы в точности таким же, как другой. Использование однократного кодирования в этом случае просто приведет к заучиванию «наизусть» полярности настроений каждого текста в наборе обучающих данных.Итак, как мы можем продолжить?

На первый взгляд решение этой проблемы может показаться трудным, но на самом деле очень простые методы могут иметь большое значение.

Нам нужно преобразовать основную функцию - то есть последовательность слов, пробелов, знаков препинания и иногда других вещей, например смайликов - в некоторые числовые функции, которые можно использовать в алгоритме обучения. Для этого мы выполним два основных шага:

  • Шаг предварительной обработки , чтобы сделать тексты более чистыми и легкими для обработки
  • И этап векторизации для преобразования этих текстов в числовые векторы.

Давайте нырнем!

Предварительная обработка

Простой подход состоит в том, чтобы предположить, что наименьшей единицей информации в тексте является слово (а не символ). Поэтому мы будем представлять наши тексты в виде последовательностей слов . Например:

  Текст : Это кошка. ->  Последовательность слов:  [this, is, a, cat] 

В этом примере мы удалили знаки препинания и сделали каждое слово строчными буквами, поскольку предполагаем, что знаки препинания и регистр букв не влияют на значение слов.Фактически, мы хотим избежать различий между похожими словами, такими как This и this or cat. и кот .

Более того, реальный текст часто бывает «грязным». Поскольку этот текст обычно автоматически извлекается из Интернета, некоторый код HTML может смешаться с фактическим текстом. Поэтому нам также нужно немного привести в порядок эти тексты, чтобы избежать использования кодовых слов HTML в наших последовательностях слов. Например:

 
Это не приговор.<\ div> -> [это, это, а не, предложение]

Внесение этих изменений в наш текст перед преобразованием их в последовательности слов называется предварительной обработкой . Несмотря на свою простоту, методы предварительной обработки, которые мы видели до сих пор, очень хорошо работают на практике. В зависимости от типа текстов, с которыми вы можете столкнуться, может оказаться целесообразным включить более сложные этапы предварительной обработки. Но имейте в виду, что чем больше шагов вы добавите, тем больше времени займет предварительная обработка.

Пессимистическое описание этапа предварительной обработки

Используя Python 3 , мы можем написать функцию предварительной обработки, которая берет блок текста и затем выводит очищенную версию этого текста.Но прежде чем мы это сделаем, давайте быстро поговорим об очень удобной вещи, называемой регулярными выражениями .

Регулярное выражение (или regex ) - это последовательность символов, представляющая шаблон поиска. Каждый персонаж имеет значение; например . означает любой символ, кроме символа новой строки: '\ n' . Эти символы часто комбинируются с квантификаторами, например * , что означает ноль или более .Комбинируя эти два символа, мы можем создать регулярное выражение, которое ищет выражение в форме ' <' + ' ноль или более ' из ' что угодно, кроме \ n ' + '> ' . Это регулярное выражение <. *?> . Здесь символ ? указывает на нежадный поиск:

  Входная строка :  bcd> Разница между жадным и не жадным поиском:  жадный : <. *> ->  bcd> 
нежадный : <.*?> ->

Регулярные выражения очень полезны для обработки строк. Например, регулярное выражение <. *?> , которое мы ввели ранее, можно использовать для обнаружения и удаления тегов HTML. Но мы также будем использовать другое регулярное выражение, такое как \ ', чтобы удалить символ ' , чтобы слова вроде , который превратился в , то есть вместо двух отдельных слов , что и s .

Используя re , библиотеку Python для регулярных выражений, мы пишем нашу функцию предварительной обработки:

 {
ячеек: [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"output": [],
"source": [
"import re \ n ",
" \ n ",
" \ n ",
" def clean_text (text): \ n ",
" \ "\" \ "\ n",
"Применяет некоторую предварительную обработку к данному текст.\ n ",
" \ n ",
" Шаги: \ n ",
" - Удаление тегов HTML \ n ",
" - Удаление знаков препинания \ n ",
" - Уменьшение текста \ n ",
" \ " \ "\" \ n ",
" \ n ",
" # удалить теги HTML \ n ",
" text = re.sub (r '<. *?>', '', text) \ n ",
"\ n",
"# удалить символы [\\], ['] и [\"] \ n ",
" text = re.sub (r \ "\\\\\", \ "\ ", text) \ n",
"text = re.sub (r \" \\ '\ ", \" \ ", text) \ n",
"text = re.sub (r \" \\\ "\", \ "\", text) \ n ",
" \ n ",
" # преобразовать текст в нижний регистр \ n ",
" text = text._` {|} ~ \\ t \\ n '\ n ",
" translate_dict = dict ((c, \ "\") для c в фильтрах) \ n ",
" translate_map = str.maketrans (translate_dict) \ n ",
" text = text.translate (translate_map) \ n ",
" \ n ",
" return text "
]
},
{
" cell_type ":" code ",
" execution_count ": 2,
"метаданные": {},
"выходы": [
{
"данные": {
"текст / обычный": [
"['это', 'есть', 'не', 'а' , 'предложение'] "
]
},
" число_исполнений ": 2,
" метаданные ": {},
" тип_вывода ":" результат_выполнения "
}
],
" источник ": [
" чистый_текст (\ "
Это не приговор.<\\ div> \ "). split ()"
]
}
],
"метаданные": {
"kernelspec": {
"display_name": "Python 3",
"language": "python" ,
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py ",
" mimetype ":" text / x-python ",
" name ":" python ",
" nbconvert_exporter ":" python ",
" pygments_lexer ":" ipython3 ",
" version ":" 3.6. 4 "
}
},
" nbformat ": 4,
" nbformat_minor ": 2
}
Функция предварительной обработки с примером чистой последовательности слов

Векторизация

Теперь, когда у нас есть способ извлекать информацию из текста в виде последовательностей слов , нам нужен способ преобразования этих последовательностей слов в числовые функции: это векторизация .

Самый простой способ векторизации текста - это мешок слов (BOW). Он начинается со списка слов, называемого словарем (часто это все слова, встречающиеся в обучающих данных). Затем, учитывая введенный текст, он выводит числовой вектор, который является просто вектором количества слов для каждого слова словаря. Например:

  Обучающие тексты:  [«Это хороший кот», «Это плохой день»]  => словарь:  [это, кот, день, есть, хорошо, а, плохо]  Новый текст:  » Этот день - хороший день »-> [1, 0, 2, 1, 1, 1, 0] 

Как мы видим, значения для «cat» и «bad» равны 0 , потому что этих слов нет в исходном тексте.

Использование BOW предполагает, что чем больше слово появляется в тексте, тем более полно оно представляет его значение. Поэтому мы предполагаем, что с учетом набора положительного и отрицательного текста хороший классификатор сможет обнаруживать закономерности в распределении слов и научиться предсказывать тональность текста на основе того, какие слова встречаются и сколько раз они встречаются.

Чтобы использовать векторизацию BOW в Python , мы можем полагаться на CountVectorizer из библиотеки scikit-learn .Помимо выполнения векторизации, это также позволит нам удалить стоп-слова (то есть очень распространенные слова, которые не имеют большого значения, например , , , или , ). scikit-learn имеет встроенный список стоп-слов, которые можно игнорировать, передав stop_words = "english" векторизатору. Более того, мы можем передать нашу пользовательскую функцию предварительной обработки из более ранней версии, чтобы автоматически очищать текст перед его векторизацией.

 {
"ячейки": [
{
"тип_ячейки": "код",
"число_исполнений": 1,
"метаданные": {},
"выходы": [
{
"данные": {
" text / html ": [
"
\ n ",
"\ n",
" \ n",
" \ n",
" \ n",
" \ n",
" \ n",
"< th> кот \ n ",
" \ n ",
" \ n ",
" \ n ",
" \ n",
" \ n",
" \ n",
" \ n",
" \ n ",
" \ n ",
" \ n ",
" \ n ",
" \ n ",
"
плохо день хорошо
тестовое предложение 0 \ n ",
"
0 2 1
\ n ",
"
"
],
" text / plain ": [
" плохой кот день добрый \ n ",
"тестовое предложение 0 0 2 1"
]
},
"execution_count": 1,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"из sklearn.feature_extraction.text import CountVectorizer \ n ",
" \ n ",
" \ n ",
" training_texts = [\ n ",
" \ "Это хороший кот \", \ n ",
" \ " Это плохой день \ "\ n",
"] \ n",
"\ n",
"test_texts = [\ n",
"\" Сегодня хороший день \ "\ n",
"] \ n",
"\ n",
"# этот векторизатор будет пропускать стоп-слова \ n",
"vectorizer = CountVectorizer (\ n",
"stop_words = \" english \ ", \ n",
"preprocessor = clean_text \ n",
") \ n",
"\ n",
"# поместите векторизатор на обучающий текст \ n",
"векторизатор.fit (training_texts) \ n ",
" \ n ",
" # получить словарь векторизатора \ n ",
" inv_vocab = {v: k for k, v in vectorizer.vocabulary_.items ()} \ n ",
"dictionary = [inv_vocab [i] for i in range (len (inv_vocab))] \ n",
"\ n",
"# пример векторизации \ n",
"pd.DataFrame (\ n",
"data = vectorizer.transform (test_texts) .toarray (), \ n",
"index = [\" тестовое предложение \ "], \ n",
"columns = dictionary \ n",
")"
]
}
],
"метаданные": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info ": {
" codemirror_mode ": {
" name ":" ipython ",
" version ": 3
},
" file_extension ":".py ",
" mimetype ":" text / x-python ",
" name ":" python ",
" nbconvert_exporter ":" python ",
" pygments_lexer ":" ipython3 ",
" version ":" 3.6 .4 "
}
},
" nbformat ": 4,
" nbformat_minor ": 2
}
Пример очистки текста + векторизация

Пример использования: IMDb Movie Reviews

Давай попрактикуемся! Набор данных обзоров фильмов IMDb представляет собой набор из 50 000 обзоров, половина из которых положительные, а другая половина - отрицательные. Этот набор данных широко используется в тестах для анализа настроений, что делает его удобным способом оценки нашей собственной производительности по сравнению с существующими моделями.

Получение набора данных

Набор данных доступен в Интернете и может быть либо напрямую загружен с веб-сайта Стэнфорда, либо получен путем запуска в терминале (Linux):

 wget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz 

Затем нам нужно извлечь загруженные файлы. Вы можете снова сделать это вручную или запустить:

 tar -zxvf aclImdb_v1.tar.gz 

Теперь у нас есть папка с данными под названием aclImdb . Оттуда мы можем использовать следующую функцию для загрузки наборов обучающих / тестовых данных из IMDb:

 {
"ячейки": [
{
"тип_ячейки": "код",
"число_исполнений": 1,
"метаданные": {},
"выходы": [],
"источник": [
" import os \ n ",
" import numpy as np \ n ",
" import pandas as pd \ n ",
" \ n ",
" \ n ",
" def load_train_test_imdb_data (data_dir): \ n ",
"\" \ "\" Загружает наборы данных поездов / тестов IMDB из пути к папке.\ n ",
" Input: \ n ",
" data_dir: путь к папке \ "aclImdb \". \ n ",
" \ n ",
" Returns: \ n ",
" train / test наборов данных как фреймы данных pandas. \ n ",
" \ "\" \ "\ n",
"\ n",
"data = {} \ n",
"для разделения в [\" train \ ", \" test \ "]: \ n",
"data [split] = [] \ n",
"для тональности в [\" neg \ ", \" pos \ "]: \ n",
"score = 1 if sentiment == \ "pos \" else 0 \ n ",
" \ n ",
" path = os.path.join (data_dir, split, sentiment) \ n ",
" file_names = os.listdir (путь) \ n ",
" для f_name в file_names: \ n ",
" с open (os.path.join (path, f_name), \ "r \") как f: \ n ",
" review = f.read () \ n ",
" data [split] .append ([review, score]) \ n ",
" \ n ",
" np.random.shuffle (data [\ "train \ "]) \ n",
"data [\" train \ "] = pd.DataFrame (data [\" train \ "], \ n",
"columns = ['text', 'sentiment']) \ n ",
" \ n ",
" np. random.shuffle (data [\ "test \"]) \ n ",
" data [\ "test \"] = pd.DataFrame (data [\ "test \"], \ n ",
" columns = ['text ',' sentiment ']) \ n ",
" \ n ",
" вернуть данные [\ "train \"], data [\ "test \"] "
]
},
{
" cell_type ": "код",
"число_исполнений": 2,
"метаданные": {},
"выходы": [],
"источник": [
"train_data, test_data = load_train_test_imdb_data (\ n",
"data_dir = \ "aclImdb / \") "
]
}
],
" метаданные ": {
" kernelspec ": {
" display_name ":" Python 3 ",
" language ":" python ",
" name ": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py ",
" mimetype ":" text / x-python ",
" name ":" python ",
" nbconvert_exporter ":" python ",
" pygments_lexer ":" ipython3 ",
" version ":" 3.6 .4 "
}
},
" nbformat ": 4,
" nbformat_minor ": 2
}

Давайте обучим классификатор анализа настроений. Следует иметь в виду, что векторы признаков, которые возникают в результате BOW, обычно очень большие (в данном случае 80 000-мерные векторы). Поэтому нам нужно использовать простые алгоритмы, которые эффективны для большого количества функций (например,g., наивный байесовский алгоритм, линейная SVM или логистическая регрессия). Давайте, например, обучим линейный классификатор SVM.

Поскольку набор данных IMDb сбалансирован, мы можем оценить нашу модель, используя показатель точности (т. Е. Долю образцов, которые были правильно классифицированы).

 {
"ячейки": [
{
"тип_ячейки": "код",
"число_исполнений": 1,
"метаданные": {},
"выходы": [
{
"имя": "стандартный вывод" ,
"output_type": "stream",
"text": [
"Точность набора данных IMDB: 83.68 \ n "
]
}
],
" источник ": [
" из sklearn.metrics import precision_score \ n ",
" из sklearn.svm import LinearSVC \ n ",
" \ n ",
" \ n ",
" # Преобразуйте каждый текст в вектор количества слов \ n ",
" vectorizer = CountVectorizer (stop_words = \ "english \", \ n ",
" preprocessor = clean_text) \ n ",
" \ n ",
" training_features = vectorizer.fit_transform (train_data [\ "текст \"]) \ n ",
" test_features = vectorizer.transform (test_data [\ "текст \"]) \ n ",
" \ n " ,
"# Обучение \ n",
"model = LinearSVC () \ n",
"модель.fit (training_features, train_data [\ "sentiment \"]) \ n ",
" y_pred = model.predict (test_features) \ n ",
" \ n ",
" # Оценка \ n ",
" acc = precision_score (test_data [\ "настроение \"], y_pred) \ n ",
" \ n ",
" print (\ "Точность набора данных IMDB: {: .2f} \". format (acc * 100)) "
]
}
],
«метаданные»: {
«kernelspec»: {
«display_name»: «Python 3»,
«language»: «python»,
«name»: «python3»
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py ",
" mimetype ":" text / x-python ",
" name ":" python ",
" nbconvert_exporter ":" python ",
" pygments_lexer ":" ipython3 ",
" version ":" 3.6 .4 "
}
},
" nbformat ": 4,
" nbformat_minor ": 2
}
Применение к набору данных IMDb Movie Reviews

Как видите, выполнив несколько очень простых шагов и используя простую линейную модель, мы смогли достичь точности 83,68% для набора данных IMDb. Чтобы понять, насколько это хорошо, последняя современная модель может получить точность около 95%.Так что это совсем неплохо, но есть еще кое-что для улучшения.

Улучшение текущей модели

Если оставить в стороне все, что связано с тонкой настройкой, есть некоторые изменения, которые мы можем внести, чтобы немедленно улучшить текущую модель.

Первое, что мы можем сделать, это улучшить этап векторизации. Фактически, есть некоторые предубеждения, связанные только с тем, сколько раз слово встречается в тексте. В частности, чем длиннее текст, тем выше будут его характеристики (количество слов).

Чтобы исправить эту проблему, мы можем использовать Term Frequency (TF) вместо количества слов и разделить количество вхождений на длину последовательности. Мы также можем уменьшить эту частоту, чтобы слова, которые встречаются постоянно (например, связанные с темой или стоп-слова), имели более низкие значения. Этот коэффициент уменьшения называется частотой обратного документа (IDF) и равен логарифму частоты обратного слова документа.

В совокупности эти новые функции называются функциями TF-IDF. Итак, в итоге:

Формулы для вычисления функций TF-IDF

На практике мы можем обучить новую линейную SVM функциям TF-IDF, просто заменив CountVectorizer на TfIdfVectorizer .Это дает точность 86,64%, что на 2% больше, чем при использовании функций BOW.

Второе, что мы можем сделать для дальнейшего улучшения нашей модели, - это придать ей больше контекста. Фактически, рассмотрение каждого слова по отдельности может привести к некоторым ошибкам. Например, если в тексте встречается слово хорошо , мы, естественно, склонны говорить, что этот текст положительный, даже если на самом деле встречается слово не хорошо . Этих ошибок легко избежать, если ввести N-граммы.

N-грамм - это набор из N последовательных слов (например, очень хорошо, [2-грамма] и совсем не хорошо, [4-грамм]). Используя N-граммы, мы получаем более богатые последовательности слов.

Например, с N = 2:

 Это кот. -> [this, is, a, cat, (this, is), (is, a), (a, cat)] 

На практике включить N-граммы в наш векторизатор TF-IDF так же просто, как предоставить дополнительный параметр ngram_range = (1, N) . Вообще говоря, использование биграмм улучшает производительность, поскольку мы предоставляем модели больше контекста, в то время как N-граммы более высокого порядка имеют менее очевидные эффекты.

 {
"ячейки": [
{
"тип_ячейки": "код",
"число_исполнений": 1,
"метаданные": {},
"выходы": [
{
"имя": "стандартный вывод" ,
"output_type": "stream",
"text": [
"Точность набора данных IMDB: 88.66 \ n"
]
}
],
"source": [
"from sklearn.svm import LinearSVC \ n ",
" из sklearn.metrics import precision_score \ n ",
" from sklearn.feature_extraction.text import TfidfVectorizer \ n ",
" \ n ",
" \ n ",
" # Преобразуйте каждый текст в вектор количества слов \ n ",
" vectorizer = TfidfVectorizer (stop_words = \ "english \", \ n ",
" preprocessor = clean_text, \ n ",
" ngram_range = (1, 2)) \ n ",
"\ n",
"training_features = векторизатор.fit_transform (train_data [\ "текст \"]) \ n ",
" test_features = vectorizer.transform (test_data [\ "text \"]) \ n ",
" \ n ",
" # Обучение \ n ",
"model = LinearSVC () \ n",
"model.fit (training_features, train_data [\" sentiment \ "]) \ n",
"y_pred = model.predict (test_features) \ n",
"\ n ",
" # Оценка \ n ",
" acc = precision_score (test_data [\ "sentiment \"], y_pred) \ n ",
" \ n ",
" print (\ "Точность в наборе данных IMDB: { : .2f} \ ". Format (acc * 100))"
]
}
],
"метаданные": {
"kernelspec": {
"display_name": "Python 3",
"language": " python ",
" name ":" python3 "
},
" language_info ": {
" codemirror_mode ": {
" name ":" ipython ",
" version ": 3
},
" file_extension ":" .py ",
" mimetype ":" text / x-python ",
" name ":" python ",
" nbconvert_exporter ":" python ",
" pygments_lexer ":" ipython3 ",
" version ":" 3.6 .4 "
}
},
" nbformat ": 4,
" nbformat_minor ": 2
}
Код для обучения линейной SVM на функциях TF-IDF с 2 граммами

В совокупности мы получаем еще более высокий показатель точности 88,66%, что является еще одним улучшением на 2% по сравнению с последней версией модели.

Написать ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *