Доступно

Прикладной анализ текстовых данных на Python (Бенджамин Бенгфорд, Ребекка Билбро)

Тема в разделе "Книги"

Цена:
890 руб
Взнос:
65 руб
Организатор:
Dr.Vatson

Список участников складчины:

1. Dr.Vatson
Купить
  1. Dr.Vatson Организатор складчин

    Прикладной анализ текстовых данных на Python (Бенджамин Бенгфорд, Ребекка Билбро)

    [​IMG]
    Технологии анализа текстовой информации стремительно меняются под влиянием машинного обучения. Нейронные сети из теоретических научных исследований перешли в реальную жизнь, и анализ текста активно интегрируется в программные решения.
    Нейронные сети способны решать самые сложные задачи обработки естественного языка, никого не удивляет машинный перевод, «беседа» с роботом в интернет-магазине, перефразирование, ответы на вопросы и поддержание диалога.

    Почему же Сири, Алекса и Алиса не хотят нас понимать, Google находит не то, что мы ищем, а машинные переводчики веселят нас примерами «трудностей перевода» с китайского на албанский? Ответ кроется в мелочах – в алгоритмах, которые правильно работают в теории, но сложно реализуются на практике.

    Научитесь применять методы машинного обучения для анализа текста в реальных задачах, используя возможности и библиотеки Python.
    От поиска модели и предварительной обработки данных вы перейдете к приемам классификации и кластеризации текстов, затем приступите к визуальной интерпретации, анализу графов, а после знакомства с приемами масштабирования научитесь использовать глубокое обучение для анализа текста.

    Оглавление
    Вступление
    Сложности компьютерной обработки естественного языка
    Лингвистические данные: лексемы и слова
    Внедрение машинного обучения
    Инструменты для анализа текста
    О чем рассказывается в этой книге
    Кому адресована эта книга
    Примеры кода и репозиторий на GitHub
    Типографские соглашения
    Использование программного кода примеров
    От издательства
    Благодарности
    Глава 1 Естественные языки и вычисления
    Парадигма Data Science
    Приложения данных, основанные на анализе естественного языка
    Конвейер приложения данных
    Тройка выбора модели
    Язык как данные
    Компьютерная модель языка
    Лингвистические признаки
    Контекстные признаки
    Структурные признаки
    В заключение
    Глава 2 Создание собственного корпуса
    Что такое корпус?
    Предметные корпусы
    Движок сбора данных Baleen
    Управление корпусом данных
    Структура корпуса на диске
    Объекты чтения корпусов
    Потоковый доступ к данным с помощью NLTK
    Чтение корпуса HTML
    Чтение корпуса из базы данных
    В заключение
    Глава 3 Предварительная обработка и преобразование корпуса
    Разбивка документов
    Выявление и извлечение основного контента
    Разделение документов на абзацы
    Сегментация: выделение предложений
    Лексемизация: выделение лексем
    Маркировка частями речи
    Промежуточный анализ корпуса
    Трансформация корпуса
    Чтение предварительно обработанного корпуса
    В заключение
    Глава 4 Конвейеры векторизации и преобразования
    Слова в пространстве
    Частотные векторы
    Прямое кодирование
    Частота слова — обратная частота документа
    Распределенное представление
    Scikit-Learn API
    Интерфейс BaseEstimator
    Расширение TransformerMixin
    Конвейеры
    Основы конвейеров
    Поиск по сетке для оптимизации гиперпараметров
    Усовершенствование извлечения признаков с помощью объектов FeatureUnion
    В заключение
    Глава 5 Классификация в текстовом анализе
    Классификация текста
    Идентификация задач классификации
    Модели классификации
    Создание приложений классификации текста
    Перекрестная проверка
    Конструирование модели
    Оценка модели
    Эксплуатация модели
    В заключение
    Глава 6 Кластеризация для выявления сходств в тексте
    Обучение на текстовых данных без учителя
    Кластеризация документов по сходству
    Метрики расстояния
    Партитивная кластеризация
    Иерархическая кластеризация
    Моделирование тематики документов
    Латентное размещение Дирихле
    Латентно-семантический анализ
    Неотрицательное матричное разложение
    В заключение
    Глава 7 Контекстно-зависимый анализ текста
    Извлечение признаков на основе грамматики
    Контекстно-свободные грамматики
    Синтаксические парсеры
    Извлечение ключевых фраз
    Извлечение сущностей
    Извлечение признаков на основе n-грамм
    Чтение корпуса с поддержкой n-грамм
    Выбор размера n-грамм
    Значимые словосочетания
    Модели языка n-грамм
    Частота и условная частота
    Оценка максимальной вероятности
    Неизвестные слова: возвраты и сглаживание
    Генерация языка
    В заключение
    Глава 8 Визуализация текста
    Визуализация пространства признаков
    Визуальный анализ признаков
    Управление конструированием признаков
    Диагностика моделей
    Визуализация кластеров
    Визуализация классов
    Диагностика ошибок классификации
    Визуальная настройка
    Оценка силуэта и локтевые кривые
    В заключение
    Глава 9 Графовые методы анализа текста
    Вычисление и анализ графов
    Создание тезауруса на основе графа
    Анализ структуры графа
    Визуальный анализ графов
    Извлечение графов из текста
    Создание социального графа
    Исследование социального графа
    Разрешение сущностей
    Разрешение сущностей в графе
    Блокирование по структуре
    Нечеткое блокирование
    В заключение
    Глава 10 Чат-боты
    Основы диалогового взаимодействия
    Диалог: непродолжительный обмен
    Управление диалогом
    Правила вежливой беседы
    Приветствие и прощание
    Обработка ошибок при общении
    Занимательные вопросы
    Анализ зависимостей
    Анализ составляющих
    Выявление вопроса
    От столовых ложек к граммам
    Обучение для рекомендаций
    Соседство
    Предложение рекомендаций
    В заключение
    Глава 11 Масштабирование анализа текста
    Модуль multiprocessing
    Запуск параллельных задач
    Пулы процессов и очереди
    Параллельная обработка корпуса
    Кластерные вычисления с использованием Spark
    Устройство заданий в Spark
    Распределение корпуса
    Операции RDD
    Обработка естественного языка в Spark
    В заключение
    Глава 12 Глубокое обучение и не только
    Прикладные нейронные сети
    Нейронные модели языка
    Искусственные нейронные сети
    Архитектуры глубокого обучения
    Анализ эмоциональной окраски
    Глубокий анализ структуры
    Будущее (почти) наступило
    Глоссарий
    Об авторах
    Выходные данные

    Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка
    БенгфортБ., БилброР., ОхедаТ.
    Год: 2019
    Страниц: 368
    Формат: PDF

    Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
     
  2. Похожие складчины
    Загрузка...
  3. Dr.Vatson Организатор складчин
    [​IMG]
     
    Dr.Vatson,
Наверх