Емкость компьютерных хранилищ увеличивается экспоненциально; хранение данных сейчас стало настолько дешевым, что компьютерным системам почти невозможно ничего забыть. Сенсорные устройства все шире и шире контролируют все, за чем только можно наблюдать: потоки видео, действия в социальных сетях и местоположение всего, что перемещается. Сетевая вычислительная среда позволяет использовать огромные количества машин для манипулирования этими данными. Каждый раз, когда вы осуществляете поиск в Google, задействуются сотни компьютеров, тщательно исследующие все ваши предыдущие действия, только для того, чтобы решить, какая реклама является наилучшей для демонстрации именно вам.
Результатом всего этого стало рождение науки о данных — новой области, посвященной максимизации значения обширных коллекций информации. Как дисциплина, наука о данных находится где-то на пересечении статистики, информатики и машинного обучения, но стоит она отдельно, как самостоятельный персонаж. Эта книга служит введением в науку о данных, сосредоточиваясь на навыках и принципах, необходимых для построения систем, предназначенных для анализа и интерпретации данных.

Фильтрация и выборка.
Одним из важнейших преимуществ больших данных является то, что при достаточном объеме вы можете позволить себе отбросить большую часть своих данных. И это может быть весьма полезным, чтобы упростить ваш анализ.
Я различаю два разных способа отбрасывания данных: фильтрация и выборка. Фильтрация (filtering) означает выбор соответствующего подмножества данных на основе определенных критериев. Предположим, например, что мы хотели создать языковую модель для приложения в Соединенных Штатах и обучить ее на данных из Twitter. На английский язык приходится только около трети всех сообщений в Twitter, поэтому отфильтровывание всех остальных языков оставляет достаточно данных для содержательного анализа.
Мы можем рассматривать фильтрацию как особую форму очистки, когда мы удаляем данные не потому, что они ошибочны, а потому, что они отвлекают внимание от рассматриваемого вопроса. Фильтрация неподходящих или трудно интерпретируемых данных требует специальных знаний области применения. Английский язык действительно является основным языком, используемым в Соединенных Штатах, что делает решение о фильтрации данных таким способом совершенно разумным.
ОГЛАВЛЕНИЕ.
Введение.
Глава 1. Что такое наука о данных?.
Глава 2. Математические основы.
Глава 3. Манипулирование данными.
Глава 4. Оценки и ранги.
Глава 5. Статистический анализ.
Глава 6. Визуализация данных.
Глава 7. Математические модели.
Глава 8. Линейная алгебра.
Глава 9. Линейная и логистическая регрессии.
Глава 10. Методы измерения расстояний и сетей.
Глава 11. Машинное обучение.
Глава 12. Большие данные: достижение крупного масштаба.
Глава 13. Заключение.
Глава 14. Список литературы.
Предметный указатель.
Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Наука о данных, Учебный курс, Скиена С.С., 2020 - fileskachat.com, быстрое и бесплатное скачивание.
Скачать pdf
Ниже можно купить эту книгу, если она есть в продаже, и похожие книги по лучшей цене со скидкой с доставкой по всей России.Купить книги
Скачать - pdf - Яндекс.Диск.
Дата публикации:
Теги: учебник по информатике :: информатика :: компьютеры :: Скиена
Смотрите также учебники, книги и учебные материалы:
Предыдущие статьи:








