Данные ИИ
До 80% проекта искусственного интеллекта связано со сбором данных :
- Какие данные требуются ?
- Какие данные доступны ?
- Как выбрать данные?
- Как собрать данные?
- Как очистить данные?
- Как подготовить данные?
- Как использовать данные?
Что такое данные?
Данные могут быть разными. С искусственным интеллектом это должен быть набор фактов:
Тип | Примеры |
---|---|
Числа | Цены. Даты. |
Измерения | Размер. Высота. Масса. |
Слова | Имена и места. |
Наблюдения | Подсчет автомобилей. |
Описания | Холодно. |
Разведке нужны данные
Человеческому интеллекту нужны данные:
Брокеру по недвижимости нужны данные о проданных домах для оценки цен.
Искусственному интеллекту нужны данные:
Компьютерной программе также нужны данные для оценки цен.
Хранение данных
Наиболее распространенными данными для сбора являются числа и измерения.
Часто данные хранятся в массивах, представляющих отношения между значениями.
В этой таблице представлены цены на жилье в зависимости от размера:
Цена | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Размер | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Количественный и качественный
Количественные данные числовые:
- 55 автомобилей
- 15 метров
- 35 детей
Качественные данные являются описательными:
- Холодно
- Это долго
- Это было весело
Перепись или выборка
Перепись — это когда мы собираем данные для каждого члена группы.
Образец — это когда мы собираем данные для некоторых членов группы.
Если бы мы хотели узнать, сколько американцев курят сигареты, мы могли бы опросить каждого человека в США (перепись) или опросить 10 000 человек (выборка).
Перепись точна , но трудна. Образец является неточным , но его проще сделать.
Условия отбора проб
Популяция — это группа лиц (объектов), от которых мы хотим собрать информацию.
Перепись — это информация о каждом человеке в популяции.
Выборка - это информация о части населения (чтобы представить все).
Случайные выборки
Чтобы выборка представляла совокупность, она должна быть собрана случайным образом.
Случайная выборка — это выборка, в которой каждый член генеральной совокупности имеет равные шансы попасть в выборку.
Смещение выборки
Смещение выборки ( ошибка ) возникает, когда образцы собираются таким образом, что некоторые лица с меньшей (или большей) вероятностью будут включены в выборку.