Computer Vision
Оновлено: 31.07.2023
Що таке комп'ютерний зір?
Комп'ютерний зір - це галузь комп'ютерних наук, що займається розробкою цифрових систем, здатних обробляти, аналізувати і розуміти візуальний вхід (зображення або відео) так само, як це робить людина. Поняття зору зосереджене на навчанні комп'ютерів аналізувати та розуміти зображення.
Ось кілька прикладів поширених завдань, для яких можуть використовуватися системи комп'ютерного зору:
- Виявлення об'єктів. Система аналізує відео для виявлення об'єкта (або об'єктів), що задовольняють параметрам пошуку, і відстежує їхній хід.
- Ідентифікація об'єкта. Технологія аналізує візуальний вхід і розпізнає конкретний об'єкт на фотографії або відео.
- Категоризація об'єктів. Система аналізує візуальний матеріал і відносить об'єкт на фотографії або відео до відповідної категорії. Наприклад, система може ідентифікувати тварин серед усіх об'єктів на зображенні.
Як це працює?
Одне з найбільших питань, на яке немає відповіді в ML, - "Як саме працює людський мозок, і як ми можемо наблизитися до нього за допомогою наших алгоритмів?". Правда полягає в тому, що існує дуже мало функціонуючих і повних теорій обчислень мозку; отже, незважаючи на те, що нейронні мережі покликані "відображати роботу мозку", ніхто не знає напевно, як саме він працює.
Таке ж протиріччя стосується комп'ютерного зору та машинного навчання. Неможливо визначити, наскільки точно алгоритми, що використовуються у виробництві, імітують наші власні внутрішні розумові процеси, оскільки ми не знаємо, як мозок і очі сприймають зображення.
Щоб навчити модель зі значущою точністю - особливо коли мова йде про глибоке навчання - зазвичай потрібні десятки тисяч фотографій, і чим більше, тим краще. Навіть якщо ви використовуєте метод навчання на основі даних попередньо навченої моделі, вам все одно знадобиться кілька тисяч фотографій, щоб навчити свою модель.
Враховуючи обсяг обчислювальних потужностей і сховищ, необхідних лише для навчання моделей глибокого навчання для комп'ютерного зору, легко зрозуміти, чому розробки в цих двох галузях настільки просунули машинне навчання вперед.
Застосування комп'ютерного зору
Дехто вважає, що комп'ютерний зір і штучний інтелект - це технологія дизайну з далекого майбутнього. Це невірно. Багато аспектів нашого життя вже перебувають під впливом комп'ютерного зору. Ось кілька прикладів того, як ми використовуємо цю технологію сьогодні:
Категоризація контенту
Системи комп'ютерного зору вже допомагають нам організовувати наші матеріали. Сучасне програмне забезпечення має доступ до наших колекцій контенту і автоматично позначає їх тегами, що дозволяє нам переглядати більш впорядковану колекцію.
Здоров'я
Оскільки на неї припадає 90% усіх медичних даних, інформація про зображення має вирішальне значення для діагностики. Багато медичних діагнозів покладаються на обробку зображень, включаючи рентген, МРТ і мамографію, і це лише деякі з них. Сегментація зображень також виявилася корисною для аналізу медичних зображень.
Іншим яскравим прикладом є виявлення раку. Точність у виявленні різних типів раку має вирішальне значення. За даними Google, технології машинного зору можуть виявляти метастази раку з набагато більшою точністю, ніж лікарі-люди. Тканина складається з метастазів раку, а також доброякісних ділянок, які нагадують пухлину. Система комп'ютерного зору правильно розпізнає ділянку пухлини і не вводить в оману нормальні ділянки, що нагадують пухлину.
Розпізнавання обличчя
Техніка розпізнавання облич використовується для зіставлення зображень облич людей з їхніми іменами. Ця технологія входить до складу важливих речей, якими ми користуємося щодня. Наприклад, Facebook використовує машинний зір для класифікації людей на зображеннях.
Розпізнавання обличчя - важлива технологія біометричної автентифікації. Багато мобільних гаджетів на ринку зараз дозволяють користувачам розблоковувати їх, показуючи своє обличчя. Дивовижність цієї технології полягає в тому, наскільки швидко вона працює.
Автономні транспортні засоби
Завдяки комп'ютерному зору автомобілі можуть розуміти навколишнє середовище. Розумний автомобіль оснащений кількома камерами, які знімають відео з різних ракурсів і передають їх як вхідні сигнали програмному забезпеченню комп'ютерного зору. Технологія аналізує відзнятий матеріал у режимі реального часу і розпізнає такі об'єкти, як дорожня розмітка, об'єкти поблизу (наприклад, люди або інші автомобілі), сигнали світлофора тощо. Автопілот в автомобілях Tesla - одне з найвідоміших застосувань цієї технології.
Віртуальна та доповнена реальність
Програми доповненої реальності значною мірою покладаються на комп'ютерний зір. Ця технологія дозволяє AR-додаткам ідентифікувати фізичні об'єкти в реальному часі, як області, так і окремі об'єкти всередині певної фізичної області, і використовувати ці знання для позиціонування віртуальних елементів у фізичному світі.