Контент-аналіз

Контент-аналіз — якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і строгістю процедури та полягає у квантифікаційній обробці тексту з подальшою інтерпретацією результатів. Предметом контент-аналізу можуть бути як проблеми соціальної дійсності, котрі висловлюються чи навпаки приховуються у документах, так і внутрішні закономірності самого об'єкта дослідження.[1] Популярність контент-аналізу ґрунтується на тому, що цей метод дозволяє виміряти людську поведінку (якщо вважати, що вербальна поведінка є її формою). На відміну від опитувань, контент-аналіз вимірює не те, що люди говорять, що зробили чи зроблять, а те, що вони справді зробили.

Може використовуватися як основний метод дослідження (наприклад, контент-аналіз тексту при дослідженні політичної спрямованості газети), в поєднанні з іншими методами (наприклад, в дослідженні ефективності функціонування засобів масової інформації), допоміжний або контрольний (наприклад, при класифікації відповідей на відкриті запитання анкет).

Виділяють два основних типи контент-аналізу: кількісний і якісний. Якщо кількісний аналіз націлений на виявлення частоти окремих тем, слів або символів, що містяться у тексті, то якісний аналіз пов'язаний з фіксуванням нетривіальних висловлювань, мовних інтонацій з розумінням цінності змісту повідомлення.

Історія методу

Винахідниками та лідерами контент-аналізу небезпідставно вважають американців, проте насправді вперше контент-аналіз (пор. інтент-аналіз) було застосовано у 1640 році у Швеції. Там, під час дискусії з офіційним лютерантством, теологи порівняли апокрифічну збірку релігійних гімнів «Пісні Сіону» з гімнами офіційної церкви та підрахували кількість основних релігійних ідей та їх висвітлення (позитивне, негативне чи реальне).

На американському континенті формалізований аналіз тексту вперше застосував Дж. Спід, котрий 1893 року опублікував статтю «Чи дають тепер газети новини?» — це був результат контент-аналізу недільних випусків нью-йоркських газет за 1881—1883 роки. Спід виміряв обсяг матеріалів за кожною темою у дюймах і порівняв результати. Виявилося, що газети стали приділяти більше уваги пліткам та скандалам, але менше — літературі, політиці та релігії.

Новітня історія контент-аналізу бере свій початок у роки Другої світової війни, коли розвідка союзників відстежувала число та тип популярних пісень, які пускали в ефір європейські радіостанції. Таким чином робилися висновки про переміщення та концентрацію війська на континенті. На тихоокеанському театрі воєнних дій відстежували радіокомунікацію між Японією та її військовими базами на різних островах. Збільшення обсягу комунікації вказували на те, що японці планують операцію в даному районі Тихого океану.

Тоді ж, у 1940-х, контент-аналіз почали використовувати для визначення автентичності історичних документів. Дослідники рахували певні слова у тих документах певного автора, чия автентичність була доведена, та порівнювали їх кількість із сумнівними документами. Контент-аналіз також застосовувався для вивчення пропаганди. Українські дослідники застосовують контент-аналіз при проведенні культурно-історичних досліджень, зокрема, для атрибутування текстів, записаних у літопис з вуст Бояна

Вже наприкінці 1960-х контент-аналіз став методологією, найпоширенішою у магістерських роботах, які захищали в американських університетах, — і дотепер залишається найулюбленішою методологією медіа-дослідників у США.

Контент-аналіз як соціологічний метод вперше використав Макс Вебер під час роботи у Берлінському університеті.

Принципи й умови контент-аналізу

Г. Лассвелл вважав, що головний принцип контент-аналізу — розчленувати, певним чином «анатомувати суцільний масив тексту так, щоби найдрібніша одиниця аналізу включала якості цілого, і на підставі переваги тих чи інших тверджень виявити тенденції розвитку».[2] Тобто Г. Лассвелл за принцип поставив процедуру контент-аналізу. Російський дослідник А. Н. Алексєєв, а слідом за ним Т. А. Жарікова виділяли такі принципи контент-аналізу: «а) сходження від тексту до позатекстової реальності (тобто до соціальної дійсності у її різноманітності, а не тільки до джерела); б) строгість дослідження».[3]

Автори «Робочої книги соціолога» визначили такі загальні принципи використання контент-аналізу:

  • Застосування методу рекомендується в усіх випадках, коли потрібен високий ступінь точності чи об'єктивності аналізу.
  • Контент-аналіз, як правило, застосовується при наявності великого за обсягом і несистематизованого матеріалу, коли безпосереднє застосування останнього утруднено.
  • Контент-аналіз корисний у тих випадках, коли категорії, важливі для цілей дослідження, характеризуються певною частотою появи у досліджуваних документах.
  • Контент-аналіз часто дає добрі результати, коли велике значення для досліджуваної проблеми має сама мова джерела інформації, яке вивчається, його специфічні характеристики".[4]

Процедура контент-аналізу

Етапи дослідження

Основи процедури контент-аналізу були розроблені Гарольдом Ласвеллом. На сучасному етапі існує багато думок щодо почерговості етапів контент-аналізу та ступеня їх важливості.

Виділяють такі стадії аналізу:

1. Підготовка програми аналізу документів (маються на увазі завдання, гіпотези, поняття, об'єкт аналізу і т.ін.);

На цьому етапі, як правило, формулюється так звана емпірична теорія дослідження. Тобто, в ході підготовки до проведення контент-аналізу, вчений систематизує гіпотези, існуючі в контексті даної проблематики та відкидає ті з них, які не піддаються верифікації на даних інформаційного масиву.

2. Відбір джерел аналізу.

Необхідно визначити коло джерел, які містять у собі матеріали по заданій темі. Далі важливо встановити додаткові умови відбору матеріалу: визначити тип джерела (телебачення, преса, рекламні матеріали, радіо та ін.) Потім потрібно визначити вид повідомлення (публіцистичні статті в електронному або в друкованому вигляді, інформаційні замітки, рекламні плакати) роль агента комунікації (відправник або одержувач повідомлення). Визначаються мінімальні та максимальні границі об'єму тексту, їх протяжності, частота, час, місце і засіб трансляції повідомлень цільовій аудиторії. Існують і інші критерії відбору повідомлень, їх кількість і вибір варіюється залежно від поставлених завдань дослідження.

Можна виділити два основні види документів для контент-аналізу[5]:

  1. Текстові чи змішані документи (тексти з графіками, діаграмами, таблицями, тощо), в яких аналізуються тільки текстові матеріали з ціллю виявлення значущої інформації. Також ці джерела використовують для стискання текстів для того, щоб отримати основну ідею (предмет) таких типів документів: наприклад, звіти, анотації, реферати, наукові роботи, тощо.
  2. Змішані документи або табличні дані, які можна дістати з таких документів як звіти, заяви та багато інших документів. Основна характеристика такого типу документів в тому, що вони мають багато табличних матеріалів, на основі яких формуються вторинні дані, які входять до складу різних звітів та інших аналітичних матеріалів. Зазвичай такі дані супроводжуються текстовими матеріалами.
2.1. Визначивши, якого типу дані потрібні для проведення аналізу, можна приступити до процесу пошуку джерел даних. Нижче наведено список і короткий опис джерел, звідки можна дістати потрібні дані для проведення контент-аналізу:
  • Національні бібліотеки можуть служити великим полем для пошуку потрібних даних здебільшого текстових, але й також візуальних. У нагоді тут може бути Національна парламентська бібліотека та Національна бібліотека імені В. І. Вернадського. Наприклад, Національна бібліотека імені В. І. Вернадського є найбільшою бібліотекою в Україні за обсягом фонду (понад 15 мільйонів одиниць[6]), а також вона входить до двадцяти найбільших національних бібліотек світу. Національна парламентська бібліотека є корисною за рахунок існування різноманітних фондів (які мають понад 4 мільйони одиниць станом на 1959 рік[7]), що містять книжкові, періодичні, нотні, картографічні та образотворчі видання українською та російською мовами, енциклопедії та енциклопедичні словники. Ці бібліотеки стають все більш зручними для своїх користувачів за рахунок того, що пропонують онлайн-пошук інформації в себе на сайтах за ключовими словами, темами, тощо. Однак, онлайн-бази бібліотек наповнюють повільно, тому найбільш ефективним у даному випадку методом роботи з такими джерелами даних є безпосередній пошук в самих бібліотеках.
  • Якщо для дослідження потрібно аналізувати фото/відео/кінодокументи, то можна звернутись до:
  1. Центральний державний кінофотофоноархіву імені Г. С. Пшеничного [Архівовано 12 квітня 2016 у Wayback Machine.]. Для конкретного пошуку можна скористатись «електронним каталогом документів», який на даному етапі перебуває у тестовому режимі і постійно доповнюється новими матеріалами. Пошук на сайті можна здійснювати як за ключовими словами, так і за конкретною тематикою.
  2. також пошук текстових/відео/теле документів можна здійснювати безпосередньо на сайтах конкретних видань, телеканалів, тощо, у рубриці архівів або здійснювати офіційні запити на доступ до таких архівів.
  • Якщо контент-аналітичне дослідження стосується соціальних мереж (Twitter, Instagram, Youtube чи просто певних новин/постів в мережі Інтернет), то можна скористатись пошуком цільової інформації за допомогою ресурсу socialsearch.com [Архівовано 11 лютого 2022 у Wayback Machine.].

Вище наведено орієнтовний список джерел даних для пошуку інформації для контент-аналізу. Існує ще багато інших пошукових систем чи ресурсів, які можуть допомогти знайти ту інформацію, яка потрібна для дослідження.

Виділяють такі проміжні етапи аналізу:

2.2. Визначення кола і обсягу документів, що є носіями необхідної інформації (найменування, періодичність виходу, період, тиражі);
2.3. Побудова вибірки: які документи та за якими критеріями будуть аналізуватись;
2.4. Перевірка побудови вибіркової сукупності;
3. Визначення емпіричних моделей аналізу, проведення вибірки (тобто підбір комунікаційних органів, вибір матеріалів за ті чи інші періоди часу, визначення видів повідомлень, типу вибірки);

У разі обмеженої кількості матеріалу по заданій темі, вибіркова сукупність може бути еквівалентна генеральної. Класична трактування методу контент-аналізу передбачає можливість скорочення вибіркової сукупності повідомлень при їх схожості й однорідності. Така редукція допустима, якщо обсяг генеральної сукупності дуже великий. Вибірка при дослідженні великих сукупностей даних випадкова. Безумовно, необхідно розрахувати її обсяг так, щоб вона залишалася репрезентативною, важливо визначити допустиму похибку вибірки. Варто додати, що часто обсяг вибіркової сукупності визначається дослідниками, виходячи з понять здорового глузду, доступності матеріалу, терміновості дослідження, а не розрахунком допустимої помилки вибірки та репрезентативності масиву джерел.

4. Розробка методики даного конкретного аналізу;

Можна виділити такі проміжні етапи:

4.1. Класифікація соціальних ситуацій відповідно досліджуваних проблем;
4.2. Визначення одиниць аналізу;
4.3. Перевірка надійності методики.
5. Пілотажне дослідження, перевірка надійності методики;
6. Збір первинної емпіричної інформації;

Первинна емпірична інформація для контент-аналізу може бути зібрана дослідником шляхом запису аудіо чи транскрибування (запису текстів). Якість збору даних є важливою передумовою для їх успішної подальшої обробки. При аналізі документів аналітик орієнтується на вирішення задачі, яка перед ним стоїть, переважно у вузькій предметній області. При цьому він/вона використовують конкретний інструментарій та досвід для пошуку потрібних джерел інформації. Таким чином можна сказати, що аналітик застосовує певний «інтелектуальний фільтр»[8]. Термін «інтелектуальний фільтр» був запропонований філософом А. Бергсоном, який відмітив, що «… ми практично не можемо виражати свої думки, не пропускаючи їх крізь інтелектуальний фільтр»[8]. Відтак, в подальшому дослідники контенту вирішили також застосовувати даний термін у своїй області знань і дали йому наступне визначення:

Інтелектуальний фільтр — це традиційний аналіз документів, який фокусується на сукупності ітерацій (логічних ланцюжків), які дають змогу аналітику розкрити їх зміст. Як варіанти інтелектуальних фільтрів можуть виступати: різноманітні класифікації, технічні завдання, накази, рубрикатори та тезауруси. Процедуру інтелектуальної фільтрації інформаційних потоків можна співставити із процесом складання інформаційного запиту, оскільки він є критерієм, за яким із доступних інформаційних даних, відбираються лише релевантні з них.

Є три питання, які відображають універсальну форму інтелектуального фільтру:

  1. для чого потрібно щось робити?
  2. що потрібно робити?
  3. завдяки чому треба щось робити чи можна щось отримати?
  4. що є подібним?

Інтелектуальний пошук інформації

Для конкретного пошуку інформації контент-аналітичні дослідники користуються визначеними пошуковими програмами, які дозволяють знайти потрібну інформацію для свого дослідження. Такий процес називається інтелектуальним пошуком інформації.
Однією із найпопулярніших програм знаходження даних є Text Mining — вид ефективного аналізу тексту, який за допомогою обчислювальних потужностей виявляє відношення, які можуть призвести до відкриття нових знань.
Метою цієї технології є отримання інформації з масиву текстових документів, ґрунтуючись на застосуванні ефективних в практичному плані методів машинного навчання і обробки природної мови. Ця технологія призначена для проведення смислового аналізу, що забезпечує навігацію і пошук в неструктурованих текстах. Іншими словами Text Mining називають інтелектуальним аналізом тексту.
До основних елементів Text Mining відносяться:

  1. сумаризація (summarisation)
  2. виділення феноменів та понять
  3. кластеризація (clustering)
  4. класифікація (classification)
  5. відповідь на запити (question answering)тематичне індексування (thematic indexing)
  6. пошук за ключовими словами (keyword searching)
  7. підтримка і створення таксономії (oftaxonomies) та тезаурусу (thesauri).

Основна задача Text Mining — класифікація/віднесення об'єктів бази даних до категорій, які були попередньо створені. Тут завдання класифікації полягає у класичному розпізнаванні об'єктів, які треба віднести до того чи іншого класу і системі класифікації.
Сфера застосування: групування документів на Web-сайтах; розміщення документів по окремих папках, сортування електронних листів на скриньці, тощо.

Другорядна задача Text Mining — кластеризація, яка полягає у виділенні компактних підгруп об'єктів з подібними властивостями. Тут система має сама знайти подібні ознаки і розділити об'єкти на підгрупи. Зазвичай, цьому процесу передує класифікації, оскільки вона дозволяє визначити групи об'єктів. Кластеризація може бути двох видів:

  1. ієрархічна — полягає у побудові дерева кластерів, у кожному з яких містить невелика група документів;
  2. бінарна — забезпечує групування і перегляд кластерів документів за подібними характеристиками; один кластер містить найбільш подібні за параметрами документи.

Сфера застосування: кластеризацію сьогодні застосовують при реферуванні великих масивів документів, визначення взаємопов'язаних груп документів, спрощення процесу перегляду при пошуку необхідної інформації, знаходження унікальних документів із колекції, виявлення дублікатів чи дуже близьких по змісту документів.

Технологія Text Mining також має прогностичну функцію — наприклад, прогнозування за значеннями одних ознак об'єкта значення інших.

Ще одна задача Text Mining — знаходження «винятків», тобто пошук об'єктів, які своїми характеристиками сильно відрізняються від загального масиву. Для цього спочатку визначаються середні параметри об'єктів, а потім досліджуються ті об'єкти, параметри яких найбільш сильно відрізняються від середніх значень. Цей аналіз зазвичай проводиться після класифікації.

Для технології Text Mining велике значення має візуалізація. Тут візуалізація даних позначає обробку структурованих числових даних. Візуалізація зазвичай використовується як засіб представлення контенту і як навігаційний механізм, який може застосовуватись при досліджені документів і їх класів. До технології Text Mining входить багато продуктів, які забезпечують різні математичні та лінгвістичні алгоритми аналізу текстів. Такі програми характеризуються розвинутими графічними інтерфейсами, широкими можливостями візуалізації даних, надають доступ до різних джерел даних тощо.

Декілька прикладів таких програм, які входять до технології Text Mining:

  • Intelligent Miner for text (IBM)

Представляє набір окремих утиліт, які запускаються із командного рядка чи скриптів незалежно один від одного. Ця система є одним із найкращих інструментів глибинного аналізу текстів, і включає такі основні утиліти:

  • Language identification tool — автоматичне визначення мови, якою створений документ;
  • Categorisation tool — утиліта автоматичного віднесення тексту до певної категорії;
  • Clusterisation tool — розгрупування великої кількості документів на групи за близькістю стилю, форми, різних частотних характеристик, наявності ключових слів;
  • Feature extraction tool — виявлення нових ключових слів (власні назви, імена, скорочення) у тексті на основі заданого словника напередодні;
  • Annotation tool — «визначення сенсу» текстів і створення рефератів, тобто, анотацій до вихідних текстів.

Intelligent Miner for text (IBM) об'єднує велику та значущу сукупність інструментів, які в основному займаються пошуком інформації — в чому й полягає специфіка програми.

  • TextAnalyst

Розроблена російською компанією Megaputer Intelligence [Архівовано 23 квітня 2016 у Wayback Machine.].
Ця програма відповідає за вирішення наступних задач для технології Text Mining: створення семантичної мережі великого тексту, створення резюме тексту, пошук по тексту, автоматична класифікація та кластеризація текстів.

  • WebAnalyst

Розроблена російською компанією Megaputer Intelligence.
Ця програма є інтелектуальним вирішенням «клієнт-сервер» для компанії, яка бажає максимізувати ефект аналізу даних у мережі Інтернет. Ця програма функціонує як експертна система збору інформації та управління контентом вебсайтів.
Модулі цієї програми вирішують три основні задачі:

  1. збір максимальної кількості інформації про відвідувачів/ок сайту і про їхні запити на цьому сайті;
  2. дослідження зібраних даних;
  3. генерація персоналізованого контенту, на основі результатів дослідження.

Задум розробників цієї програми полягає у збільшити кількість відвідувачів сайту і їх утримання на конкретних сайтах за допомогою вирішення проблеми такого типу.

  • Text Miner

Програма розроблена американською компанією SAS Institute [Архівовано 24 травня 2016 у Wayback Machine.].
Основне завдання програми — порівняння конкретних граматичних і словесних рядів у письмовій мові.
Характеристики програми:
 — є досить універсальною, оскільки в ній можна працювати з різними форматами текстових документів;
 — забезпечує логічну обробку тексту, що у свою чергу дозволяє дослідникам збагатити процес аналізу даних, інтегруючи неструктуровану текстову інформацію з існуючими структурованими даними такими як вік, дохід, тощо;
 — дозволяє визначити наскільки правдивий є текстовий документ: визначення неправдивої інформації у текстових документах здійснюється шляхом аналізу тексту і виявлення змін стилю письма, що може свідчити про спробу викривлення чи приховання інформації.

  • SemioMap

Програма розроблена компанією Entrieva вченим Клодом Фогелем у режимі «клієнт-сервер».
Характеристики програми:
 — складається з двох основних компонентів: сервер SemioMap і клієнт SemioMap;
 — робота програми проходить наступні три фази:

  1. індексування — сервер SemioMap автоматично читає масиви неструктурованого тексту, визначає ключові фрази і складає з них індекс;
  2. кластеризація — сервер SemioMap виявляє зв'язки між визначеними поняттями і будує з них лексичну структуру на основі того, як ці вирази зустрічаються у тексті;
  3. графічне відображення і навігація — візуалізація карт зв'язків, яка забезпечує швидку навігацію по ключових фразах і зв'язками, які виникають між ними, а також можливість швидко звернутись до конкретних документів.
     — сортує матеріали по папках, створюючи окремі бази даних для різних папок;
     — зв'язки між поняттями, які виявляє програма, базуються на тому, як часто зустрічаються слова/фрази разом в абзацах вихідного текстового масиву.
  • InterMedia Text, Oracle Text

Цей програмний комплекс дозволяє ефективно працювати із запитами, які відносяться до неструктурованих текстів.
Основне завдання програми — пошук документів за їх змістом — за словами та фразами, які за необхідності комбінуються з використання булевих операцій. Результати пошуку ранжуються за релевантністю, з урахуванням частоти повторюваності слова, яке цікавить дослідника, в знайдених документах. Для підвищення ефективності пошуку запиту у програмі є певні розширення, які діляться на три групи:

  1. розришення слів у запиті всіма морфологічними формами, що реалізується за рахунок залучення знань морфології мови;
  2. програма Oracle Text допускає розширення слів у запиті з близькими за сенсом словами за рахунок підключення тезаурусу і розширенням запиту слів, які є близькими за написанням і звучанням — нечіткий пошук і пошук співзвучних слів;
  3. нечіткий пошук доцільно застосовувати для пошуку слів з помилками, які виникли при написанні, і у тих випадках, коли виникають сумніви стосовно правильності написання — прізвища, власні назви, тощо.

Характеристики програми:
 — забезпечує проведення тематичного аналізу англійською мовою (для проведення такого аналізу російських текстових масивів було окремо розроблено програму Russian Context Optimiser — RCO);
 — програма аналізує текстові масиви через лінгвістичну і статистичну призму, у результаті чого визначаються основні теми тексту і будується його тематичне резюме і реферат.

  • Autonomy Knowledge Server

Програму застосовують для статистичного контент-аналізу, який об'єднує інтелектуальний парсинг за шаблонами зі складними методами контентного аналізу і визначення сенсу для вирішення задач автоматичної класифікації і організації перехресних посилань.
Основна перевага програми: потужні інтелектуальні алгоритми, які базуються на інформаційній теорії Клода Шаннона, Баєсових ймовірностях і нейронних мережах.
Основне завдання програми: ідентифікація шаблонів у текстових документах; також програма проводить аналіз текстів шляхом аналізу кореляції частот і відношення термінів стосовно сенсу тексту.
Великою перевагою програми є те, що вона може працювати із всіма мовами.

  • Galaktika-ZOOM

Програма розроблена російською корпорацією «Галактика».
Основне завдання програми: інтелектуальний пошук за ключовими словами з урахуванням морфології української та англійської мов, і формування основних інформаційних масивів за конкретними аспектами.
Характеристики програми:
 — орієнтація на великі інформаційні об'єкти (наприклад, повідомлення і статті ЗМІ, нормативні документи, ділове листування, інформація з Інтернету, тощо);
 — фокус на виявленні тенденцій динаміки розвитку досліджуваної проблеми;
 — наявність конкретного інструментарію для аналізу об'єктивних смислових зв'язків наявних даних і формування проблеми;
 — підтримуються наступні текстові формати: простий текст, RTF, DOC, HTML.

  • InfoStream

Програма розроблена в Україні в Інформаційному центрі «Елвісті [Архівовано 9 квітня 2016 у Wayback Machine.]». Програма позначає процес контент-моніторингу, який має проводиться постійно протягом довгого періоду часу.
Характеристики програми:
 — складається з трьох основних компонентів:

  1. центр збору і обробки інформації;
  2. центр організації інтерактивного доступу до баз даних;
  3. центр контент-моніторингу.
     — забезпечує: доступ до оперативної інформації з єдиного інтерфейсу в пошуковому режимі з урахуванням дублювання семантичної близькості документів, мовних версій, розмірів документів, їх цифрової насиченості; доступ до унікального ретроспективного фонду, який налічує понад 80 млн записів; підтримку аналітичної роботи в режимі реального часу: побудова сюжетних зв'язків, дайджестів, частотних діаграм і таблиць взаємозв'язків понять, медіа-рейтингів ;
     — сфери застосування: інформаційно-аналітичні роботи таких тем як політика, макроекономіка, преса, банківська діяльність;
     — підтримує наступні текстові формати: DOC, RTF, HTML, XML, прості тексти.

Кодування — процес категоризації зібраних даних згідно визначених дослідником правил. Автоматичне кодування відбувається за допомогою спеціальних програм, механічне — за допомогою іншої людини, кодера. Для надійного механічного кодування кодер має отримати чітко визначену і детально прописану кодувальну інструкцію, де будуть прописані правила кодування даних. Кодувальна інструкція має бути містити все необхідне, щоб процес кодування міг бути відтворений будь-де, з мінімальною залежністю від суб'єктивних суджень, але не заперечуючи участі кодера. Будь-яка кодувальна інструкція складається для того, щоб бути прочитаною та зрозумілою людиною, тому важливо звернути увагу на ті якості, якими необхідно володіти кодеру для оптимального виконання завдання. В першу чергу, кодування — це повторюване монотонне аналітичне завдання, що потребує високої концентрації на деталях. Потенційний кодувальник має володіти певними когнітивними здібностями відповідними до вимог дослідження. Попередній досвід При виборі кодерів, не слід недооцінювати важливість рівню їх обізнаності щодо досліджуваного питання. Попередній досвід визначає зміст того, що кодер може привнести в дослідження. Більше того, для забезпечення високої надійності кодування, аналітикам має сенс набирати кодерів із аналогічним культурним, освітнім рівнями та професійним досвідом. Повторюваність Аналітикам, що намагаються відтворити вже колись проведене дослідження потрібно вибрати кодерів в умовах близьких до умов оригіналу. Для цього дослідник має переконатися, що в інструкції до набору кодерів чітко зазначені критерії відбору (пізнавальні здібності, відповідний попередній досвід.

7. Кількісна обробка зібраних даних;
8. Інтерпретація здобутих результатів, висновки дослідження.

Вибір категорій аналізу

Категорія контент-аналізу — це поняття, яке показує один з аспектів загального напрямку конкретного дослідження документів.

Вперше поняття «категорії аналізу» ввів М.Віллі в 20-ті роки нашого століття. Під час проведення дослідження «Провінційна газета» він класифікував зміст за трьома критеріями:

1) тема чи сфера соціальної дійсності;
2) форма (новини, передова стаття та ін.),
3) суміш першого і другого (наприклад, політичні новини).

Ці поняття назвали категоріями. М.Віллі обґрунтував критерії, за якими виділяються категорії. Треба, щоб їх можна було застосовувати до всіх газет загального порядку, щоб вони давали можливість порівняти різні газети в один час, одну газету у різні часи, різні газети у різні часи (тобто висувається вимога універсальної порівнянності) і щоб ті категорії були об'єктивними і точними, а елемент суб'єктивізму в них був зведений до мінімуму.[9]

У кожному дослідженні — свої категорії. Адже вибір категорій цілком залежить від цілей дослідження. Категорії показують напрямок аналізу, те, на що дослідник звертає увагу. Від правильного підбору категорій багато в чому залежать загальні підсумки дослідження. Категоріальна мережа — це своєрідна схема, за якою дослідник проводить свій аналіз.

На цьому етапі можна припуститися двох помилок. Якщо прийняти занадто вузькі категорії, то можна втратити частину змісту, яка в них не увійде. А якщо взяти дуже узагальнені категорії, то багато в чому втрачається оригінальність досліджуваних документів. Вибір категорій — це суто якісний момент дослідження, на базі якого у подальшому застосовуються кількісні методи.

Вимоги до категорій

Успіх будь-якого контент-аналітичного дослідження багато в чому залежить саме від правильного обрання категорій аналізу. Це обумовлює великі вимоги, які ставляться до категорій.

Оскільки в процесі контент-аналізу відбувається співвіднесення визначених елементів тексту саме з цими категоріями, то дуже важливо, щоб вони були такими:

  • чітко й однозначно сформульованими (у різних дослідників повинен бути щодо них високий рівень згоди);
  • вичерпними, тобто такими, які обхоплюють всі частини змісту документа, що визначені завданнями даного дослідження;
  • взаємовиключними, тобто одні й ті ж самі частини змісту документів не повинні належати до різних категорій.
  • категорії повинні бути об'єктивними, незалежними і надійними, щоб будь-який кодувальник, взявши на озброєння категорії дослідження, розумів їх недвозначно. У нього не повинно виникати питань про те до якої ж категорії віднести ту чи іншу одиницю змісту.

Категорії можуть підрозділятися на більш дрібні якісні одиниці — підкатегорії. Так, наприклад, категорія «індивідуальні характеристики» може підрозділятися на такі підкатегорії, як зовнішні і внутрішні характеристики тощо.

Саме у такому випадку дослідження не залежатиме від суб'єктивних думок окремих людей, а праця кодувальника буде суто технічною. І, нарешті, категорії повинні бути доцільними, тобто відображати цілі дослідження і зміст об'єкту аналізу.

Виділення одиниць аналізу

Одиниці аналізу — структурні одиниці, які репрезентовані щодо всього тексту і його окремих істотних частин.[10]

Підставою для виділення одиниць аналізу може слугувати:

  1. цілі та завдання дослідження;
  2. специфіка конкретного об'єкта аналізу, тобто документа.

Одиницями аналізу можуть бути:

  • Окремі слова, словосполучення, терміни. Наприклад, економічні поняття: ринок, зайнятість, приватизація, управління тощо; політичні: демократія, референдум, вибори, влада тощо;
  • Теми, повідомлення, висловлені у смислових образах, статтях, частинах тексту, які забезпечують повнішу характеристику змісту документа, ніж попередні одиниці аналізу. Так, теми, в яких розглядаються міжнародне становище України, перехід до ринкових відносин, боротьба зі злочинністю, спосіб життя та здоров'я нації тощо.
  • Прізвища історичних діячів, політиків, видатних учених і діячів мистецтва, представників різноманітних соціальних спільнот, що є певним узагальненим типом діяча, якому притаманні певні соціальні риси. Їх аналіз дає досліднику важливу інформацію про досліджувану історичну епоху, домінування конкретних політичних, соціально-економічних ідей, впливу певних діячів на формування громадської думки тощо. До цієї групи можна також віднести згадування організацій, закладів, інших соціальних інститутів.
  • Судження, закінчена думка, логічний ланцюг. Це найбільш складні одиниці аналізу, оскільки мають великий ступінь конструктивності. Їх структура є більш диференційованою, ніж в інших одиницях аналізу, і містить кілька елементів.

Складні види контент-аналізу звичайно оперують не однією, а кількома одиницями аналізу. Одиниці аналізу, які взято ізольовано, можуть бути неправильно витлумачені, тому вони розглядаються на основі більш широких лінгвістичних або змістовних структур, що вказують на характер розчленування тексту в межах якого ідентифікується присутність або відсутність одиниць аналізу — контекстуальних одиниць. Наприклад, для одиниці аналізу «слово» контекстуальна одиниця — «речення».[11]

Необхідно встановити одиницю підрахунку — кількісну міру взаємозв'язку текстових і позатекстових явищ.

Практика конкретних соціологічних досліджень дає змогу визначити деякі загальні одиниці підрахунку, які застосовують при проведенні досліджень:

1. Система підрахунку «час — простір». У такому разі за одиницю підрахунку беруть кількість зображень (знаків, квадратних сантиметрів площі). Для аналізу інформації, одержаної по радіо, телебаченню, за одиницю підрахунку беруть час, протягом якого висвітлювали подію.
2. Наявність ознак у тексті. За такої системи підрахунку визначають наявність ознак (видів) певної характеристики змісту у кожній частині, на які розбитий текст (наприклад, ознаки оптимістичних поглядів на життя при аналізі особистих документів (листів, щоденників тощо))
3. Частота появи одиниць аналізу (кількість згадувань)

Висновки, інтерпретація даних

Однією з вирішальних та одночасно з цим складних частин контент-аналітичного дослідження є інтерпретація даних дослідження.

З тих самих результатів різні люди роблять часто цілком протилежні висновки. Тому тут завжди слід враховувати настанови дослідника. Великий ефект для об'єктивної інтерпретації висновків дослідження дає порівняння результатів контент-аналізу з вивченням тієї самої проблеми іншими методами.[12]

Б.Берельсон вважав, що основними шляхами інтерпретації даних є простеження тенденцій статистичних змін, внутрішньотекстові порівняння, зіставлення контент-аналітичних та інших джерел. Б.Берельсон описав 17 видів використання контент-аналізу для висновків про характер змісту, про комунікаторів, реципієнтів і можливі ефекти. Л. Н. Федотова додала такі напрямки інтерпретації[13]:

  • 1) порівняння характеристик тексту у різних каналах;
  • 2) порівняння характеристик тексту з настановами видавця;
  • 3) порівняння різних засобів інформації;
  • 4) порівняння діяльності джерел у динаміці;
  • 5) порівняння характеристик тексту з даними досліджень інших частин комунікаційного ланцюжка (іншими методами);
  • 6) порівняння характеристик тексту з теоретичними уявленнями автора-дослідника. Взагалі, інтерпретація результатів дослідження у контент-аналізі відрізняється від інтерпретації в інших соціологічних методах більшою об'єктивністю.

І все одно на цьому етапі, як і при обранні одиниць дослідження, з найбільшою силою відчувається вплив суб'єктивних думок дослідника. Для того, щоб інтерпретація результатів аналізу була коректною, треба робити її, виходячи тільки з наявних результатів аналізу, а не із своїх суджень про ці результати.[13]

Важливою характеристикою висновків є їх достовірність, надійність і валідність.[14]

Надійність

Під надійністю дослідники часто мають на увазі обґрунтованість (відповідність законам і поняттям дослідження) та стійкість чи строгість (відтворюваність результатів).

  • Обґрунтованість (validity) можна підвищити за допомогою експертного оцінювання.
  • Під стійкістю (consistenty) розуміється строгість дослідження, тобто кожний наступний учений, застосувавши вже вироблену його попередником методику, на тому самому об'єкті має дійти тих самих висновків. Розходження не повинно перебільшувати 5 %, тобто коефіцієнт кореляції— 0,05. С. С. Саргент і Р. К. Вільямсон ще в середині 60-х років виділили три процедурних рівня контент-аналізу з точки зору наявності характеристик змісту і надійності висновків: 1) вивчення змісту без виходу за його межі, 2) дослідження співвідношення змісту й об'єктивних даних, 3) аналіз співвідношення змісту з характеристиками та процесами в комунікаторі й реципієнті, прогнозування ефектів повідомлень і висновків про комунікатора й аудиторію.

Достовірність

Висока достовірність контент-аналізу ґрунтується на тому, що дослідження дуже мало залежить від суб'єктивних думок того, хто його проводить. Співвідношення якісних і кількісних начал у контент-аналізі дозволяє досягти великого ступеня надійності й валідності. При цьому дослідник повинен мати на увазі, що при вивченні прихованих задумів комунікатора важливу роль у забезпеченні високої валідності відіграє присутність чи неприсутність у тексті різноманітних одиниць аналізу, а при інших видах дослідження валідність забезпечує засіб кодування та строге дотримання процедури.

Валідність

Валідність висновків дослідження залежить від репрезентативності вибірки. Обрані для аналізу тексти повинні достатньо повно репрезентувати усю сукупність. Для досягнення високої валідності велике значення має правильний підбір одиниць дослідження. Вони повинні бути обрані так, щоб у результаті квантифікаційних процедур висновки являли собою повний зріз змісту на дану тему.


Типи висновків[15]

Виділяються два типи висновків в контент-аналітичних дослідженнях: текстуальні та контекстуальні. Від типу висновків залежить спосіб аналізу даних.

  • Текстуальні висновки стосуються текстової «реальності», комунікативного середовища, в якому існують досліджувані тексти.

Аналіз, що має на меті досягнення висновків, що стосуються текстової «реальності», мусить базуватися на характеристиках вибірки. Несуцільна вибірка, вибірка з великою кількістю пропущених значень відповідним чином впливають на можливість здійснювати аналіз з використанням складних статистичних методів, а у випадку описових досліджень — на можливість висувати узагальнюючі твердження. Використання складного аналізу та узагальнення без відповідних на те підстав (характеристик отриманих даних) є ознакою маніпуляції або продукування «пустих» цифр, які не мають реального змістовного наповнення.

  • Контекстуальні ж висновки стосуються контексту, тобто реалій, відображених (репрезентованих) у тексті.

Аналіз, що має на меті отримання контекстуальних висновків має, крім врахування характеристик вибірки, передбачати переконливе обґрунтування об'єктивності інформації, отриманої із сукупності аналізованих джерел, повноти інформації про об'єкт позатекстуальної реальності. Відсутність такого обґрунтування, необ'єктивність, неповнота інформації (навіть якщо вони є об'єктивними характеристиками текстів і інших текстів пов'язаних з об'єктом дослідження немає) унеможливлює висунення узагальнюючих тверджень про позатекстову реальність. Висунення таких тверджень є так само ознакою маніпуляції чи продукування «пустих» даних.

За спостереженнями О. В. Іванова, переважна більшість досліджень змісту, висновки яких виходять за межі текстової реальності, не відповідають строгим критеріям якості, визначених автором. Інші дослідження відповідають приблизно половині критеріїв. Досліджень, виконаних у повній відповідності з еталонними вимогами до кількісного контент-аналізу — одиничні.

Тоді назріває питання, чи є підстави вважати всі висновки, зроблені на основі не достатньо строго проведеного дослідження, невалідних та ненадійних даних, хибними? Висновки таких досліджень є, безумовно, недостатньо достовірними, але на їх правдивість впливає досвід дослідників, їх інтуїція, обізнаність з об'єктом та предметом досліджень. Отримані дані можуть відповідним чином коригуватись шляхом їх реінтерпретації, виділення ключових, на думку авторів, результатів аналізу. Однак, в цьому випадку, ми потрапляємо в пастку «влади експерта» і починаємо мислити категоріями довіри/ недовіри. Експерт отримує можливості для маніпуляції, виходячи зі свого світогляду та прихованих від широкої громадськості цілей. Така ситуація неприпустима для дослідників та людей, які бажають свідомо приймати рішення на основі якісно проведених досліджень. Крім того, неякісні дані жодним чином не можуть використовуватись для аналізу іншими дослідниками.

Збагачення висновків

  • Значно збагатити висновки можна, якщо аналізувати те, що піддається однозначній інтерпретації. Наявність на екрані зображень будь-якої соціальної реальності практично без труднощів піддається класифікації в сенсі традиційного тематичного членування. Наприклад, в аналізі телевізійної реклами на трьох найпопулярніших комерційних телемережах США, здійсненій в Анненбергській школі комунікацій (Філадельфія, США), отримано багато інформації — спеціалісту з реклами здаються значущими такі відомості про неї: у 63 % випадків запропонований товар не показується у телерекламі, про нього тільки говорять, а в інших 33 % він демонструється; в 95 % випадків користувачі — це звичайні люди, інші — знаменитості; чоловіки — 46 %, жінки — 26 %, разом — 29 %; вік користувача — дитина (43 %), молода людина (13 %), людина середнього віку (23 %), старша людина (1 %), змішані ситуації (20 %).[16]
  • Для подачі роботи, окрім висновків, кодувальник повинен мати при собі документи, де перераховані всі модифікації характеристик та оговорені всі правила аналізу. Таким чином можна довести критикам роботи, що автор притримувався однакового підходу до різних текстів. Також вони зможуть побачити, як були отримані результати роботи. Демонстрація інструментарію вважається однією з перших вимог до коректного соціологічного дослідження. Також бажано мати документ, в якому зафіксовані спостереження кодувальника під час аналізу газет/відео-/аудиоматеріалів.[17]
  • Також важливим є короткий виклад суті дослідження для тих, хто має мало часу для ознайомлення з його деталями Саме ця частина звіту часто вирішує те, як будуть сприймати інші частини роботи.[18]

Візуалізація даних

На практиці результати контент-аналізу найчастіше представляються рядами діаграм: стовпчастих чи кругових. Також для відображення відносин між одиницями контент-аналізу та результатів їх категоризації використовуються такі стандартні засоби відображення структур, як різні графи. Візуалізація відбувається за допомогою деяких комп'ютерних програм. Наприклад, Microsoft Excel та SPSS. Презентувати дані допомагають програми на кшталт Microsoft PowerPoint та Prezi.

Кількісний та якісний контент-аналіз

Кількісний контент-аналіз має обов'язково включати стандартизовані процедури підрахунку виділених категорій. Для формулювання висновків вирішальне значення мають кількісні величини, які характеризують ту чи іншу категорію. Наприклад, якщо дослідник прагне отримати уявлення про те наскільки значиме поняття «мирне врегулювання» для лідерів ворогуючих сторін і згоден з допущенням, що воно приблизно визначається частотою згадування цього поняття в офіційних промовах, то тоді, після відповідних арифметичних підрахунків, він отримає певні кількісні показники. Показники можуть відрізнятися або, навпаки, бути близькі за абсолютним значенням, яке буде враховуватися при інтерпретації результатів обробки. Завдання можна ускладнити поставивши як попередню умову виділення всіх змістовних у смисловому відношенні одиниць відповідних текстів, а потім підрахувавши відносну значимість даного вираження в порівнянні з іншими. Примітно, що в обох випадках основна частина підрахунків може бути виконана із застосуванням простих комп'ютерних програм.

Якісний контент-аналіз націлений на поглиблене змістовне вивчення текстового матеріалу, в тому числі з точки зору контексту, в якому представлені виділені категорії. Підсумки формулюються тут з урахуванням взаємозв'язків змістовних елементів і їх відносної значущості (рангом) у структурі тексту. Так, для того щоб порівняти ставлення різних політиків до проблеми мирного врегулювання, дослідник повинен прагнути не просто виділити відповідне поняття, а й визначити чи є його проблематика головною в системі декларованих позицій, варіанти її конотації, ступінь деталізації, емоційне забарвлення і т.д . Залежно від завдань дослідження якісний контент-аналіз може бути доповнений деякими елементами кількісного контент-аналізу.

Сфера застосування

Три типи гіпотез, які можуть бути протестовані за допомогою аналізу текстів:

1. гіпотези щодо частоти появи тих чи інших термінів, понять;
2. гіпотези про зв'язок понять у тексті, окремих частинах тексту або сукупностях текстів;
3. гіпотези, що стосуються співвідношення між текстуально-аналітичним дослідженням і іншими видами досліджень; гіпотези такого типу використовуються для порівняння результатів досліджень, проведених за допомогою різних методів або для встановлення зв'язків між текстуальними і не-текстуальними явищами (наприклад, для порівняння висловлювань і реальних дій людей).

Обмеження аналізу текстів як методу

  • для кількісного аналізу необхідно статистично значуща кількість текстуальної інформації, він не призначений для аналізу унікальних текстів;
  • аналізовані тексти повинні піддаватися формалізації, тому даний метод лише обмежено придатний для аналізу художньої літератури та зовсім не придатний для аналізу поезії;
  • якісний аналіз дозволяє глибше зрозуміти текст, але він вимагає значних затрат кількості часу і зусиль; таким чином, традиційний якісний аналіз малопридатний для дослідження великих обсягів тексту.
  • текст є спрощеним, відображенням соціальної реальності, якою він породжений.

Перевагою методу є ефективність при аналізі великих інформаційних масивів. Найчастіше він використовується при аналізі тексту і полягає або в підрахунку найбільш вживаних слів, словосполучень, інших лексичних одиниць, або одиницями контент-аналізу виступають такі величини як протяжність тексту, чисельність рядків, абзаців, колонок, сторінок. Метод також застосовується і при вивченні відео- та аудіо-матеріалу і одиницями аналізу стають графічна складова, тексти, що його супроводжують, метраж аудіо, обсяг ефірного часу, час доби в який матеріал транслюється аудиторії. За допомогою цього методу можна вивчати такі матеріали як, наприклад, статті в ЗМІ, промови політиків, партійні програми, програми громадських рухів, відеоматеріали масових заходів, з'їздів і мітингів, нормативно-правові акти, рекламні повідомлення, твори художньої літератури, історичні тексти, листи і багато іншого. Обов'язковою умовою для проведення контент-аналізу є фіксація матеріалу на матеріальному носії.

Цей метод не вимагає великих матеріальних витрат. Польовий етап дослідження більш простий, ніж у багатьох інших методів.

Аналіз рекламних повідомлень

Незважаючи на велику ймовірність об'єктивності у використанні даного методу дослідження під час соціальних опитувань (у тому числі контент-аналізу), необхідно ставитись до нього обережно. Не всі методи однаково надійні. Цей метод не надійний насамперед через «соціальні шуми». Наприклад, коли дослідник телеаудиторії приходить до респондента з анкетою, людина актуалізується — хоче відповідати домінації певного інституту (у даному випадку телебаченню). У цій анкеті респондент, наприклад, відповідає, що о 21-й год. він дивиться інформаційний випуск ТСН, тим часом, як насправді він переглядає популярний серіал чи фільм. Респондент відповідає, що, як правило, він дивиться ТСН від початку до кінця. Але дані електронних вимірювань аудиторії показують, що зепінг (постійне перемикання каналів) є однією із основних форм перегляду телевізора. Тільки аудиторія, яка дивиться половину серіалу, досягає 30 %. У всіх інших телевізійних форматах показники ще нижчі. Ці приклади свідча ть, наскільки обережно треба застосовувати дані соціологічних опитувань для програмування ефіру та вироблення стратегії телевізійного каналу.

Однак цей метод дослідження необхідний, оскільки він розширює і доповнює дані електронних вимірювань[19].

Системи даних одного джерела — електронні системи спостереження, які допомагають виявити зв'язок між реакцією покупців на телевізійну рекламу (визначається за допомогою піплметра) і тим, що вони купують в магазинах (визначається за допомогою сканерів для читання штрихового коду).

Література

Посилання

Примітки

  1. Наталія Костенко, Валерій Іванов. Досвід контент-аналізу: моделі та практики: Монографія. — К.: Центр вільної преси, 2003. — 44 с.
  2. Lasswell H. Propaganda Technique in the World War. — N. Y., 1927.
  3. Алексеев А. Н. Контент-анализ: техника или методология? (К постановке проблемы) // Методологические й методические проблемы контент-анализа: (Тезисы докладов рабочего совещания социологов) / АН СССР. Институт социологических исследований; Отв. ред. А. Г. Здравомыслов. — М.; Л., 1973. — Вьп. 1. — С. 23; Жарикова Т. А. Контент-анализ — социологический метод: Препринт / Институт истории, археологии и этнографии народов Дальнего Востока ДВО АН СССР. — Владивосток, 1990. — С. 5
  4. Рабочая книга социолога / Отв. ред. Г. В. Осипов. — М.: Наука, 1976. — С. 322
  5. Глава 2. Анализ документов — Ел.джерело. Архів оригіналу за 8 травня 2016. Процитовано 20 квітня 2016.
  6. Національна бібліотека України імені В. І. Вернадського. Склад фондів — Електронне джерело: Національна бібліотека України імені В. І. Вернадського#.D0.A4.D0.BE.D0.BD.D0.B4.D0.B8 .D0.B1.D1.96.D0.B1.D0.BB.D1.96.D0.BE.D1.82.D0.B5.D0.BA.D0.B8
  7. Національна парламентська бібліотека України — Електронне джерело:Національна парламентська бібліотека України
  8. а б Глава 2. Анализ документов. ИНСТРУМЕНТЫ КОНЕЧНОГО ПОЛЬЗОВАТЕЛЯ — Електронне джерело: [1] [Архівовано 8 травня 2016 у Wayback Machine.]
  9. Наталія Костенко, Валерій Іванов. Досвід контент-аналізу: моделі та практики: Монографія. — К.: Центр вільної преси, 2003. — 62 с.
  10. Соковнин В. М. Об объективности исследования в контент-анализе // Методологические и методические проблемы контент-анализа: (Тезисы докладов рабочего совещания социологов) / АН СССР. Институт социологических исследований; Отв. ред. А. Г. Здравомыслов. — М.; Л., 1973. — Вып. 1. — С. 59.
  11. Дридзе Т. М. Текстовая деятельность в структуре социальной коммуникации. М., 1984
  12. Костенко Н., Іванов В. Досвід контент-аналізу. Моделі та практики. / Наталія Костенко, Валерій Іванов. — К.: Центр вільної преси, 2003. — § 4, 5. — С.67
  13. а б Костенко Н., Іванов В. Досвід контент-аналізу. Моделі та практики. / Наталія Костенко, Валерій Іванов. — К.: Центр вільної преси, 2003. — § 4, 5. — С.69
  14. Костенко Н., Іванов В. Досвід контент-аналізу. Моделі та практики. / Наталія Костенко, Валерій Іванов. — К.: Центр вільної преси, 2003. — § 4, 5. — С.60
  15. Іванов О. В. Кількісний аналіз тексту чи продукування числових артефактів: до питання аудиту контент-аналітичних досліджень [Рукопис] / О. В. Іванов — 2011. — c. 7
  16. Федотова Л. Н. Анализ содержания — социологический метод изучения средств массовой коммуникации. / Лариса Николаевна Федотова. — М.: Научный мир, 2001. — Разд. 3. Методика анализа содержания текстов. — С.101
  17. Федотова Л. Н. Анализ содержания — социологический метод изучения средств массовой коммуникации. / Лариса Николаевна Федотова. — М.: Научный мир, 2001. — Разд. 3. Методика анализа содержания текстов. — С.106
  18. Krippendorff K. H. Content Analysis: An introduction to its methodology. / Klaus Heinrich Krippendorff. — Sage Publications, 2003. — Chapter 4, 5, 14. — P.363
  19. Рейтингові методики маркетингових досліджень телевізійної аудиторії України. Архів оригіналу за 8 серпня 2014. Процитовано 5 серпня 2014.