Святослав Чернецький | Як боротися зі спамом

В роботі пошукових систем в інтернеті і боротьбі зі спамом з'являться нові методи, засновані на математичному моделюванні. Так вважають італійські вчені, які, дослідивши дві існуючих соціальних мережі, потім змоделювали свою власну.

Так вважають італійські вчені, які, дослідивши дві існуючих соціальних мережі, потім змоделювали свою власну

Розвиток інтернету в останні роки призвело до суттєвих змін в способах спілкування між людьми. Ще 10-15 років тому поспілкуватися з людиною можна було або при особистій зустрічі, або по стаціонарному телефону, або ж скористатися поштою, надіславши електронного листа або телеграму. Зараз же до цих варіантів спілкування додалися мобільні телефони і інтернет, що включає в себе масу способів поговорити з людиною - це і електронна пошта, і icq, і численні чати, і власні блоги.

Характерним явищем в світлі розвитку всесвітньої павутини стали так звані соціальні мережі - сайти з великим числом користувачів, які самі наповнюють вміст ресурсу. Приклади подібних мереж добре відомі - в Росії це «ВКонтакте» і «Однокласники», а в США - Facebook.

Перераховані вище мережі асоціюються в першу чергу із знайомствами і «спілкуванням заради спілкування». Але є в інтернеті і тематичні соціальні мережі, спрямовані на обмін часто конкретною інформацією, наприклад, LiveJournal (де кожен користувач може вести свій блог, розміщуючи там фотографії, аудіо- та відеозаписи, ставити теги (ключові слова), давати свої коментарі) або, наприклад, last.fm (де користувачі об'єднуються по музичним інтересам).

Класифікація інформації, яка виробляється самими користувачами шляхом застосування тегів, вже навіть отримала цілком науковий термін - фолксономія. Це слово утворене з двох: англійської folk (народ) і грецького поняття taxonomia (ієрархічно вибудувана система цілей і результатів від простої до складної).

Автори роботи, опублікованої у вівторок в Proceedings of the National Academy of Sciences, з математичної точки зору вивчили дві соціальні мережі і змоделювали свою мережу.

У комп'ютерній лінгвістиці існує емпіричний закон Хіпс, який пов'язує обсяг документа з об'ємом словника унікальних слів, які входять в цей документ. У загальній формі цей закон має такий вигляд: v (n) = Knb, де v - це обсяг словника унікальних слів, складений з тексту, який складається з n унікальних слів, а K і b - обумовлені емпірично параметри. Для європейських мов K приймає значення від 10 до 100, а b - від 0,4 до 0,6.

Крім закону Хіпс великі тексти підкоряються закону Зіпфа, який звучить наступним чином: якщо до якого-небудь досить великим тексту скласти список всіх зустрілися в ньому слів, а потім отранжіровать ці слова в порядку убування частоти їх зустрічальності в тексті, то для будь-якого слова твір його рангу r і частоти виникнення f буде константою.

Автори роботи, що проводиться під керівництвом італійця Чіро Каттуто, визначили пост користувача в мережі як функцію трьох аргументів: U - ідентифікатора користувача, R - ідентифікатора ресурсу (простіше кажучи, URL) і набору тегів T (T1, T2, T3, ...), які використовуються користувачем.

Для дослідження реальних мереж автори вибрали два сайти. Одним з них став великий ресурс del.icio.us, який безкоштовно дає зареєстрованим користувачам послугу зберігання і публікації закладок на сторінках інтернету, і відвідувачі можуть переглядати наявні закладки, впорядковуючи їх по популярності і тегами. З цього сайту для роботи було використано близько 5 млн постів, написаних понад 0,5 млн користувачів. В цілому відібрані для дослідження пости містили близько 2 млн різних посилань і 2,5 млн тегів.

Інший сайт, який використовувався в роботі, - BibSonomy - містить в собі набагато менше інформації, ніж del.icio.us, оскільки в ньому користувачі зберігають бібліографічні посилання. У дослідженнях використовувалися пости 1400 користувачів, які містили в собі трохи більше 125 тис. Посилань, трохи менше 38 тис. Унікальних тегів і близько 0,5 млн тегів в загальному.

Використовуючи дані, автори застосували до вказаних ресурсів закони Хіпс і Зіпфа, а також побудували ряд співвідношень між різними величинами, визначеними в ході досліджень для конкретних ресурсов.После цього автори роботи припустили, що соціальну мережу можна уявити як семантичну мережу - у вигляді графа, вершини якого є теги, а ребра є посиланнями. Методом випадкових блукань (коли кожна точка пробного досвіду береться абсолютно випадковим чином) Каттуто і колеги побудували абстрактну модель соціальної мережі. Для отриманого об'єкта вони побудували такі ж співвідношення, що і для двох реальних мереж, і отримали добре узгоджуються результати.

Автори обговорюють, що дана робота є лише оцінкою і для більш точних результатів потрібно враховувати інші параметри.

Але головний висновок вони озвучують цілком твердо: соціальні мережі підпорядковані певним законам і добре описуються математично.

Результати цих досліджень можна використовувати на практиці - наприклад, в роботі пошукових систем, складання рейтингів сайтів і, що є досить актуальною проблемою сучасних користувачів, в боротьбі зі спамом.

Святослав Чернецький | Як боротися зі спамом

Конусно-лучевая компьютерная томография

Рентген диагностика

Протезирование зубов

Зуботехническая лаборатория

Лечение, отбеливание и удаление зубов

Исправление прикуса. Детская стоматология

Имплантация зубов

Реконструктивная хирургия

Пластическая хирургия

Рубрики

Новости