22.06.2012 15:41
Новости.
Просмотров всего: 4171; сегодня: 3.

Взгляд на мир глазами Википедии

Что можно сделать за день при помощи новой SGI® UV™ 2000 – крупнейшей в мире системы добычи данных, размещенных в основной памяти?

International Supercomputing Conference 2012

BUSINESS WIRE – Признанные лидер в области технических вычислений компания SGI (NASDAQ:SGI) в партнерстве с Калевом Х. Леетару (Kalev H. Leetaru) из Университета Иллинойса создала первую в истории систему хронологического картографирования и поиска полнотекстовых контентов в англоязычной версии Википедии во времени и пространстве. Результатами являются визуальные отображения современной истории, получаемые менее чем за день благодаря использованию методов добычи данных, размещенных в основной памяти (in-memory data-mining). Загрузив всю англоязычную Википедию в SGI® UV™ 2000, Леетару смог показать, как с точки зрения Википедии развивался мир на протяжении последних двух столетий. Место, год и положительное или отрицательное отношение привязывалисть к тем или иным упоминаниям.

Картографирование статей Википедии уже проводилось в рамках предыдущих проектов, когда автор вручную задавал локационные метаданные, но на эти прошлые попытки приходится лишь крохотная доля локационной информации Википедии. Данный проект раскрыл содержание самих статей, распознавая каждое место и дату на всех четырех миллионах страниц и связи между ними для создания грандиозной сети.

Википедия в совершенно новом ракурсе

"Такой анализ позволяет миру дистанцироваться от отдельных статей и текста, чтобы увидеть общую картину громадного знания, накопленного в Википедии, не ограничиваясь постраничным просмотром. Теперь мы можем видеть, как эволюционировало одно из крупнейших собраний человеческого знания, и то, что мы не могли видеть никогда раньше, например, глобальное настроение в определенное время и в определенном месте или наличие пробелов в представленном знании", - сказал Франц Аман (Franz Aman), директор по маркетингу и главный стратег SGI. – "Нам нравится пользоваться Google Earth из-за возможности уменьшать масштаб и видеть общую картину. С SGI UV 2 мы можем использовать ту же концепцию применительно к "Большим данным" (Big Data), чтобы получать общую картину наших Больших данных".

На базе такого анализа можно выделить четыре периода роста Википедии в плане исторического охвата: 1001-1500 (Средние века), 1501-1729 (Новое время), 1730-2003 (Эпоха просвещения), 2004-2011 (Эра Википедии), и продолжение этого роста, по-видимому, сфокусировано на улучшении описания исторических событий, а не на усиленном документировании настоящего. Средняя тональность в описании Википедией каждого года тесно соотносится с крупными глобальными событиями. При этом наиболее негативный период за последние 1.000 лет приходится на Гражданскую войну в Америке, за которой идет Вторая мировая война. Анализ также показывает, что обусловленный копирайтом пробел, выражающийся в отсутствии большей части двадцатого века в оцифрованных печатных собраниях, не является проблемой для Википедии, где наблюдается устойчивый поступательный рост в освещении этого периода, начиная с 1924 года до сегодняшних дней.

Исследователи могут добывать Большие данные со скоростью Больших данных

"Односторонность связей в Википедии, отсутствие ссылок и неравномерное распределение инфобоксов – все это указывает на наличие ограничений для добычи данных из собраний типа Википедии с опорой на метаданные", - сказал Леетару. – "В случае с SGI UV 2 наличие огромной общей памяти позволило мне относить вопросы ко всему массиву данных в режиме близком к реальному времени. Имея в своем распоряжении огромный объем кэш-когерентной общей памяти, я мог просто написать несколько строк кода и пройтись по всему набору данных, задавая любые приходящие мне в голову вопросы. Это невозможно при использовании метода горизонтального масштабирования. Это все равно что использовать текстовый процессор вместо пишущей машинки: я могу вести свои изыскания совершенно иным способом, концентрируясь на результатах, а не на алгоритмах".

Аналитический подход

Этот огромный массив данных, загруженный в суперкомпьютер SGI® UV™ 2000, подвергся геокодированию и кодированию дат с охватом всех текстов. При этом использовались алгоритмы для выявления всех упоминаний каждого места и каждой даты в тексте каждой статьи Википедии. Было экстрагировано свыше 80 млн. мест и 42 млн. дат за период с 1000 года нашей эры до 2012 года. В среднем это 19 мест и 11 дат на статью (каждые 44 слова и каждые 75 слов соответственно). Связи между каждой датой и каждым местом были зафиксированы в громадной сети, представляющей взгляд Википедии на историю. С таким инструментарием Леетару смог провести в масштабе времени, близком к реальному, анализ всего массива данных на SGI UV 2, чтобы создать визуальные карты во времени и пространстве и увидеть не только то, как разворачивалась история, но и изменение общего настроя мира на протяжении последнего тысячелетия. Он также смог провести интерактивное тестирование широкого спектра теорий и стоящих перед исследователями вопросов, и все это заняло менее одного дня.

Новый SGI UV: компьютер большого ума

Семейство продуктов SGI UV 2 позволяет пользователям находить ответы на самые сложные в мире проблемы при помощи системы, которой столь же проста в администрировании, как и рабочая станция. SGI UV 2, работающий на процессорах семейства Intel® Xeon® E5 со стандартной версией Linux и поддерживающий широкий спектр опций хранения, представляет собой полное, соответствующее отраслевым стандартам решение для ничем не лимитированных вычислений.

Имея всего 16 ядер и 32 гигабайта памяти, SGI UV 2 может начинать с малого и беспроблемно расширяться. Эта платформа нового поколения удваивает количество ядер (до 4096 ядер) и учетверяет объем когерентной основной памяти (до 64 терабайт) по сравнению с предыдущим поколением, используемым для вычислений in-memory в системе с единым представлением вычислений. SGI UV 2 может быть масштабирован до восьми петабайт общей памяти и на пиковой скорости ввода-вывода в четыре терабайта в секунду (14 PB/час) способен менее чем за три секунды вобрать в себя все содержимое собрания печатных изданий Библиотеки Конгресса США.

SGI UV 2000 уже есть в продаже. Заказ на SGI UV 20 можно оформить сегодня, поставки начнутся в августе 2012 года.

SGI

Признанный лидер в области технических вычислений компания SGI стремится помогать своим клиентам в решении самых сложных задач в сферах бизнеса и технологий.

© 2012 Silicon Graphics International Corporation. SGI и логотип SGI являются товарными знаками или зарегистрированными товарными знаками Silicon Graphics International Corp. или ее дочерних компаний в США и/или других странах. Intel и Xeon являются зарегистрированными товарными знаками Intel Corporation. Все остальные коммерческие обозначения и товарные знаки являются собственностью соответствующих владельцев.


Ньюсмейкер: Silicon Graphics International Corporation
Поделиться:

Интересно:

325 лет назад Петр I издал указ о праздновании Нового года 1 января
20.12.2024 13:05 Аналитика
325 лет назад Петр I издал указ о праздновании Нового года 1 января
До конца XV века Новый год на Руси праздновали 1 марта. Эта точка отсчета была связана с тем, что в марте земля пробуждалась от зимнего "сна", начинался новый посевной сезон. С 1495 года Московский государь Иван III приказал перенести празднование Нового года на 1 сентября. Причин для...
19.12.2024 19:56 Интервью, мнения
Праздник к нам приходит: как поддержать атмосферу Нового Года в офисе
Конец года — самое жаркое время за все 12 месяцев, особенно для компаний. Нужно успеть закрыть все задачи, сдать отчёты, подготовить планы, стратегии и бюджеты. И, конечно же, не забывать про праздник, ведь должно же хоть что-то придавать смысл жизни в декабре, помимо годового бонуса.  Не...
Прозвища бумажных денег — разнообразные и многоликие
19.12.2024 18:17 Аналитика
Прозвища бумажных денег — разнообразные и многоликие
Мы часто даем прозвища не только знакомым людям и домашним питомцам, но и вещам, будь то автомобили, компьютеры, телефоны… Вдохновляемся цветом или формой, называем их человеческими именами и даем понять, что они принадлежат только нам и имеют для нас...
Советская военная контрразведка
19.12.2024 17:51 Аналитика
Советская военная контрразведка
Советская военная контрразведка появилась в годы Гражданской войны и неоднократно меняла свою подчиненность, входя то в структуру военного ведомства, то в госбезопасность. 30 мая 1918 г. учрежден первый орган военной контрразведки Красной армии – Военный контроль Оперативного отдела Народного...
Защитить самое ценное: История страхования в России
18.12.2024 13:22 Аналитика
Защитить самое ценное: История страхования в России
С давних времен человек стремится перехитрить свою судьбу. Люди желают знать, что будет, чтобы вовремя подготовиться к возможным перипетиям и обезопасить свое будущее. Вот только карты и гадалки в этом вопросе бессильны, куда надежнее справиться с рисками помогают...