Разработка программных средств конвертирования HTML-текстов в семантические сети
Московский Государственный Университет Путей сообщения
(МИИТ)
Кафедра АСУ
Курсовой проект
«Разработка программных средств конвертирования HTML текстов в
семантическую сеть»
Выполнила:
Студентка 5-го курса группы УИС-511
Болотова Е.А.
Проверил: Саркисян Р.Е.
Москва 2001
Содержание:
Что такое семантическая сеть …………………………..3
Основные сведения о языке HTML …………………….3
1.Введение ………………………………………….3
2.Сруктура HTML-документа ……………………..4
Что такое фреймы ……………………………………….7
Возможности представления знаний на базе
языка HTML ……………………………………………...8
TextAnalyst 2.0 – персональная система
автоматического анализа текста ………………………..14
Принцип работы HTML-конвертора …………………...17
Список использованных источников …………………..21
Что такое семантическая сеть
Семантическая сеть – структура для представления знаний в виде
ориентированного графа, в котором вершины – это понятия, а дуги -
отношения. Термин семантическая означает "смысловая", а сама семантика –
это наука, устанавливающая отношения между символами и объектами, которые
они обозначают, что есть наука, определяющая смысл знаков.
Самые первые семантические сети были разработаны в качестве языка-
посредника для систем машинного перевода. Однако последние версии
семантических сетей стали более мощными и гибкими и составляют конкуренцию
логическому программированию, фреймовым системам и другим языкам
представления.
На сегодняшний день существует множество вариантов семантических сетей.
Их терминология и структура различаются, но существуют сходства, присущие
всем семантическим сетям:
1. Узлы семантических сетей представляют собой концепты предметов,
событий, состояний
2. различные узлы одного концепта относятся к различным значениям,
если они не помечены как относящиеся к одному концепту
3. дуги семантических сетей создают отношения между узлами-
концептами (пометки над дугами указывают на тип отношения)
4. некоторые отношения между концептами представляют собой
лингвистические падежи, такие как агент, объект, реципиент и
инструмент (другие означают временные, пространственные,
логические отношения и отношения между отдельными предложениями
5. концепты организованы по уровням в соответствии со степенью
обобщенности так, как, например, сущность, живое существо,
животное, плотоядное.
Несмотря на некоторые различия, сети удобны для чтения и обработки
компьютером, а также достаточно мощны, чтобы представить семантику
естественного языка.
Наиболее часто в семантических сетях используются следующие отношения:
- связь типа "часть-целое" ("класс-подкласс", "множество-
подмножество" и т.п.)
- функциональные связи, определяемые обычно глаголами
"производит", "принадлежит" и т.п.)
- количественные ("больше", "меньше", "равно" и т.п.)
- пространственные ("близко от", "далеко от" и т.п.)
- временные ("раньше", "позже" и т.п.)
- логические связи ("и", "или" и т.п.)
- лингвистические связи и т.д.
Основные сведения о языке HTML
1. Введение
Все стандартные броузеры для сети Интернет используют способы
представления текстов, основанные на языке HTML. HTML (Hyper Text Markup
Language) – это язык разметки гипертекста. Этот язык «понимают» все
компьютеры, он довольно прост, но при этом имеет достаточные выразительные
средства для удобного описания разных типов документов. Язык позволяет
хранить текст в «чистом» виде (не кодируя его), что делает возможным
просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык
предоставляет авторам Интернет - публикаций средства:
- представления документов, включающих заголовки, тексты, таблицы,
списки, «картинки» и т.п. элементы;
- осуществления навигации по отдельным документам и множеству
документов путем использования гиперссылок;
- конструирования диалоговых форм для взаимодействия с удаленными
сервисами, доступными в сети;
- включения в документы вычисляемых форм (spread-sheets), видео и
звука, равно как и разнообразных приложений.
Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского
Центра ядерных исследований (CERN). В дальнейшем язык претерпел
существенные изменения. К середине 90-х годов произошла стандартизация его
версий, которая стала курироваться международными организациями. В
настоящее время наиболее развитой является версия языка HTML 4.0, в которой
представлены новые возможности аппаратуры и требования производителей
программного обеспечения броузеров, а также пожелания Интернет – авторов.
2. Структура HTML-документа
В HTML – файле находится символьная информация. Часть ее – это данные,
составляющие содержимое документа, а другая часть – HTML – теги, языковые
конструкции, используемые для разметки документа и управляющие его
отображением. Для выделения тегов в тексте HTML – документа эти конструкции
берутся в угловые скобки. Обычно теги используются парами: открывающий и
закрывающий тег.
Типичный HTML – документ имеет следующую структуру:
< ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”
“http://www.w3.org/TR/REC-html40/strict.dtd”>
<HTML>
<HEAD>
<title>Наименование документа </title>
<META> name=keywords content=”Ключевые слова”>
</HEAD>
<body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">
<tr>
<td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Наименование документа </font></td>
</tr>
</table>
<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">
<tr>
<td></td>
</tr>
</table>
<table width="778" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
<td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">
<tr>
<td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>
<td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>
<td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>
<td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>
<td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>
<td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>
<td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">
<!-- CLX 343x60 -->
block
<!-- CLX 343x60 -->
</div></td>
<td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>
</tr>
<tr>
<td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>
<td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>
<td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>
<td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>
<td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>
</tr>
<tr>
<td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td bgcolor="ead292" align="center">
<!-- CLX 468x60 -->
<script>//<!--
document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');
// --></script>
<!-- CLX 468x60 -->
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td bgcolor="ead292">
Тело документа
<br>
<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">
<tr>
<td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Наименование документа "</b> в избранное нажмине <b>Ctrl+D</b></font></td>
</tr>
</table>
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td align="center" bgcolor="ead292">
<!-- CLX 468x60 rotator-->
<script>//<!--
document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');
// --></script>
<!-- CLX 468x60 rotator-->
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>
E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>
</span></td>
<td width="597"><div align="right">
<!--LiveInternet counter--><script language="JavaScript"><!--
document.write('<a href="http://www.liveinternet.ru/click" '+
'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+
escape(document.referrer)+((typeof(screen)=='undefined')?'':
';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?
screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+
';'+Math.random()+
'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+
'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->
<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">
<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>
</a>
<!-- HotLog -->
<script language="javascript">
hotlog_js="1.0";
hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+
escape(window.location.href);
document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");
</script><script language="javascript1.1">
hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>
<script language="javascript1.2">
hotlog_js="1.2";
hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+
(((navigator.appName.substring(0,3)=="Mic"))?
screen.colorDepth:screen.pixelDepth)</script>
<script language="javascript1.3">hotlog_js="1.3"</script>
<script language="javascript">hotlog_r+="&js="+hotlog_js;
document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+
" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+
hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>
<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img
src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0
width="88" height="31" alt="HotLog"></a></noscript>
<!-- /HotLog -->
<!-- SpyLOG f:0211 -->
<script language="javascript"><!--
Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;
Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();
Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();
Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;
if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";
//--></script><script language="javascript1.1"><!--
Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;
//--></script><script language="javascript1.2"><!--
Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;
Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;
//--></script><script language="javascript1.3"><!--
Msl="1.3";//--></script><script language="javascript"><!--
My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";
My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);
My+="' border=0 width=88 height=31 alt='SpyLOG'>";
My+="</a>";Md.write(My);//--></script><noscript>
<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">
<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >
</a></noscript>
<!-- SpyLOG -->
</div></td>
</tr>
</table>
<br>
</body>
</HTML>
В приведенном фрагменте комментарий <!DOCTYPE …> фиксирует текущее
состояние спецификации версии языка HTML. Документ должен открываться тегом
<HTML>, закрываться тегом </HTML> и состоять из двух частей: заголовка и
тела документа.
Заголовок находится между тегами <HEAD> и </HEAD> и содержит служебную
информацию. В представленном выше фрагменте HTML – документа показаны два
компонента заголовка:
- <title>Заглавие </title> - строка символов, которая отображается
в заголовке окна броузера.
- <META> - дополнительная информация об HTML – документе (в нашем
примере этот тег с помощью параметров name и content фиксирует
значение первого атрибута как keywords, а второго – как ключевые
слова «Представление знаний» и «Мультиагентные системы»). Этот тег
ориентирован на аннотирование Интернет – документов и значительно
облегчает задачу индексирования их, например, с помощью сетевых
роботов.
Кроме этих компонентов заголовок может содержать еще и другие теги:
- <BASE> - базовый адрес, используемый при обработке относительных
URL,
- <LINK> - используется для связи HTML-документа с другими
источниками данных.
Собственно содержание документа находится в теле между тегами <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">
<tr>
<td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Заглавие </font></td>
</tr>
</table>
<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">
<tr>
<td></td>
</tr>
</table>
<table width="778" border="0" align="center" cellpadding="0" cellspacing="0">
<tr>
<td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">
<tr>
<td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>
<td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>
<td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>
<td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>
<td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>
<td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>
<td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">
<!-- CLX 343x60 -->
block
<!-- CLX 343x60 -->
</div></td>
<td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>
</tr>
<tr>
<td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>
<td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>
<td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>
</tr>
<tr>
<td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>
<td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>
<td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>
</tr>
<tr>
<td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>
<td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td bgcolor="ead292" align="center">
<!-- CLX 468x60 -->
<script>//<!--
document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');
// --></script>
<!-- CLX 468x60 -->
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td bgcolor="ead292">
и
<br>
<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">
<tr>
<td bgcolor="dcc68b"><font face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Заглавие "</b> в избранное нажмине <b>Ctrl+D</b></font></td>
</tr>
</table>
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td colspan="2"><table width="100%" border="0" cellpadding="0" cellspacing="0">
<tr>
<td width="6" background="/images/tbl-left-top.gif"></td>
<td height="6" background="/images/tbl-top.gif"></td>
<td width="6" background="/images/tbl-right-top.gif"></td>
</tr>
<tr>
<td width="6" background="/images/tbl-left.gif"></td>
<td align="center" bgcolor="ead292">
<!-- CLX 468x60 rotator-->
<script>//<!--
document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');
// --></script>
<!-- CLX 468x60 rotator-->
</td>
<td width="6" background="/images/tbl-right.gif"></td>
</tr>
<tr>
<td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
<td height="6" background="/images/tbl-bottom.gif"></td>
<td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
</tr>
</table></td>
</tr>
<tr>
<td colspan="2"> </td>
</tr>
<tr>
<td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>
E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>
</span></td>
<td width="597"><div align="right">
<!--LiveInternet counter--><script language="JavaScript"><!--
document.write('<a href="http://www.liveinternet.ru/click" '+
'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+
escape(document.referrer)+((typeof(screen)=='undefined')?'':
';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?
screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+
';'+Math.random()+
'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+
'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->
<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">
<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>
</a>
<!-- HotLog -->
<script language="javascript">
hotlog_js="1.0";
hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+
escape(window.location.href);
document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");
</script><script language="javascript1.1">
hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>
<script language="javascript1.2">
hotlog_js="1.2";
hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+
(((navigator.appName.substring(0,3)=="Mic"))?
screen.colorDepth:screen.pixelDepth)</script>
<script language="javascript1.3">hotlog_js="1.3"</script>
<script language="javascript">hotlog_r+="&js="+hotlog_js;
document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+
" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+
hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>
<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img
src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0
width="88" height="31" alt="HotLog"></a></noscript>
<!-- /HotLog -->
<!-- SpyLOG f:0211 -->
<script language="javascript"><!--
Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;
Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();
Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();
Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;
if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";
//--></script><script language="javascript1.1"><!--
Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;
//--></script><script language="javascript1.2"><!--
Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;
Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;
//--></script><script language="javascript1.3"><!--
Msl="1.3";//--></script><script language="javascript"><!--
My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";
My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);
My+="' border=0 width=88 height=31 alt='SpyLOG'>";
My+="</a>";Md.write(My);//--></script><noscript>
<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">
<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >
</a></noscript>
<!-- SpyLOG -->
</div></td>
</tr>
</table>
<br>
</body>. Иногда вместо этих тегов можно встретить тег <FRAMESET>, который
определяет специальный тип документа – Web-страницу с кадрами или фреймами.
Как правило, тело HTML-документа состоит из последовательности
структурных единиц, базисными из которых являются:
- заголовки разного уровня (текст, заключенный между тегами <Hi> и
</Hi>), где i может меняться от 1 до 6;
- параграфы (текст, заключенный между тегами <P> и </P>).
Это минимальные средства форматирования документа. Естественно, что в
HTML эти средства значительно богаче (всевозможные выравнивания, табуляция,
несколько видов списков, таблицы и т.д.).
Наиболее важными базовыми конструкциями языка HTML являются якоря.
Синтаксически эти конструкции представлены тегами <A> и </A> с атрибутами
name и href. Якорем является конструкция вида:
<A name=«Метка»>Текст</A>
Эта конструкция обеспечивает уникальное в пределах документа имя начала
определенного фрагмента HTML-текста. При этом текст, заключенный между
тегами <A> и </A>, как правило, задает семантически значимое наименование
заголовка.
Для ссылок на помеченные таким образом части Интернет - документа
используются конструкции следующего вида:
1) <A href=«#Метка»/index.html#Метка»>Текст</A> - Задает локальную ссылку на часть
документа, начинающуюся с указанной метки
2) <A href=«URL»/index.html>Текст</A> - Задает глобальную ссылку на документ в
сети, однозначно идентифицируемый с помощью URL (Unified Resource
Locator) – Интернет – адрес: имя домена, уточненное названием
протокола и собственное имя документа, включая путь к нему в
пределах данного домена.
Важными конструкциями HTML также являются таблицы с богатыми
возможностями многоуровневых заголовков и формы, с помощью которых в язык
введены средства обеспечения диалога с читателями Интернет - документов.
Базисными конструкциями форм являются редактируемые текстовые поля,
элементы выбора, различные кнопки и т.д.
Пример создания таблицы:
<TABLE>
<TR>
<TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD>
</TR>
<TR>
<TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD>
</TR>
Простейший пример создания формы:
<FORM METHOD=”POST” …>
<P> Вы можете ввести в поле одну строку
<INPUT NAME=”entry”>
</P> Для обработки результатов ввода нажмите кнопку
<INPUT TYPE=”submit” VALUE=”Принять запрос”>
</P>
</FORM>
Еще одна важная конструкция – это фреймы (frames). С их помощью можно
разделить документ на части и представлять их в отдельных,
неперекрывающихся областях экрана. Такое представление информации
характерно для многооконных приложений.
Кроме этого имеются и другие конструкции разметки Интернет –
документов. Среди этих конструкций надо отметить более четкое разделение
между структурой документа и его представлением за счет использования
таблиц стилей, скриптов, поддерживающих, в частности, создание динамических
страниц, новый механизм интеграции текстовых и графических ссылок,
исполняемый на стороне клиента и стандартизацию механизма подключения к
HTML-документам базисных медиаобъектов и приложений.
Что такое фреймы
Термин фрейм был предложен в 70-е годы для обозначения структуры знаний
для восприятия пространственных сцен. Фрейм – это абстрактный образ для
представления некоего стереотипа восприятия. Фреймом также называется и
формализованная модель для отображения образа.
Различают:
- фреймы-образцы (прототипы) – хранятся в базе данных
- фреймы-экземпляры – создаются для отображения реальных фактических
ситуаций на основе поступающих данных
- фреймы-структуры – используются для обозначения объектов и понятий
- фреймы-роли
- фреймы-сценарии
- фреймы-ситуации
Обычно структура фрейма представляется как список свойств:
(ИМЯ ФРЕЙМА:
(имя 1-го слота: значение 1-го слота),
(имя 2-го слота: значение 2-го слота),
--------------------------
(имя N-го слота: значение N-го слота)
В качестве значения слота может выступать имя другого фрейма, так
образуется сеть фреймов.
Существует несколько способов получения слотом значений во фрейме-
экземпляре:
- по умолчанию от фрейма-образца (значение default)
- через наследование свойств от фрейма, указанного в слоте АКО (a
kind of)
- по формуле, указанной в слоте
- через присоединенную процедуру
- явно из диалога с пользователем
- из базы данных.
Возможности представления знаний на базе языка HTML
Рассмотрим, каким образом HTML-документ может быть представлен в виде
семантической сети. Нам необходимо выделить те конструкции языка, которые
могут быть полезными для решения этой задачи.
Прежде всего, к числу таких конструкций относятся теги типа <TITLE>,
<META…> и <A…>. Первый тег важен для фиксации семантики всего HTML –
документа, так как текст, заключенный между тегами <title>и </title> чаще
всего отражает его назначение или содержание.
Теги типа <META…> вводят имена атрибутов и их значения с помощью
параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения
между частями одного документа или между отдельными документами.
Теги типа <META…> явно вводят семантику значений атрибутов, одинаково
интерпретируемых броузерами за счет ключевых слов, которые могут быть
значениями параметра name.
Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее
якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso
(смотри также), в других случаях – ConsistOf, PartOf или иное подходящее
имя, но семантика данной конструкции имплицитна, а встроенная интерпретация
ее связана лишь с переходом по ссылке и визуализацией начала
соответствующего фрагмента документа или загрузкой нового документа для
просмотра.
Другими полезными конструкциями являются заголовки разделов и
подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие
элементы языка.
Но в целом, выделение значимых для семантической интерпретации
конструкций является экспертной задачей, решаемой каждый раз автором
соответствующей Интернет - публикации по-своему. Но существуют определенные
стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в
большинстве случаев представляются таблицами или списками, либо «зашиты» в
чувствительные для щелчка мыши графические объекты. Это характерно и для
индексов на сайтах машин поиска.
Рассмотрим в качестве примера страницу официального сайта компании
Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На
этой странице располагается по информация по программе TextAnalyst 2.0.
Экранная форма этой страницы показана на рисунке.
[pic]
Фрагмент соответствующего HTML – текста представлен ниже:
<html>
<head>
---------------------------------
<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining,
knowledge discovery, textmining, e-commerce, classification, semantic
analysis, neuro networks, natural linguistc, text processing, Микросистемы,
анализ текстов, база знаний, документооборот, классификация, семантический
анализ, нейронные сети, натуральные языки, текст процессор">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>Microsystems, Ltd" --><title>и </title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
-----------------------------------------------
<body topmargin="0" leftmargin="0">
<table border="0" cellspacing="0" cellpadding="0">
<tr>
<td valign="top" width="239"><a href="../../Wcf66ee0a62d3a.htm"><img
border="0" src="../../images/top_logo.gif"></a></td>
<td valign="top" align="left">
<table border="0" cellspacing="0" cellpadding="0">
<tr><td width="100%"><img border="0"
src="../../images/top_up.gif">
</td></tr>
<tr> <td width="100%">
<table border="0" cellspacing="0" cellpadding="0" width="100%"
bgcolor="#001395" height="23">
<tr><td width="100%">
-------------------------------------
</table>
</td></tr>
</table>
<!-- end menu -->
----------------------------------------------
<!-- start menu here -->
<table border="0" cellspacing="0" cellpadding="0" width="100%">
<tr> <td width="241" valign="top" align="left">
<table border="0" width="100%" cellspacing="0" cellpadding="0">
<tr><td width="100%">
<p> </p>
<p align="center">
<img border="0" src="../../images/10thyear_s.gif" width="210" height="52">
</p>
</td></tr>
<tr><td width="100%" valign="top" align="left">
<!-- left menu-->
<table border="0" width="218">
<tr><td width="210" bgcolor="#DDDDDD" valign="top"
align="left">
<p align="right"><b>Products</b></td>
</tr>
<tr onmouseout="this.style.backgroundColor='transparent'"
onmouseover="this.style.backgroundColor='#6B8ADE'">
<td width="210" align="right">
<a href="../../Wceda57023d7c.htm" target="_self">
<span style="color: #000000; text-decoration: none">
TextAnalyst SDK</span></a>
</td></tr>
<tr><td width="210" align="right">
<p align="right"><img border="0" src="../../images/bd14580_.gif" width="12"
height="12">
TextAnalyst</p>
</td></tr>
<tr onmouseout="this.style.backgroundColor='transparent'"
onmouseover="this.style.backgroundColor='#6B8ADE'">
<td width="210" align="right">
<a href="../../Wc902bd7625022.htm" target="_self">
<span style="color: #000000; text-decoration: none">
Text Referent</span></a>
</td></tr>
<!-- end left menu-->
----------------------------------------
</table>
<!-- end here -->
</td>
<!-- free space -->
<td valign="top" align="left">
</td>
<!-- end free space -->
<td valign="top" align="left" width=100% >
<!-- content started here -->
<table border="0" cellspacing="6" cellpadding="0">
<tr> <td width="100%" valign="top" align="left">
<head>
<meta name="DESCRIPTION" content="TextAnalyst - personal text mining
system">
<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">
<title>TextAnalyst" --><title>и </title>
</head>
<div align="left">
<table border="0" align="left" cellspacing="4" cellpadding="3">
<tr> <td valign="top" align="center" width="250">
<p align="center"> </p>
<p align="center"><a href="cgi-bin/stat/Wc9a5bb9f3be1d.htm">
<img border="0" src="images/downloads.gif"></a></p>
<p align="center">Получите бесплатную версию
TextAnalyst</p>
<table border="0">
<tr><td width="100%" bgcolor="#008000">
<p align="center" class="menu">
<font color="#FFFFFF">Системные требования</font></td>
</tr>
<tr><td width="100%">Intel-based PC</td> </tr>
<tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>
<tr> <td width="100%" bgcolor="#C0C0C0">
<p align="center" class="menu">
<font color="#FFFFFF">Технические характеристики</font></td>/tr>
<tr><td width="100%" valign="top" align="left">
<ul>
<li> Средняя скорость анализа текста около 1Мбайт/мин (при
использовании Pentium-II).</li>
<li>Максимальный объем анализируемой подборки не ограничен и
зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>
<li>Собственный объем TextAnalyst не превышает 5Мб.</li>
<li>Форматы обрабатываемых файлов:</li>
<li>*.txt (ANSI, DOS), *.rtf</li>
<li>Экспорт информации в форматы: *.txt,
*.csw (электронные таблицы).</li>
</ul> </td></tr>
</table>
-----------------------------------
<h1 align="center">
<img border="0" src="../../images/octopus_shaden.gif"
align="left" width="99" height="112">TextAnalyst 2.0 </h1>
<p align="center"><b>персональная система автоматического
анализа текста </b></p>
<p>TextAnalyst разработан в качестве инструмента для анализа
содержания текстов, смыслового поиска информации, формирования электронных
архивов, и предоставляет пользователю следующие основные
возможности: </p>
<ul>
<li>анализа содержания текста с автоматическим формированием
семантической сети с гиперссылками - получения смыслового портрета текста в
терминах основных понятий и их смысловых связей; </li>
<li>анализа содержания текста с автоматическим формированием
тематического древа с гиперссылками - выявления семантической структуры
текста в виде иерархии тем и подтем; </li>
<li>смыслового поиска с учетом скрытых смысловых связей слов
запроса со словами текста; </li>
<li>автоматического реферирования текста - формирования его
смыслового портрета в терминах наиболее информативных фраз; </li>
<li>кластеризации информации - анализа распределения
материала текстов по тематическим классам;</li>
<li>автоматической индексации текста с преобразованием в
гипертекст; </li>
<li>ранжирования всех видов информации о семантике текста по
«степени значимости» с возможностью варьирования детальности ее
исследования; </li>
<li>автоматического/автоматизированного формирования
полнотекстовой базы знаний с гипертекстовой структурой и возможностями
ассоциативного доступа к информации; </li>
</ul>
<p align="center"><b>Не пугайтесь обилия возможностей!</b></p>
<p align="center"><i>Работа с TextAnalyst покажется Вам
неожиданно простой и приятной, а его аналитические способности сэкономят
массу полезного времени...
</i></p></td> </tr>
</table></div></td> </tr>
</table>
----------------------------------
</td></tr></table>
</html>
Сравнив приведенные экранную форму и HTML-текст, видим, что
семантически значимыми элементами данного документа являются:
- ключевые слова, относящиеся к данному документу: Microsystems,
TextAnalyst, text mining, knowledge discovery, textmining, e-commerce,
classification, semantic analysis, neuro networks, natural linguistc,
text processing, Микросистемы, анализ текстов, база знаний,
документооборот, классификация, семантический анализ, нейронные сети,
натуральные языки, текст процессор (тег <META>);
- все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых
(тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно
перейти к другой интересующей информации. Например, можно получить