content/release/release-2.25/zh_CN/concepts.html (263 lines of code) (raw):
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta content="Apache Forrest" name="Generator">
<meta name="Forrest-version" content="0.9">
<meta name="Forrest-skin-name" content="lucene">
<title>概要</title>
<link type="text/css" href="../skin/basic.css" rel="stylesheet">
<link media="screen" type="text/css" href="../skin/screen.css" rel="stylesheet">
<link media="print" type="text/css" href="../skin/print.css" rel="stylesheet">
<link type="text/css" href="../skin/profile.css" rel="stylesheet">
<script src="../skin/getBlank.js" language="javascript" type="text/javascript"></script><script src="../skin/getMenu.js" language="javascript" type="text/javascript"></script><script src="../skin/fontsize.js" language="javascript" type="text/javascript"></script>
<link rel="shortcut icon" href="../images/favicon.ico">
</head>
<body onload="init()">
<script type="text/javascript">ndeSetTextSize();</script>
<div id="top">
<!--+
|breadtrail
+-->
<div class="breadtrail">
<a href="http://www.apache.org/">Apache</a> > <a href="http://manifoldcf.apache.org">ManifoldCF</a> > <a href="">Release Documentation</a><script src="../skin/breadcrumbs.js" language="JavaScript" type="text/javascript"></script>
</div>
<!--+
|header
+-->
<div class="header">
<!--+
|start group logo
+-->
<div class="grouplogo">
<a href="https://www.apache.org"><img class="logoImage" alt="Apache" src="../images/SupportApache-small-128.png" title="Apache Software Foundation"></a>
</div>
<!--+
|end group logo
+-->
<!--+
|start Project Logo
+-->
<div class="projectlogo">
<a href="http://manifoldcf.apache.org"><img class="logoImage" alt="Apache ManifoldCF" src="../images/ManifoldCF-logo.PNG" title="ManifoldCF"></a>
</div>
<!--+
|end Project Logo
+-->
<div class="projectlogo">
<a href="https://www.apache.org/events/current-event.html"><img class="logoImage" src="https://www.apache.org/events/current-event-234x60.png"></a>
</div>
<!--+
|start Tabs
+-->
<ul id="tabs">
<li>
<a class="unselected" href="..">Hello!</a>
</li>
<li>
<a class="unselected" href="../en_US/index.html">English</a>
</li>
<li>
<a class="unselected" href="../ja_JP/index.html">日本語</a>
</li>
<li class="current">
<a class="selected" href="../zh_CN/index.html">中文</a>
</li>
</ul>
<!--+
|end Tabs
+-->
</div>
</div>
<div id="main">
<div id="publishedStrip">
<!--+
|start Subtabs
+-->
<div id="level2tabs"></div>
<!--+
|end Endtabs
+-->
<script type="text/javascript"><!--
document.write("Last Published: " + document.lastModified);
// --></script>
</div>
<!--+
|breadtrail
+-->
<div class="breadtrail">
</div>
<!--+
|start Menu, mainarea
+-->
<!--+
|start Menu
+-->
<div id="menu">
<div onclick="SwitchMenu('menu_selected_1.1', '../skin/')" id="menu_selected_1.1Title" class="menutitle" style="background-image: url('../skin/images/chapter_open.gif');">中文</div>
<div id="menu_selected_1.1" class="selectedmenuitemgroup" style="display: block;">
<div class="menuitem">
<a href="../zh_CN/index.html">概要</a>
</div>
<div onclick="SwitchMenu('menu_selected_1.1.2', '../skin/')" id="menu_selected_1.1.2Title" class="menutitle" style="background-image: url('../skin/images/chapter_open.gif');">文档</div>
<div id="menu_selected_1.1.2" class="selectedmenuitemgroup" style="display: block;">
<div class="menupage">
<div class="menupagetitle">概要</div>
</div>
<div class="menuitem">
<a href="../zh_CN/included-connectors.html">连接器一览</a>
</div>
<div class="menuitem">
<a href="../zh_CN/faq.html">Q&A</a>
</div>
<div class="menuitem">
<a href="../zh_CN/javadoc.html">Javadoc</a>
</div>
<div class="menuitem">
<a href="../zh_CN/technical-resources.html">开发人员资源</a>
</div>
<div class="menuitem">
<a href="../zh_CN/end-user-documentation.html">用户手册(HTML)</a>
</div>
</div>
</div>
<div id="credit"></div>
<div id="roundbottom">
<img style="display: none" class="corner" height="15" width="15" alt="" src="../skin/images/rc-b-l-15-1body-2menu-3menu.png"></div>
<!--+
|alternative credits
+-->
<div id="credit2"></div>
</div>
<!--+
|end Menu
+-->
<!--+
|start content
+-->
<div id="content">
<h1>概要</h1>
<div id="minitoc-area">
<ul class="minitoc">
<li>
<a href="#%E6%A6%82%E8%A6%81">概要</a>
<ul class="minitoc">
<li>
<a href="#ManifoldCF%E6%96%87%E6%A1%A3%E6%A8%A1%E5%9E%8B">ManifoldCF文档模型</a>
</li>
<li>
<a href="#ManifoldCF%E5%AE%89%E5%85%A8%E6%A8%A1%E5%9E%8B">ManifoldCF安全模型</a>
</li>
<li>
<a href="#ManifoldCF%E6%A6%82%E5%BF%B5%E6%80%A7%E5%AE%9E%E4%BD%93">ManifoldCF概念性实体</a>
<ul class="minitoc">
<li>
<a href="#%E8%BF%9E%E6%8E%A5%E5%99%A8">连接器</a>
</li>
<li>
<a href="#%E8%BF%9E%E6%8E%A5">连接</a>
</li>
<li>
<a href="#%E4%BD%9C%E4%B8%9A">作业</a>
</li>
<li>
<a href="#%E6%8E%88%E6%9D%83%E5%9F%9F">授权域</a>
</li>
<li>
<a href="#%E6%9D%83%E9%99%90%E7%BB%84">权限组</a>
</li>
</ul>
</li>
</ul>
</li>
</ul>
</div>
<a name="N1000E"></a><a name="%E6%A6%82%E8%A6%81"></a>
<h2 class="h3">概要</h2>
<div class="section">
<p>ManifoldCF是为下述目的而设计的爬虫框架。</p>
<p></p>
<ul>
<li>可信赖,可从关闭或重启状态迅速恢复</li>
<li>增量式,事先在作业中定义所搜集的文档条件,并反复执行作业而获取文档差分</li>
<li>可同时连接不同类型的存储库搜集文档</li>
<li>定义并完全支持文档安全模型。根据不同的用户权限显示文档的搜索结果</li>
<li>保持切合实际的运转效率,并具有高吞吐量</li>
<li>可控制和预测内存使用量</li>
</ul>
<p></p>
<p>ManifoldCF使用关系型数据库实现其体系结构。当前版本支持Postgresql,Derby,MySQL。其它数据库的使用也在考虑中。</p>
<p></p>
<a name="N10035"></a><a name="ManifoldCF%E6%96%87%E6%A1%A3%E6%A8%A1%E5%9E%8B"></a>
<h3 class="h4">ManifoldCF文档模型</h3>
<p></p>
<p>ManifoldCF的各文档由二进制数据和相关元数据构成,并附上唯一的URI。与其组合使用的搜索引擎需支持此规格。</p>
<p></p>
<p>文档可以和访问令牌联系起来。关于访问令牌将在下一节说明。</p>
<p></p>
<a name="N10048"></a><a name="ManifoldCF%E5%AE%89%E5%85%A8%E6%A8%A1%E5%9E%8B"></a>
<h3 class="h4">ManifoldCF安全模型</h3>
<p></p>
<p>ManifoldCF安全模型支持微软的Active Directory认证以及层次模型。这是因为许多企业使用Active Directory管理文件和文档的许可/权限。还有,Active Directory由很多第三方软件所利用。</p>
<p></p>
<p>ManifoldCF使用<em>访问令牌</em>的概念。ManifoldCF里访问令牌为,依赖于连接器的字符串。是否将文档显示给用户由此字符串所控制。利用Active Directory时,访问令牌为Active Directory SID(例:S-1-23-4-1-45)です。在LiveLink里访问令牌为具有其它含义的字符串。</p>
<p></p>
<p>ManifoldCF安全模型中,由<em>权限连接器</em>为将执行搜索的用户生成访问令牌一览。搜索受多个安全管理的服务器时,权限连接器组合访问令牌。所生成的访问令牌一览伴随搜索结果发送到搜索引擎。搜索引擎通过此信息限制向用户公开的内容。</p>
<p></p>
<p>生成文档索引后,ManifoldCF将访问令牌传给搜索引擎。访问令牌包括[允许]和[拒绝]两种令牌。另外,访问令牌和Active Directory同样可[共享],[フォルダ],[ファイル]に安全を设置することができます。</p>
<p></p>
<p>搜索引擎根据访问令牌决定所显示的搜索結果。作为搜索引擎使用Solr 1.5时,为使其标准化提供Apache Solr工程的SearchComponent插件和说明书( <a href="https://issues.apache.org/jira/browse/SOLR-1895">SOLR-1895</a>)。</p>
<p></p>
<a name="N10074"></a><a name="ManifoldCF%E6%A6%82%E5%BF%B5%E6%80%A7%E5%AE%9E%E4%BD%93"></a>
<h3 class="h4">ManifoldCF概念性实体</h3>
<p></p>
<a name="N1007C"></a><a name="%E8%BF%9E%E6%8E%A5%E5%99%A8"></a>
<h4>连接器</h4>
<p></p>
<p>ManifoldCF具有如下三个连接器:</p>
<p></p>
<ul>
<li>权限连接器</li>
<li>存储库连接器</li>
<li>输出连接器</li>
</ul>
<p></p>
<p>所有连接器具有共同功能。首先,所有连接器被池化。ManifoldCF管理所设连接器的实例。还可设实例数的上限。连接器实现了在ManifoldCF管理的缓冲池内管理自身的方法。连接器可以设置。连接器设置可通过依赖于连接器实现的XML语句实现。在ManifoldCF,所设连接器的实例称为<em>连接</em>。</p>
<p></p>
<p>连接器具有下述功能:</p>
<p></p>
<table class="ForrestTable" cellspacing="1" cellpadding="4">
<tr>
<th colspan="1" rowspan="1">连接器类型</th><th colspan="1" rowspan="1">功能</th>
</tr>
<tr>
<td colspan="1" rowspan="1">权限连接器</td><td colspan="1" rowspan="1">保证存储库做到将用户名和访问令牌联系起来。</td>
</tr>
<tr>
<td colspan="1" rowspan="1">存储库连接器</td><td colspan="1" rowspan="1">可从指定的存储库(例:SharePoint,Web)搜集文档</td>
</tr>
<tr>
<td colspan="1" rowspan="1">输出连接器</td><td colspan="1" rowspan="1">将搜集文档和相关处理(添加,删除等)发到后台搜索引擎或象Lucene的实体</td>
</tr>
</table>
<p></p>
<a name="N100D2"></a><a name="%E8%BF%9E%E6%8E%A5"></a>
<h4>连接</h4>
<p></p>
<p>正如上述说明,<em>连接</em>是指连接的实现及连接器固有的设置信息。可从Web浏览器加以设置。</p>
<p></p>
<p>连接器设置用来设置“如何搜集”而非“搜集什么”。比如,LiveLink连接设置和LiveLink服务器的连接方法。并不设置搜集哪些文档。</p>
<p></p>
<p>
<em>存储库连接</em>和<em>权限连接</em>以及输出连接的设置不尽相同。存储库连接里设置权限连接。这是因为ManifoldCF所搜集的<strong>所有</strong>文档需要适当的访问令牌。</p>
<p></p>
<a name="N100F5"></a><a name="%E4%BD%9C%E4%B8%9A"></a>
<h4>作业</h4>
<p></p>
<p>ManifoldCF中<em>作业</em>是指定存储库连接和输出连接的同步操作。作业包括:</p>
<p></p>
<ul>
<li>详细说明</li>
<li>存储库连接(暗含权限组)</li>
<li>输出连接</li>
<li>存储库连接指定的作业对象文档和元数据的说明</li>
<li>爬取模型:“运行至完成”或“连续执行”</li>
<li>作业调度:指定时间段或立即执行</li>
</ul>
<p></p>
<p>多个作业可共享存储库连接器。即,ManifoldCF允许设置可从多个作业搜集同一个文档,但不推荐通过不同作业搜集相同文档。</p>
<a name="N10120"></a><a name="%E6%8E%88%E6%9D%83%E5%9F%9F"></a>
<h4>授权域</h4>
<p></p>
<p>ManifoldCF支持用户联合概念。举个例子,假设一个用户针对FaceBook, Windows, Google拥有各自的登录名。
我们可为此用户定义三个不同的授权域:"FaceBook", "Windows", "Google".</p>
<p>在ManifoldCF, 每一个权限了解来自指定授权域的用户名和ID。这将允许ManifoldCF被设置成
可以合并生成自多个独立源的访问令牌,即使每一个源被输入不同的用户名。</p>
<a name="N1012F"></a><a name="%E6%9D%83%E9%99%90%E7%BB%84"></a>
<h4>权限组</h4>
<p></p>
<p>ManifoldCF按权限连接加以分组,故可将多个权限赋予同一个文档。
一个权限组只不过是一个名称和描述,它被属于此权限组的权限连接所参照,同时还被希望受此权限组保护的存储库连接所参照。
至于最简单的存储库,通常一个权限就是一个权限组。
但是,具有联邦安全能力的存储库(如,支持Claim空间的SharePoint)可以使用多个权限为一个文档定义安全。
在次情形下,权限组允许设置适当的多对多关系。</p>
</div>
</div>
<!--+
|end content
+-->
<div class="clearboth"> </div>
</div>
<div id="footer">
<!--+
|start bottomstrip
+-->
<div class="lastmodified">
<script type="text/javascript"><!--
document.write("Last Published: " + document.lastModified);
// --></script>
</div>
<div class="copyright">
Copyright ©
2009-2024 <a href="http://www.apache.org/licenses/">The Apache Software Foundation.</a>
</div>
<div class="copyright">
Apache ManifoldCF, ManifoldCF, Apache Forrest, Forrest, Apache Solr, Solr, Apache, the Apache feather logo, the Apache Forrest
logo, and the Apache ManifoldCF logo are trademarks of The Apache Software Foundation.
Documentum and EMC are a trademarks of EMC Corporation.
SharePoint, Windows, and Microsoft are trademarks of Microsoft, Inc.
FileNet P8 and IBM are trademarks of IBM, Inc.
LiveLink and OpenText are trademarks of OpenText, Inc.
QBase, MetaCarta, and GTS are trademarks of QBase, Inc.
Meridio and Autonomy are trademarks of Hewlett Packard, Inc.
Alfresco is a trademark of Alfresco Software, Inc.
Jira is a trademark of Atlassian, Inc.
</div>
<!--+
|end bottomstrip
+-->
</div>
</body>
</html>