odps/static/algorithms/recommend.xml (5 lines of code) (raw):
<?xml version='1.0' encoding='UTF-8'?>
<algorithms baseClass="BaseTrainingAlgorithm">
<algorithm codeName="etrec">
<baseClass>BaseProcessAlgorithm</baseClass>
<docs><![CDATA[
eTREC是推荐系统中广泛使用的基于物品的协同过滤(item-based collaborative filtering)算法在MR上的高效实现(上亿的user和item
矩阵可在20分钟左右计算完成),支持常用的以及自定义的相似度计算方法。
目前应用在手机淘宝、PC淘宝首页及各行业、非搜广告、一淘和淘宝搜索等数十个上线场景中,是计算行为相关性的有效利器,大幅度提升了各
业务指标。
%params%
]]></docs>
<params>
<param name="inputTableName">
<exporter>get_input_table_name</exporter>
<inputName>input</inputName>
</param>
<param name="inputTablePartitions">
<exporter>get_input_partitions</exporter>
<inputName>input</inputName>
</param>
<param name="selectedColNames">
<alias>cols</alias>
<exporter>$package_root.recommend._customize.get_rec_triple_selected_col_names</exporter>
<inputName>input</inputName>
</param>
<param name="outputTableName">
<exporter>get_output_table_name</exporter>
<outputName>output</outputName>
</param>
<param name="inputTableFormat">
<exporter>$package_root.recommend._customize.get_etrec_table_format</exporter>
<inputName>input</inputName>
</param>
<param name="similarityType">
<value>wbcosine</value>
<docs>相似度类型,可选 wbcosine,asymcosine,jaccard,默认为 wbcosine</docs>
</param>
<param name="topN">
<value>2000</value>
<min>1</min>
<max>10000</max>
<docs>输出结果中最多保留多少个相似物品。默认为 2000</docs>
</param>
<param name="minUserBehavior">
<value>2</value>
<min>2</min>
<docs>当用户的物品数小于此值时,忽略该用户的行为。默认为 2</docs>
</param>
<param name="maxUserBehavior">
<value>500</value>
<min>2</min>
<max>100000</max>
<docs>当用户的物品数大于此值时,忽略该用户的行为。默认为 500</docs>
</param>
<param name="kvDelimiter">
<exporter>get_kv_delimiter(default=:)</exporter>
<inputName>input</inputName>
<docs>输出表物品id与相似度间的分割符,当输入表格式为items时,也是输入表物品与payload的分隔符。默认为半角冒号</docs>
</param>
<param name="itemDelimiter">
<exporter>get_item_delimiter(default=\,)</exporter>
<inputName>input</inputName>
<docs>输出表不同物品间的分割符,当输入表格式为items时,也是输入表物品间的分隔符。默认为半角逗号</docs>
</param>
<param name="alpha">
<value>0.5</value>
<docs>当similarityType为asymcosine类型时,平滑因子的值。默认为 0.5</docs>
</param>
<param name="weight">
<value>1.0</value>
<docs>当similarityType为asymcosine类型时,权重指数。默认为 1.0</docs>
</param>
<param name="operator">
<value>add</value>
<docs>当同一user的某个物品出现多次时,payload的计算行为。默认为 add</docs>
</param>
</params>
<ports>
<port name="input">
<ioType>INPUT</ioType>
<sequence>1</sequence>
<type>DATA</type>
</port>
<port name="output">
<ioType>OUTPUT</ioType>
<sequence>1</sequence>
<type>DATA</type>
<schema>
<schema>itemid: string, similarity: string</schema>
</schema>
</port>
</ports>
<metas>
<meta name="xflowName" value="etrec"/>
<meta name="xflowProjectName" value="algo_public"/>
</metas>
</algorithm>
</algorithms>