信息网络: 信息网络是对现实世界的抽象, 重点关注于对象及其之间的交互。 . 定义: 信息网络定义为一个具有对象类型映射函数
φ
:
V
→
A
\varphi:V \to A
φ:V→A和关系类型映射函数
ψ
:
E
→
R
\psi:E \to R
ψ:E→R的有向图
G
=
(
V
,
E
,
φ
,
ψ
)
G=(V,E,\varphi,\psi)
G=(V,E,φ,ψ)。其中, 每个对象
v
∈
V
v∈V
v∈V属于对象类型集合
A
:
φ
(
v
)
∈
A
A:\varphi(v)∈A
A:φ(v)∈A中的一个特定对象类型, 每条链接e∈E属于关系类型集合
R
:
ψ
(
e
)
∈
R
R:\psi(e)∈R
R:ψ(e)∈R中的一个特定关系类型。
网络模式: 为了更好地理解异质网络中复杂的对象和关系类型, 网络模式的概念被提了出来, 从而在元层次(即模式层次)上对网络进行描述。 . 定义: 网络模式记为
T
G
=
(
A
,
R
)
T_G=(A,R)
TG=(A,R), 是带有对象类型映射
φ
:
V
→
A
\varphi:V \to A
φ:V→A和关系类型映射
ψ
:
E
→
R
\psi:E \to R
ψ:E→R的信息网络
G
=
(
V
,
E
,
φ
,
ψ
)
G=(V,E,\varphi,\psi)
G=(V,E,φ,ψ)的元模式。具体地, 网络模式是定义在对象类型集合
A
A
A上的有向图, 并以
R
R
R上的关系为边。 具体地, 网络模式是定义在对象类型集合
A
A
A上的有向图, 并以
R
R
R上的关系为边。
语义探索方法
异质网络中两对象可以通过不同类型定义的路径连接, 而这些路径隐含不同的语义。
元路径: 元路径
P
P
P是在网络模式
T
G
=
(
A
,
R
)
T_G=(A,R)
TG=(A,R)上定义的路径, 记为
A
1
→
R
1
A
2
→
R
2
⋯
→
R
l
A
l
+
1
A_1\overset{R_1}\rightarrow A_2\overset{R_2}\rightarrow \cdots\overset{R_l}\rightarrow A_{l+1}
A1→R1A2→R2⋯→RlAl+1 . 定义对象类型
A
1
,
A
2
,
…
,
A
l
+
1
A_1,A_2,…,A_{l+1}
A1,A2,…,Al+1间的复合关系
R
=
R
1
∘
R
2
∘
…
∘
R
l
R=R_1\circ R_2\circ…\circ R_l
R=R1∘R2∘…∘Rl, 其中,
∘
\circ
∘表示关系上的合成运算符 . 若相同对象类型间没有多种关系类型, 则可以利用对象类型来表示元路径:
P
=
(
A
1
,
A
2
,
…
,
A
l
+
1
)
P=(A_1,A_2,…,A_{l+1})
P=(A1,A2,…,Al+1)。此外,对象
a
1
a_1
a1和
a
l
+
1
a_{l+1}
al+1间的具体路径
p
=
(
a
1
a
2
…
a
l
+
1
)
p=(a_1a_2…a_{l+1})
p=(a1a2…al+1)是路径 P 的路径实例。
以电影推荐异质网络为例,用户可以通过元路径相连:
UMU路径表示用户(User)对同一电影的评分(Rate),U和U之间是共同评分关系
U
→
r
a
t
e
M
→
r
a
t
e
−
1
U
U\overset{rate}\rightarrow M \overset{rate^{-1}}\rightarrow U
U→rateM→rate−1U
UMDMU路径表示用户对统一导演的电影作品打分
U
→
r
a
t
e
M
→
d
i
r
e
c
t
−
1
D
→
d
i
r
e
c
t
1
M
→
r
a
t
e
−
1
U
U\overset{rate}\rightarrow M \overset{direct^{-1}}\rightarrow D \overset{direct^{1}}\rightarrow M \overset{rate^{-1}}\rightarrow U
U→rateM→direct−1D→direct1M→rate−1U
受限元路径: 受限元路径是基于某种特定约束的元路径, 可以表示为
C
P
=
P
∣
C
CP=P|C
CP=P∣C。 其中,
P
=
(
A
1
,
A
2
,
…
,
A
l
)
P=(A_1,A_2,…,A_l)
P=(A1,A2,…,Al)表示元路径,
C
C
C表示对元路径
P
P
P中对象的约束。
U
M
U
∣
M
.
T
=
“
C
o
m
e
d
y
”
UMU|M.T=“Comedy”
UMU∣M.T=“Comedy”: 该路径表示用户对于喜剧电影的共同评分
U
M
D
M
U
∣
M
.
T
=
“
C
o
m
e
d
y
”
&
&
D
=
“
A
n
g
L
e
e
”
UMDMU|M.T=“Comedy”\&\&D=“AngLee”
UMDMU∣M.T=“Comedy”&&D=“AngLee”: 表示用户对李安所导演的喜剧电影的共同评分关系
加权元路径: 加权元路径是对关系属性值有所约束的一种扩展元路径, 可以表示为:
A
1
→
δ
1
(
R
1
)
A
2
→
δ
2
(
R
2
)
⋯
→
δ
l
(
R
l
)
A
l
+
1
∣
C
A_1\overset{\delta_1(R_1)}\rightarrow A_2\overset{\delta_2(R_2)}\rightarrow \cdots\overset{\delta_l(R_l)}\rightarrow A_{l+1}|C
A1→δ1(R1)A2→δ2(R2)⋯→δl(Rl)Al+1∣C , 也记作:
A
1
(
δ
1
(
R
1
)
)
A
2
(
δ
2
(
R
2
)
)
…
(
δ
l
(
R
l
)
)
A
l
+
1
∣
C
A_1(\delta_1(R_1))A_2(\delta_2(R_2))…(\delta_l(R_l))A_{l+1}|C
A1(δ1(R1))A2(δ2(R2))…(δl(Rl))Al+1∣C
加权元路径:
U
→
1
M
U\overset{1}\rightarrow M
U→1M:
U
(
1
)
M
U(1)M
U(1)M路径表示用户对电影的评分为1,即不喜欢该电影
加权元路径:
U
→
1
,
2
M
→
1
,
2
U
U\overset{1,2}\rightarrow M \overset{1,2}\rightarrow U
U→1,2M→1,2U: 表示用户和目标用户不喜欢相同的电影
加权元路径的缺点: 普通元路径
U
M
U
UMU
UMU只能反映两用户对相同电影有评分, 无法刻画其对电影的具体喜爱程度。另外, 元路径只能表示两对象间的简单关系。 . 而元结构/元图可以融合多条元路径, 方便地表达复杂语义。
元结构/元图: 元路径是定义在元模式
T
G
=
(
A
,
R
)
T_G=(A,R)
TG=(A,R)上的线性序列, 而元结构/元图
M
M
M可看作多条有公共节点的元路径组合而成的有向无环图。 【即在结点之间多整几条路径】
例如: 对于元路径
U
M
D
M
U
UMDMU
UMDMU和
U
M
A
M
U
UMAMU
UMAMU,只能分别描述两用户对同一导演的电影打分或已打分电影中出现相同演员。 而利用元结构/原图可以描述该语义,如下图:
针对缺陷1: 【Wang C, Song Y, Li H, et al. Distant meta-path similarities for text-based heterogeneous information networks. In: Proc. of the 2017 ACM on Conf. on Information and Knowledge Management. 2017. 1629-1638.】 【Liu Z, Zheng VW, Zhao Z, et al. Semantic proximity search on heterogeneous graph by proximity embedding. Proc. of the AAAI Conf. on Artificial Intelligence, 2017, 31(1).】
针对缺陷2: 【Wang C, Song Y, Li H, et al. Unsupervised meta-path selection for text similarity measure based on heterogeneous information networks. Data Mining and Knowledge Discovery, 2018, 32(6): 1735-1767.】 【Yang C, Liu M, He F, et al. Similarity modeling on heterogeneous networks via automatic path discovery. In: Proc. of the Joint European Conf. on Machine Learning and Knowledge Discovery in Databases. Cham: Springer-Verlag, 2018. 37-54.】
针对缺陷3: 【Fang Y, Lin W, Zheng VW, et al. Semantic proximity search on graphs with metagraph-based learning. In: Proc. of the 32nd IEEE Int’l Conf. on Data Engineering (ICDE). IEEE, 2016. 277-288.】 【Liu Z, Zheng V, Zhao Z, et al. Distance-aware dag embedding for proximity search on heterogeneous graphs. Proc. of the AAAI Conf. on Artificial Intelligence, 2018, 32(1). 】 【Liu Z, Zheng VW, Zhao Z, et al. Interactive paths embedding for semantic proximity search on heterogeneous graphs. In: Proc. of the 24th ACM SIGKDD Int’l Conf. on Knowledge Discovery & Data Mining. 2018. 1860-1869.】
信息网络的表示学习论文: Zhang Y, Ai Q, Chen X, et al. Joint representation learning for top-n recommendation with heterogeneous information sources. In: Proc. of the 2017 ACM on Conf. on Information and Knowledge Management. 2017. 1449-1458.