(基于强化学习求解组合优化问题TSP)

anoteonlearningalgorithmsforquadraticassignmentwithgraphneuralnetworks :

应用图神经网络求解TSP

optimizationonabudgetareinforcementlearningapproach :

介绍强化学习方法在预算优化中的应用

pointer网络：

首次提出了pointer decoding方式，求解TSP问题。

3359 github.com/dev sisters/pointer-network-tensor flow

neuralcombinatorialoptimizationwithreinforcementlearning :

Google的此借用pointer network和attention mechanism、策略梯度优化、操作者关键型培训。也解决了knapsack的问题。

3359 github.com/PE mami 4911/neural-combinatorial-rl-py torch

3359 github.com/Higgs field/NP-hard-deep-reinforcement-learning

reinforcementlearningforsolvingvehicleroutingproblem :

Leigh发明的基础是前面的两个，简化的pointer network编码过程直接进行嵌入式。

主要扩展到求解VRP问题，还求解了TSP问题，并与以前的进行了比较。

3359 github.com/mv eres 01/py torch-drl4VRP

learningcombinatorialoptimizationalgorithmsovergraphs :

graph embedding的构想(structure to vector )，以及Reinforce to train )。

从小规模培训传输到大规模，一切都很好。作者是用c写的，之后还发布了pytorch版本，但底层仍然是c。

但是在原文中graph embedding也是属于训练的部分，在pytorch中backward存在问题。

3359 github.com/hanjun-Dai/graph _ comb _ opt

attentionlearntosolveroutingproblems！

ICLR2019篇。这一总体思路也是一个复杂的注释解码器。

涵盖了这一万象，解开了各种tsp和vrp的变种以及其他，并与pointer network进行了比较。

3359 github.com/wouter kool/attention-learn-to-route

A Deep Q-Network for the Beer Game :

用深度信息学习的方法，对4个代理(制造、分发器、仓库、报告器)，

创建network，然后使用反馈方案使代理朝着目标前进。