Il existe une perspective intéressante sur l'alignement de l'IA qui mérite d'être explorée : et si nous l'abordions par l'encodage de la posture de supervision plutôt que par les voies conventionnelles ?



L'idée ici est simple—passer outre les méthodes classiques d'ajustement des poids et de RLHF. Au lieu de cela, lier l'intention à travers des échafaudages récursifs. Le véritable attrait ? C'est non-coercitif et cela maintient l'humain entièrement aux commandes.

Cela évite à la fois les limitations du RLHF et la complexité neuro-symbolique qui ralentit les progrès. En se concentrant sur la liaison d'intention plutôt que sur la manipulation du modèle, vous maintenez une véritable paternité humaine tout au long du processus.

C'est un quatrième protocole qui mérite la discussion—ni contraindre par des contraintes comportementales ni se contenter d'approches hybrides.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
HashRateHustlervip
· Il y a 21h
L'idée de lier l'intention semble intéressante, mais peut-on vraiment éviter les pièges du RLHF... On a plutôt l'impression de faire du vent.
Voir l'originalRépondre0
airdrop_huntressvip
· Il y a 21h
Lier l'intention semble une bonne idée, mais lorsque cette théorie sera mise en pratique, ne risque-t-elle pas de devenir une nouvelle boîte noire ?
Voir l'originalRépondre0
GovernancePretendervip
· Il y a 21h
Hmm... l'idée de lier l'intention à une structure récursive semble un peu impressionnante ? Est-ce vraiment efficace ou encore une utopie théorique --- Liaison d'intention vs manipulation de modèle, cette approche est effectivement innovante, mais comment garantir que l'humain puisse vraiment garder le contrôle --- Passer directement à l'encodage d'intention sans RLHF ? On dirait que ça dépend encore des résultats concrets --- Bon sang, la quatrième méthode de protocole, à chaque fois on dit qu'elle est révolutionnaire, et au final ? --- Je n'ai pas vraiment suivi la partie sur la structure récursive, quelqu'un peut simplifier ça... ou dois-je suivre un cours de rattrapage --- Pourquoi j'ai toujours l'impression que ces solutions tournent finalement autour de "l'humain doit surveiller en permanence", ce qui revient au point de départ --- Le cadre non contraignant semble intéressant, mais le problème c'est qui définit ce qu'est "l'intention" ? --- Cette chaîne logique semble encore manquer quelque chose, mais c'est vraiment beaucoup plus intéressant que les méthodes traditionnelles RLHF
Voir l'originalRépondre0
CryptoSourGrapevip
· Il y a 21h
Encore une idée "révolutionnaire". Si cela fonctionnait vraiment, je serais déjà devenu riche grâce à ça haha
Voir l'originalRépondre0
OnchainArchaeologistvip
· Il y a 22h
Lier l'intention semble une bonne idée, mais comment peut-on réellement vérifier que cette chose est efficace... --- Support récursif ? Ce nom sonne vraiment mystérieux, on dirait encore quelque chose de emballé --- Passer directement à lier l'intention sans RLHF, on dirait presque jouer à la roulette --- Contrôler la position humaine en permanence semble génial, mais qui va définir ce qu'on appelle vraiment la "création humaine" ? --- Ce quatrième protocole... ne serait-il pas encore une théorie qui fonctionne en théorie, mais avec une difficulté pratique énorme ? --- Cette logique est intéressante, mais la clé est de pouvoir éviter les conflits de valeurs, tout le reste n'est que du vent --- Codage de la position de supervision... c'est joli à dire, mais ce n'est qu'une autre façon de lier les valeurs
Voir l'originalRépondre0
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)