¿­Ðý¹ú¼ÊÓÎÏ·

EnglishÈÕ±¾ÕZ

AI+Çå¾² > È˹¤ÖÇÄܸ³ÄÜÇå¾²ÊÖÒÕÏÈÈÝ

Çå¾²´óÄ£×ÓѵÁ·ÓÅ»¯

×÷Õߣº¿­Ðý¹ú¼ÊÓÎÏ· 2024-11-01

´óÄ£×ÓÔÚÏÂÓÎÇå¾²ÁìÓòʹÃüÖÐÌåÏÖÍùÍùÇ·¼Ñ£¬£¬Í¨³£±»ÒÔΪÊǼÈȱ·¦ÁìÓò֪ʶ£¬£¬Ò²È±·¦Ó¦ÓÃÁìÓò֪ʶµÄ·½·¨ ¡£¡£¡£


»æÍ¼-Ö÷ÒªÊÖÒÕ.jpg


ÉÏͼÖУ¬£¬ÎÒÃÇö¾ÙÁËÏÖÔÚÖ÷Á÷µÄ´óÄ£×Óµ÷ÓÅÊÖÒÕ ¡£¡£¡£¹ØÓÚL1Çå¾²ÐÐÒµ´óÄ£×Ó£¬£¬ÎÒÃÇʹÓÃÓÒ°ëͼµÄÊÖÒÕ£¬£¬Í¨¹ý¸üÐÂÄ£×Ó²ÎÊýÀ´»ñµÃÒ»¸ö¾ß±¸¸üÇ¿Ç徲֪ʶµÄ´óÄ£×Ó ¡£¡£¡£¶ø¹ØÓÚL2µÄÓ¦Óó¡¾°²ã£¬£¬ÎÒÃÇÔò»áʹÓÃ×ó°ëͼµÄÊÖÒÕ£¬£¬Ê¹´óÄ£×ÓÔÚÏÖʵ³¡¾°ÖÐÎÞÐè²ÎÊý¸üм´¿É¿ìËÙÂ䵨 ¡£¡£¡£


ÎÒÃǽ«ÕâЩÊÖÒÕÇø·ÖΪ¡°×¢Èë֪ʶ¡±ºÍ¡°×¢ÈëÓ¦ÓÃ֪ʶµÄ·½·¨¡±Á½ÖÖ ¡£¡£¡£Ö±¹ÛÀ´½²£¬£¬Ç°Õߣ¨Éϰëͼ£©µÄÖ÷ҪĿµÄÊÇÈôóÄ£×Ó»ñµÃÇå¾²ÁìÓò֪ʶ£¬£¬Äܹ»Ôڻظ²Ê±ÓÐÀíÓоݶø²»ÊÇÆ¾¿ÕÄóÔì ¡£¡£¡£´ËºóÕߣ¨Ï°ëͼ£©µÄÖ÷ҪĿµÄÔòÊǽ̻á´óÄ£×ÓÓ¦ÓÃ֪ʶ£¬£¬Ï£Íû´óÄ£×ӵĻظ²Äܹ»ÒÀÑ­ÌØÃüÃûÌûòÌØ¶¨Ë¼Ð÷£»£»£»£»ÌرðµÄ£¬£¬ÈËÀà·´ÏìÇ¿»¯Ñ§Ï°ÊÇÏ£Íû´óÄ£×ÓÄܹ»¶ÔÆëÈËÀàÈÏÖª£¬£¬ÔÚºÏÀíÓ¦ÓÃ֪ʶµÄͬʱ£¬£¬ÌáÉý»Ø¸²µÄ¿ÉÓÃÐÔºÍÇå¾²ÐÔ ¡£¡£¡£


ÏÂÃæÎÒÃǽ«»®·ÖÏÈÈÝÕâЩÊÖÒÕµÄÓ¦Ó÷½·¨ºÍÓÅÈõµã ¡£¡£¡£


ÔöÁ¿Ô¤ÑµÁ·


ÔöÁ¿Ô¤ÑµÁ·£¨Continuous Pre-train£¬£¬CPT£©ÊÇÒ»ÖÖ³£¼ûµÄ֪ʶעÈë·½·¨ ¡£¡£¡£ËüµÄ˼Ð÷ÊÇ£¬£¬´óÄ£×ÓÊÇͨ¹ýѧϰ´ó×ÚͨÓÃ֪ʶ»ñµÃµÄ£¬£¬ÄÇôÎÒ½«ÁìÓò֪ʶºÍͨÓÃ֪ʶ»ìÏýµ½Ò»Æð£¬£¬È»ºóʹÓÃÕâЩÊý¾Ý¼ÌÐøÑµÁ·Ô­ÓÐL0»ù´¡´óÄ£×Ó ¡£¡£¡£»£»£»£»»¶øÑÔÖ®£¬£¬ÔöÌíÁËÁìÓò֪ʶÔÚѵÁ·Êý¾ÝÖеıÈÖØ£¬£¬¼´ÔöÌíÁËÔ­ÓÐÄ£×ÓµÄÁìÓò֪ʶ ¡£¡£¡£


ÕâÖÖ˼Ð÷ÏÔÈ»ÊǺÏÀíÇÒÓÐÓÃµÄ ¡£¡£¡£ÔöÁ¿Ô¤ÑµÁ·µÄÈõµãͨ³£ÔÚÓÚÊý¾ÝºÍËãÁ¦±¾Ç® ¡£¡£¡£Ëü²»µ«¶ÔËãÁ¦µÄÒªÇóÏà¶ÔÆ«¸ß£¬£¬Ò²ÐèÒª´ó×ÚÈ«ÐÄϴ媵ÄÁìÓò֪ʶÊý¾Ý ¡£¡£¡£²»¹ý£¬£¬ËüµÄÓŵãÊÇ×¢ÈëÄ£×ÓµÄÊý¾Ý²»ÐèÒªÈ˹¤´ò±ê£¬£¬Ò²¾ÍÊÇ˵£¬£¬Ëã·¨Ö°Ô±Ö»ÐèÒª¶ÔÊý¾Ý×öÈ¥ÖØ¡¢È¥¹ã¸æµÈÏ´åªÊÂÇ飬£¬²»ÐèÒªÖðÌõ¶ÔÊý¾Ý×öϸÄå´¦Öóͷ£ ¡£¡£¡£Òò´Ë£¬£¬ÔöÁ¿Ô¤Ñ·üçù»ñÈ¡µÄÊý¾Ýͨ³£¿£¿£¿£¿ £¿ÉÒÔÓнϴó×Ú¼¶£¬£¬×¢ÈëµÄ֪ʶҲ½ÏΪÖÜÈ« ¡£¡£¡£


ÓмàÊÓ΢µ÷


ÓмàÊÓ΢µ÷£¨Supervised Fine-tuning£¬£¬SFT£©ÊÇÖ¸»ùÓÚÒÑÓеĴóÄ£×Ó£¬£¬ÔÚÓбê×¢Êý¾ÝÉϾÙÐÐÄ£×ÓѵÁ· ¡£¡£¡£ÏÖÓеÄSFTÊÖÒÕͨ³£ÎÞÐè΢µ÷Ä£×ÓµÄËùÓвÎÊý£¬£¬½ö΢µ÷ÉÙÁ¿£¨»òÌØÊ⣩ģ×Ó²ÎÊý£¬£¬´Ó¶øÏÔÖø½µµÍÅÌËãºÍ°²Åű¾Ç®£¬£¬Í¬Ê±±¬·¢ÓëÈ«Á¿Î¢µ÷Ä£×ÓÏ൱µÄÐÔÄÜ ¡£¡£¡£Í¨¹ýÕâÖÖ·½·¨£¬£¬¿ÉÒÔÔÚÏûºÄ¼¶Ó²¼þÉÏѵÁ·ºÍ´æ´¢´óÄ£×Ó£¬£¬ÈôóÄ£×Ó˳ӦÖÖÖÖÏÂÓÎÓ¦Óà ¡£¡£¡£


ÓмàÊÓ΢µ÷µÄÈõµãÔÚÓÚ£¬£¬ÓÃÓÚ΢µ÷´óÄ£×ÓµÄÊý¾Ýͨ³£ÐèÒª¼«ÆäϸÄ廯µÄϴ媺ÍÖðÌõµÄÈ˹¤´ò±ê£¬£¬ÐÒ¿÷ÐèÇóµÄÊý¾ÝÁ¿²¢²»´ó£¬£¬Ê¹ÓÃ×îµÍ°ÙÌõÊý¾Ý΢µ÷ÍùÍù¾ÍÄÜÈôóÄ£×Óѧ»áһЩ¼òÆÓµÄ˼Ð÷ÓëÃûÌà ¡£¡£¡£


µ½ÕâÀ£¬ÎÒÃÇÏ£Íûͨ¹ýÒ»¸öÀý×ÓÀ´¸üºÃµÄ½²ÊöÉÏÎÄÌá¼°µÄÊÖÒÕ¿´·¨ ¡£¡£¡£ÔÚÇå¾²ÔËÓª³¡¾°ÖУ¬£¬Óû§Ï£Íû´óÄ£×Ó¶ÔÒÑÖªµÄÇå¾²ÊÂÎñ¾ÙÐнâ¶Á£¬£¬°üÀ¨¸æ¾¯ÄÚÈÝ¡¢ÊÂÎñÀàÐÍ¡¢¹¥»÷ÊÖ·¨¡¢×ʲúÊôÐÔµÈ ¡£¡£¡£ÕâÑùµÄÓ¦Óó¡¾°ÐèÒªÕâÑùÍê³É£º


1.Ê×ÏÈ£¬£¬ÎÒÃÇʹÓôó×Ú¹ûÕæµÄÍøÂçÇå¾²ÓëÖ÷»úÇå¾²Ïà¹ØÖªÊ¶¶Ô´óÄ£×Ó×öÔöÁ¿Ô¤ÑµÁ·

2.Æä´Î£¬£¬ÎÒÃÇʹÓÃÇ徲ר¼Ò±ê×¢ºóµÄÈçÏÂÎÊ´ð¶Ô£¬£¬¶Ô¿­Ðý¹ú¼ÊÓÎÏ·Çå¾²´óÄ£×Ó¾ÙÐÐÓмàÊÓ΢µ÷

{

 "ÎÊÌâ"£ºÓû§Ìá³öµÄÎÊÌâ + ÒÑÖªÊÂÎñÐÅÏ¢ + ÆÚÍû·µ»ØÐ§¹û,

 "»Ø¸²"£ºÊÂÎñÀàÐÍ + ¹¥»÷ÊÖ·¨ ...

}

3.×îºó£¬£¬¾Í»ñµÃÁËÎÒÃÇ¿ÉÒÔÔÚÏÖʵ³¡¾°ÖÐʹÓõÄÄ£×Ó ¡£¡£¡£


¿ÉÊÇ£¬£¬¶Ôÿһ¸öÏÂÓÎʹÃü¾ÙÐÐ΢µ÷ÏԵùýÓÚÖØ´óºÍÈßÓàÁË ¡£¡£¡£ÓÚÊÇ£¬£¬ÎÒÃÇÒýÈëÁËһЩ²»ÐèÒª¸üÐÂÄ£×Ó²ÎÊýµÄÊÖÒÕ£¬£¬ËüÃÇͬÑùÄÜÓÐÓÅÒìµÄʹÓÃЧ¹û ¡£¡£¡£


¼ìË÷ÔöÇ¿ÌìÉú


¼ìË÷ÔöÇ¿ÌìÉú£¨Retrieval Augmented Generation£¬£¬RAG£©ÊÇʱÏÂÈÈÃŵĴóÄ£×ÓÓ¦Óýâ¾ö¼Æ»® ¡£¡£¡£ËüµÄÖ÷ÒªÔ­ÀíÊÇ£¬£¬Óû§Ìá³öÎÊÌ⣬£¬Í¨¹ýÀàËÆËÑË÷ÒýÇæµÄ·½·¨´Ó֪ʶ¿âÖÐÕÒµ½Ïà¹ØµÄ֪ʶƬ¶Ï£¬£¬Ëæºó½«Óû§µÄÎÊÌâÓëËÑË÷µÄЧ¹ûһͬÊäÈë¸ø´óÄ£×Ó£¬£¬ÈôóÄ£×Ó¶Ôךο½å¼Ãյס±ÌìÉú»Ø¸² ¡£¡£¡£


»æÍ¼-RAG.jpg


ËüµÄÓŵãºÜÊÇÏÔ×Å£¬£¬Ïà±ÈÓÚÔöÁ¿Ô¤ÑµÁ·£¬£¬¼ìË÷ÔöÇ¿ÌìÉúµÄ±¾Ç®¸üµÍ£¬£¬²¢ÇÒ֪ʶ¸üиü¿ì ¡£¡£¡£ÈõµãÔòÊÇ£¬£¬¼ìË÷ÔöÇ¿ÌìÉú¶Ô֪ʶ¿âµÄÖÊÁ¿ÒªÇó½Ï¸ß£¬£¬ÒªÇó×îºó»ñµÃµÄÏà¹ØÖªÊ¶Æ¬¶ÏȷʵÌṩÁ˻ظ²Óû§ÎÊÌâËùÐèÒªµÄ֪ʶ£¬£¬ÇÒÄܹ»±»´óÄ£×Ó˳ËìÃ÷È· ¡£¡£¡£ÐÒÔ˵ÄÊÇ£¬£¬Ê¹ÓÃÔöÁ¿Ô¤ÑµÁ·ÕվɼìË÷ÔöÇ¿ÌìÉú²¢²»ÊÇÒ»¸öµ¥Ñ¡Ì⣬£¬Êµ¼ùÖÐÎÒÃÇ¿ÉÒÔÑ¡Ôñ¡°ÎÒÈ«¶¼Òª¡±£¬£¬¼´¿ÉͬʱÏíÊÜÁ½ÖÖÊÖÒÕµÄÓŵ㠡£¡£¡£


ÉÏÏÂÎÄѧϰ


ÉÏÏÂÎÄѧϰ£¨In-context Learning£¬£¬ICL£©ÊÇÒ»ÖÖºÜÊDZ㵱µÄÒªÁì ¡£¡£¡£ËüÖ»ÐèÒªÎÒÃÇÔÚ¸ø´óÄ£×ÓÊäÈëÎÊÌâʱ£¬£¬¶ÔËü¸ø³öһЩ¡°Ê÷Ä£¡±ÐÔ×ÓµÄÌáÐÑ£¬£¬¼´¿ÉÈôóÄ£×ÓÆ¾Ö¤Ê÷Ä£À´ÌìÉú»Ø¸² ¡£¡£¡£Í¨³£Ê¹ÓÃÉÏÏÂÎÄѧϰµÄÓû§ÎÊÌâÃûÌÃÈçÏÂËùʾ ¡£¡£¡£


»æÍ¼-ICL.jpg


ÉÏÏÂÎÄѧϰµÄÓŵãÊÇËüµÄ±ãµ±ÐÔ£¬£¬¶øÈõµãÔòÊÇ£¬£¬¹ØÓÚÖØ´óµÄÎÊÌ⣬£¬¼òÆÓµÄÌáÐÑÍùÍùºÜÄÑÆðµ½ÓÅÒìµÄЧ¹û ¡£¡£¡£


ÄÇôµ½ÕâÀ£¬ÎÒÃÇËÆºõ¿ÉÒÔ²»ÔÙ¶Ôÿһ¸öÏÂÓÎʹÃü¶¼¾ÙÐÐÓмàÊÓ΢µ÷£¬£¬¶øÊÇÓÃÔ½·¢ÎÞаµÄ·½·¨Íê³ÉÉÏÃæµÄÇå¾²ÔËÓª³¡¾°£¨¹ØÓÚºÍ֮ǰ°ì·¨²î±ðµÄµØ·½£¬£¬ÎÒÃÇ×öÁ˼Ӵֱê×¢£©£º


1.Ê×ÏÈ£¬£¬ÎÒÃÇʹÓôó×Ú¹ûÕæµÄÍøÂçÇå¾²ÓëÖ÷»úÇå¾²Ïà¹ØÖªÊ¶¶Ô´óÄ£×Ó×öÔöÁ¿Ô¤ÑµÁ·

2.Æä´Î£¬£¬ÎÒÃÇʹÓÃÇ徲ר¼Ò±ê×¢ºóµÄ¶à¸ö²î±ðÇ徲ʹÃü³¡¾°ÏµÄÎÊ´ð¶Ô£¬£¬¶Ô¿­Ðý¹ú¼ÊÓÎÏ·Çå¾²´óÄ£×Ó¾ÙÐÐÓмàÊÓ΢µ÷

3.ÔٴΣ¬£¬ÎÒÃǶÔÿ¸öµ¥¶ÀµÄÏÂÓÎʹÃü£¬£¬Ê¹ÓüìË÷ÔöÇ¿ÌìÉúºÍÉÏÏÂÎÄѧϰÀ´¾ÙÐе¥¶ÀµÄʹÃüÌáÐÑ

4.»ñµÃ×îÖÕÌìÉúµÄЧ¹û


ÏÖʵӦÓó¡¾°ÖУ¬£¬´óÄ£×Ó»¹ÐèҪͨ¹ýÈËÀà·´ÏìÇ¿»¯Ñ§Ï°»ñµÃ¸üºÃµÄÇå¾²ÐԺͿÉÓÃÐÔ£¬£¬ÎÒÃǽ«¼ÌÐøÏÈÈÝÕâÒ»ÊÖÒÕ ¡£¡£¡£


ÈËÀà·´ÏìÇ¿»¯Ñ§Ï°


ÈËÀà·´ÏìÇ¿»¯Ñ§Ï°£¨Reinforcement Learning from Human Feedback£¬£¬RLHF£©ÊÖÒÕµÄÖ÷ҪĿµÄÊÇͨ¹ý½«ÈËÀàµÄ·´ÏìÄÉÈëѵÁ·Àú³Ì£¬£¬Îª»úеÌṩÁËÒ»ÖÖ×ÔÈ»µÄ¡¢ÈËÐÔ»¯µÄ»¥¶¯Ñ§Ï°Àú³Ì ¡£¡£¡£Êµ¼ùÖУ¬£¬ÈËÀà·´ÏìÇ¿»¯Ñ§Ï°ÍùÍù±»ÓÃÓÚÌáÉý´óÄ£×ÓµÄÇå¾²ÐԺͿÉÓÃÐÔ£¬£¬Ç°ÕßÒ»Ñùƽ³£Ö¸Óû§Ñ¯Îʲ»Õýµ±ÄÚÈÝʱ´óÄ£×Ó¿ÉÒÔ¸ø³ö¾Ü¾ø»Ø¸²£¬£¬ºóÕßÔòÖ¸´óÄ£×Ó¸ø³öµÄ»Ø¸²Äܹ»ÇÐʵ×ÊÖúµ½Óû§ ¡£¡£¡£



»æÍ¼-RLHF.jpg


ÖµµÃ×¢ÖØµÄÊÇ£¬£¬Çå¾²ÐԺͿÉÓÃÐÔÖ®¼ä±£´æ×ÅÐþÃîµÄ¹ØÏµ ¡£¡£¡£Ò»·½Ã棬£¬¹ýÓÚÑÏ¿áµÄÇå¾²²½·¥¿ÉÄÜ»áÏÞÖÆÄ£×ӵıí´ï×ÔÓɶȣ¬£¬µ¼ÖÂËü²»¿É³ä·Öչʾ×Ô¼ºµÄ֪ʶ¿âÀ´×ÊÖúÓû§£»£»£»£»ÁíÒ»·½Ã棬£¬ÈôÌ«¹ý×·ÇóÓû§ÌåÑé¶øµô±Û¼°ÄÚÈÝÉó²é£¬£¬Ôò¿ÉÄÜʹģ×Ó̻¶ÓÚ±¬·¢²»µ±Êä³öµÄΣº¦Ö®ÖÐ ¡£¡£¡£Òò´Ë£¬£¬ÔÚRLHFµÄÓ¦ÓÃÀú³ÌÖУ¬£¬±ØÐèÕÒµ½Á½ÕßÖ®¼äµÄƽºâµã£¬£¬ÒÔ×èÖ¹·ºÆð¡°×óÖ§ÓÒç©¡±µÄÇéÐÎ ¡£¡£¡£ÕâÒªÇ󿪷¢ÕßÃÇÈ«ÐÄÉè¼Æ½±Àø»úÖÆ£¬£¬²¢Ò»Á¬¼à¿ØÄ£×ÓµÄÌåÏÖ£¬£¬È·±£Ã¿Ò»´Îµü´ú¶¼Äܳ¯×żȶ¨µÄÄ¿µÄǰ½ø£¬£¬¼´Í¬Ê±Ìá¸ßϵͳµÄÇå¾²ÐÔºÍÓû§ÌåÑéÖÊÁ¿ ¡£¡£¡£


×ÜÖ®£¬£¬Í¨¹ý½«ÈËÀà·´ÏìÈÚÈ뵽ǿ»¯Ñ§Ï°µÄÀú³ÌÖУ¬£¬RLHF²»µ«Ôö½øÁËAIϵͳµÄ×ÔÎÒÓÅ»¯£¬£¬»¹Ê¹µÃÕâЩϵͳÄܹ»¸üºÃµØÐ§ÀÍÓÚÈËÀàÉç»á£¬£¬³ÉΪÈËÃÇÒ»Ñùƽ³£ÉúÑĺÍÊÂÇéÖÐÖµµÃÐÅÈεÄͬ°é ¡£¡£¡£


×ܽá


±¾ÎÄÏÈÈÝÁ˼¸ÖÖ´óÄ£×ÓÊÖÒÕÔÚÍøÂçÇå¾²ÁìÓòµÄÓ¦Ó㬣¬°üÀ¨ÔöÁ¿Ô¤ÑµÁ·¡¢ÓмàÊÓ΢µ÷¡¢ÈËÀà·´ÏìÇ¿»¯Ñ§Ï°¡¢ÉÏÏÂÎÄѧϰºÍ¼ìË÷ÔöÇ¿ÌìÉú ¡£¡£¡£ÕâЩÊÖÒÕͨ¹ý²î±ðµÄ·½·¨Îª´óÄ£×Ó×¢Èë֪ʶ£¬£¬ÏÔÖøÌáÉýÁËÍøÂçÇ徲ϵͳµÄÐÔÄÜ ¡£¡£¡£


Õ¹ÍûδÀ´£¬£¬ÕâЩ´óÄ£×ÓÊÖÒÕ½«ÎªÍøÂçÇå¾²ÁìÓò×¢ÈëеĻîÁ¦ ¡£¡£¡£ËüÃDz»µ«Äܹ»Ìá¸ßϵͳµÄ¼ì²âºÍÏìÓ¦ÄÜÁ¦£¬£¬»¹ÄÜ×Ô¶¯Ô¤¼ûºÍ·ÀÓùÐÂÐÍÍþв ¡£¡£¡£Í¨¹ýÒ»Á¬Ñ§Ï°ºÍÓÅ»¯£¬£¬ÕâЩÊÖÒÕ½«Ê¹ÍøÂçÇ徲ϵͳԽ·¢ÖÇÄÜ¡¢¸ßЧ£¬£¬³ÉΪÆóÒµºÍСÎÒ˽¼ÒÔÚÊý×ÖÌìÏÂÖеļáʵºóÔ® ¡£¡£¡£

ÉÏһƪ ÏÂһƪ

7*24СʱЧÀÍÈÈÏß

400-624-3900


¡¾ÍøÕ¾µØÍ¼¡¿