Báo cáo chuyển động AI tuần qua (18/12-24/12)

Báo cáo chuyển động AI tuần qua (18/12-24/12)

I. Chuyển động AI đáng chú ý trong tuần vừa qua (18/12-24/12)


Chuyển động AI đáng chú ý trong tuần vừa qua (18/12-24/12)

  1. Gemini của Google thua GPT-3.5 Turbo trong bài kiểm tra
  2. Hallucinate là Word of the Year
  3. LongAnimateDiff giúp kéo dài độ dài của các video làm bằng AI
  4. Nhà nghiên cứu của Apple đang khám phá Apple GPT để chạy trên iPhone
  5. Runway ra mắt tính năng chuyển văn bản thành giọng nói và tùy chỉnh tỷ lệ video
  6. VideoPoet: Mô hình LLM tạo video mới của Google
  7. Dự đoán của Bill Gates về AI năm 2024
  8. Microsoft Copilot hiện có thể tạo ra các bài hát AI hoàn chỉnh

1/ Gemini của Google thua GPT-3.5 Turbo trong bài kiểm tra

Mô hình ngôn ngữ lớn (LLM) mới của Google, Gemini Pro, mặc dù được cho là hoành tráng khi ra mắt nhưng thực tế lại kém hơn một chút so với các mô hình miễn phí của OpenAI như GPT-3.5 trong hầu hết các bài kiểm tra.Chi tiết:

  • Trong các câu hỏi liên quan đến học thuật, lý luận, toán học và các lĩnh vực khác, Gemini giải được ít bài toán hơn một chút so với GPT-3.5.
  • Những điểm yếu của Gemini dường như bao gồm: gặp khó khăn với các truy vấn dài, chặn nội dung quá mức và thiên vị lựa chọn cuối cùng.
  • Một lĩnh vực mà Gemini vượt trội là tạo văn bản ngoại ngữ - nhưng tính năng lọc nội dung khiến các phản hồi bị chặn trong 10 cặp ngôn ngữ.
  • Một đại diện của Google đã phản bác những tuyên bố trong bài báo, chỉ ra nghiên cứu của chính công ty và nhấn mạnh đến việc phát hành Gemini Ultra vào đầu năm 2024.Nhận xét:
  • Gemini có bị xếp xó trong mùa lễ hội này không? Với sự chú ý đổ dồn vào mẫu AI hàng đầu của Google, những con số trong nghiên cứu này dường như cho thấy gã khổng lồ công nghệ đang tụt hậu. Nếu Gemini Ultra không cho thấy những cải tiến đáng kể vào đầu năm tới, tình hình có thể trở nên tồi tệ đối với Google.

Link: An In-depth Look at Gemini's Language Abilities

2/ Hallucinate là Word of the Year

Dictionary.com đã chọn "Hallucinate" (Ảo giác) là Từ vựng của năm 2023, nhấn mạnh đến nghĩa mới nổi trong bối cảnh AI của từ này: "tạo ra thông tin sai và trình bày như sự thật."Chi tiết:

  • Các nhà từ điển học lưu ý rằng số lần tra cứu từ "Hallucinate" đã tăng 46% trong năm nay, và các bài báo đề cập đến từ này với nghĩa liên quan đến AI tăng 85%.
  • Dictionary.com đã thêm định nghĩa mới này vào năm 2022, với các chuyên gia so sánh nó với những cách mở rộng nghĩa theo ẩn dụ trong lĩnh vực công nghệ trước đây, như "virus."
  • Các từ vựng AI khác như LLM (Mô hình ngôn ngữ lớn), chatbot (trò chuyện bot), AI tổng hợp và GPT cũng chứng kiến sự gia tăng về tra cứu, với trung bình các từ liên quan đến AI tăng 62% trên nền tảng.Nhận xét:
  • Mặc dù những người đam mê AI có thể sẽ chỉ cười, nhưng ảo giác AI là một vấn đề quan trọng mà cả thế giới cần hiểu. Việc người dùng mới, đặc biệt là học sinh, đặt niềm tin mù quáng vào công nghệ này là một rủi ro lớn khi AI ngày càng trở nên phổ biến."

Link: Word of the Year 2023

3/ LongAnimateDiff giúp kéo dài độ dài của các video làm bằng AI

LongAnimateDiff: Giới thiệu mô hình AnimateDiff mới hỗ trợ tới 64 khung hình!Chúng tôi vô cùng hào hứng thông báo về việc ra mắt mô đun chuyển động tiên tiến, được thiết kế dành riêng cho việc tạo video dài.Mô đun đột phá này, phát triển dựa trên mô hình #AnimateDiff (phiên bản 2) dành cho Stable Diffusion, hiện cho phép tạo video lên đến 64 khung hình, vượt xa mức tối đa 25 khung hình hiện tại của ngành do #SVD của @stability.ai thiết lập. Hơn nữa, mô hình của chúng tôi cung cấp sự linh hoạt cao hơn, cho phép tạo video với độ dài đa dạng từ 16 đến 64 khung hình.

Link: twitter.com

4/ Nhà nghiên cứu của Apple đang khám phá Apple GPT để chạy trên iPhone

Nghiên cứu mới của Apple hé lộ những kỹ thuật đột phá để chạy AI tiên tiến trên iPhone, từ trợ lý ảo đến avatar 3D - mở ra khả năng mới mạnh mẽ cho thiết bị di động.Chi tiết:

  • Bài nghiên cứu đầu tiên tập trung vào việc tạo hiệu ứng hoạt hình cho avatar người từ video iPhone một cách hiệu quả, cải thiện đáng kể chất lượng ảnh thật và tốc độ so với các phương pháp hiện có.
  • Một bài nghiên cứu khác chi tiết về việc giảm nhẹ mô hình ngôn ngữ lớn (LLM) cồng kềnh bằng cách tối ưu hóa bộ nhớ flash - cho phép các ứng dụng phức tạp như chatbot chạy trên thiết bị di động.
  • Mặc dù trước đây khá hạn chế trong việc thể hiện tham vọng về AI, gần đây Apple đã tăng cường tuyển dụng nhân tài AI và được cho là có kế hoạch lớn tích hợp công nghệ này vào thiết bị đeo để theo dõi sức khỏe.Nhận xét:
  • Trong khi Apple dường như tụt hậu trong cuộc đua AI, những nghiên cứu sáng tạo như thế này cho thấy gã khổng lồ công nghệ đang lặng lẽ chuẩn bị tạo ra những bước đột phá. Nếu (hoặc khi) Apple tích hợp công nghệ AI tiên tiến vào iPhone, nó có thể là một bước ngoặt quan trọng thúc đẩy sự phổ biến và nhu cầu.

Link: Researchers working on enabling 'Apple GPT' to run on iPhone

5/ Runway ra mắt tính năng chuyển văn bản thành giọng nói và tùy chỉnh tỷ lệ video

Runway vừa giới thiệu hai tính năng mới cho mô hình Gen-2 của mình — Chuyển văn bản thành giọng nói để tạo phần thuyết minh và tùy chỉnh tỷ lệ video (16:9, 9:16, 1:1, 4:3, 3:4) để phù hợp với các nền tảng khác nhau. Những cập nhật này nâng cao tính sáng tạo và kiểm soát trong việc tạo nội dung, với nhiều cập nhật hơn sẽ đến sớm.

Link: twitter.com

6/ VideoPoet: Mô hình LLM tạo video mới của GoogleGoogle trình làng

VideoPoet - mô hình ngôn ngữ đa nhiệm đột phá, có khả năng tạo video từ văn bản, hình ảnh và nhiều hơn nữa. VideoPoet có thể thực hiện các nhiệm vụ như chuyển văn bản thành video, tạo phong cách và thậm chí cả chuyển video thành âm thanh. Hãy chuẩn bị cho những chuyển động lớn, mạnh mẽ và mạch lạc hơn trong video của bạn!

Link: VideoPoet: A large language model for zero-shot video generation – Google Research Blog

7/ Dự đoán của Bill Gates về AI năm 2024

Bill Gates vừa đưa ra một tầm nhìn lạc quan về tác động ngày càng lớn của AI trong năm 2024, chia sẻ suy nghĩ của mình trong một blog mới với những dự đoán về cách công nghệ này sẽ ảnh hưởng đến chăm sóc sức khỏe, giáo dục, công việc và cả hệ thống đổi mới nói chung.Điểm chính:

  • Gates tin rằng AI sẽ bắt đầu đạt được mức độ áp dụng rộng rãi đáng kể trong các nền kinh tế tiên tiến như Hoa Kỳ trong vòng 18-24 tháng tới.
  • Ông nhấn mạnh đến các dự án AI y tế đầy tham vọng đang được triển khai, từ chống lại kháng thuốc kháng sinh đến điều trị thai kỳ rủi ro cao.
  • Gates tin rằng AI sẽ biến đổi việc học thông qua gia sư cá nhân hóa và hoan nghênh những sáng tạo như chatbot địa phương, vốn đang chuyển nội dung giáo dục thành nhu cầu cụ thể của từng học sinh.
  • Nhà sáng lập Microsoft dự đoán AI sẽ bổ sung vai trò và thúc đẩy năng suất thay vì thay thế việc làm.Ý nghĩa:
  • Trước đây, Gates dường như ít hào hứng với công nghệ này hơn những nhân vật lớn khác (đáng chú ý là ông từng nói rằng ChatGPT có thể đã đạt đến đỉnh điểm) - nhưng những dự đoán của ông mang lại một cái nhìn lạc quan và đầy biến đổi cho năm AI sắp tới.

Link: The road ahead reaches a turning point in 2024

8/ Microsoft Copilot hiện có thể tạo ra các bài hát AI hoàn chỉnh

Microsoft vừa tích hợp ứng dụng sáng tạo âm nhạc Suno vào AI đàm thoại Copilot của mình, cho phép người dùng biến lời nhắc văn bản thành các bản nhạc được tạo bởi AI - bao gồm lời bài hát, nhạc cụ và giọng hát.Chi tiết:

  • Suno tận dụng khả năng thông thạo ngôn ngữ của Copilot để tổng hợp các bài hát bao gồm lời bài hát, nhạc cụ và giọng hát dựa trên lời nhắc văn bản.
  • Tính năng mới hiện đang được triển khai cho người dùng Microsoft Edge và có thể truy cập trong Copilot thông qua tab plugin.
  • Suno cho biết các mô hình của họ không nhận ra nghệ sĩ theo tên và tuyên bố chặn một số lời nhắc nhất định, mặc dù người dùng báo cáo rằng vẫn có thể yêu cầu các bài hát phù hợp với thể loại.
  • Sự hợp tác này diễn ra sau sự cạnh tranh lớn trong lĩnh vực âm thanh AI, với Lyria của Google/YouTube và Audiobox của Meta cũng đang thu hút được nhiều sự chú ý.-->  Chúng ta đã thấy một số đổi mới nghiêm túc trong lĩnh vực âm thanh AI trong năm nay, nhưng đây có vẻ là lần đầu tiên kết hợp các yếu tố để tạo ra một bài hát hoàn chỉnh. Với những cuộc chiến liên tục giữa các nghệ sĩ về AI, sự đổi mới này có thể sẽ làm dấy lên nhiều câu hỏi hơn nữa về tương lai của ngành công nghiệp âm nhạc truyền thống.

Link: Turn your ideas into songs with Suno on Microsoft Copilot

  • HeyGen: Trình tạo video cá nhân hóa ️
  • Magic Hour: Ứng dụng tạo video bằng AI
  • Helix: Xây dựng AI tùy chỉnh
  • Rex Nutribot: Theo dõi AI về calo, tập luyện và bữa ăn
  • Drawww: Công cụ vẽ AI thời gian thực tối ưu hóa cho iPad
  • Picmojo: Nâng cấp ảnh hàng ngày của bạn thành ảnh chân dung chuyên nghiệp
  • Bardeen: Công cụ tự động hóa không cần mã ⚙️
  • Superhuman: Trải nghiệm email nhanh nhất từ trước đến nay
  • Wondercraft AI: Biến nội dung hiện có như bài đăng blog thành podcast hoàn chỉnh ️

III. Về AIV Group

Công ty Cổ phần Công nghệ và Truyền thông AIV Group là một startup công nghệ Việt Nam, được thành lập từ ngày 30/08/2019. AIV Group hoạt động trong lĩnh vực thu thập, phân tích, cung cấp dữ liệu truyền thông và các giải pháp tự động hoá sản xuất nội dung.

Tháng 10/2020, AIV Group được trao Giải thưởng Chuyển đổi số Việt Nam 2020 do Hiệp hội Truyền thông số Việt Nam tổ chức cho Hạng mục sản phẩm, dịch vụ, giải pháp số tiêu biểu.

IV. Thông tin liên hệ

Công ty Cổ phần Công nghệ và Truyền thông AIV Group

  • Địa chỉ: Tầng 23, Tòa nhà EuroWindow, số 27 Trần Duy Hưng, Trung Hòa, Cầu Giấy, Hà Nội
  • Website: https://aivgroup.vn
  • Email: [email protected]
  • Điện thoại: 0931 458 189