我真的是以欣赏的角度看的,挺好看。很有态度,感觉真的像一个传媒公司,镜头,画面,转场,特写都很专业。艺人也是很敬业,很佩服他们. ..
U1S1演员确实没研究,怎么说也是小电影还是需要演技的。但这些演员都是真刀真枪的干。要是能真的请到传媒学院的或者那些圈里的明星估计会更好。– 糊胡涂
我没有要传播色情的意思,只是对于爬取的数据进行分析的时候,总会有些出乎意料的发现。在国内所有的情色内容都是不合法的,但是违法的事情确并没有因此而销声匿迹。通过最近的分析,我发现色情产业这个规模异常的庞大。原来想写一篇简单的分析文章,现在却发现自己分析的不过是冰山一角。现在的色情行业已经不再仅仅局限于提供色情视频的观看,点播下载。现在基于各种直播平台的在线直播,打赏,网红主播,TS CD,甚至有专门的编剧,导演拍摄,并且喊着口号甚至要超越日本,成为世界第一。
大家好,我是麻豆傳媒P先生。 謝謝大家一直對麻豆的支持,我們想打造屬於華人的中文市場,不讓日本一直走在我們前面,我們持續努力前行,打造華人的驕傲! 最近有許多人不斷的盜取麻豆的原創影片,我想這可能是大家還不習慣屬於華人國產影片的出現。感謝所有的同行跟我們一起努力,為每個人的夜晚去打造歡愉,但是盜取麻豆的影片只會讓歡愉更快的消失,讓華人國產停滯不前。 –麻豆传媒
而实际上,我在他们的官网也找到了不少的签约模特,暂且成为模特吧。关注到这个网站,或者这个群体是基于对爬取的数据分类的播放量分析得来的,虽然整体的播放量不是很大(受限于视频数量),但是影片的平均播放次数却是最高的!另外,请读者遵守中国法律,不要传播色情淫秽信息。本人也不会传播相关的内容,所有的数据仅用于分析当前行业的一些状态。
'''
分类播放信息
http://www.h4ck.org.cn
by obaby
obaby@mars
email:root@obaby.org.cn
date: 2020.09.15
'''
from pyspark.sql.functions import col
import altair as alt
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_movie.csv")
csv.printSchema()
root |-- id: string (nullable = true) |-- create: string (nullable = true) |-- update: string (nullable = true) |-- name: string (nullable = true) |-- describe: string (nullable = true) |-- image: string (nullable = true) |-- thumb: string (nullable = true) |-- thumb_raw: string (nullable = true) |-- preview: string (nullable = true) |-- video_link1: string (nullable = true) |-- video_link2: string (nullable = true) |-- video_link3: string (nullable = true) |-- video_link4: string (nullable = true) |-- mp4: string (nullable = true) |-- m3u8: string (nullable = true) |-- source_id: string (nullable = true) |-- publish_time: string (nullable = true) |-- play_count: string (nullable = true) |-- good_count: string (nullable = true) |-- bad_count: string (nullable = true) |-- link_count: string (nullable = true) |-- comment_count: string (nullable = true) |-- thunder_url: string (nullable = true) |-- designation: string (nullable = true) |-- category_id: string (nullable = true) |-- porn_site_id: string (nullable = true) |-- uploader_id: string (nullable = true) |-- producer: string (nullable = true)
csv.select('name', 'describe', 'category_id').show()
# 分类信息读取
category_csv = spark.read.option("header",True).csv("hdfs://localhost:9000/data3/porn_data_category.csv")
category_csv.printSchema()
root |-- id: string (nullable = true) |-- create: string (nullable = true) |-- update: string (nullable = true) |-- name: string (nullable = true) |-- key: string (nullable = true) |-- describe: string (nullable = true) |-- image: string (nullable = true)
movie_csv = csv.withColumnRenamed('name','movie_name')
movie_csv.select('movie_name', 'category_id', 'id').show()
+------------------------+-----------+---+ | movie_name|category_id| id| +------------------------+-----------+---+ | 美女学生考试时被中出| 1| 1| | 无套中出内射(上)| 1| 2| | 无套中出内射(下)| 1| 3| | 极品嫩妹| 1| 4| | 骚妹妹 7| 1| 5| |漂亮美女完美身材甜美声音| 1| 6| | jk捆绑萝莉束缚| 1| 7| | 最纯萝莉性爱| 1| 8| | 整容脸制服美女| 1| 9| | 星 调教萝莉| 1| 10| | 大一学生寝室自慰| 1| 11| | 超性感美女给你打飞机| 1| 12| | 超可爱萝莉下海资源| 1| 13| | 迷倒女儿然后慢慢操| 1| 14| | 精灵做爱高潮–影视剪辑| 1| 15| | 小萝莉被插到大叫| 1| 16| | 睡醒和白嫩女友来一发| 1| 17| | 双马尾萝莉甜美自慰诱惑| 1| 18| | 调教双马尾小萝莉| 1| 19| | 黑丝小萝莉最喜欢玩具| 1| 20| +------------------------+-----------+---+ only showing top 20 rows
movie_cat_rdd = movie_csv.select('movie_name','play_count','category_id').join(category_csv, movie_csv.category_id == category_csv.id, "inner")
movie_cat_rdd.select('movie_name', 'name', 'play_count').show()
+------------------------+------+----------+ | movie_name| name|play_count| +------------------------+------+----------+ | 美女学生考试时被中出|萝莉系| 2566| | 无套中出内射(上)|萝莉系| 11199| | 无套中出内射(下)|萝莉系| 7067| | 极品嫩妹|萝莉系| 3372| | 骚妹妹 7|萝莉系| 1975| |漂亮美女完美身材甜美声音|萝莉系| 17097| | jk捆绑萝莉束缚|萝莉系| 8362| | 最纯萝莉性爱|萝莉系| 10329| | 整容脸制服美女|萝莉系| 5297| | 星 调教萝莉|萝莉系| 4725| | 大一学生寝室自慰|萝莉系| 20318| | 超性感美女给你打飞机|萝莉系| 17302| | 超可爱萝莉下海资源|萝莉系| 18133| | 迷倒女儿然后慢慢操|萝莉系| 59674| | 精灵做爱高潮–影视剪辑|萝莉系| 8767| | 小萝莉被插到大叫|萝莉系| 14213| | 睡醒和白嫩女友来一发|萝莉系| 5350| | 双马尾萝莉甜美自慰诱惑|萝莉系| 25311| | 调教双马尾小萝莉|萝莉系| 29114| | 黑丝小萝莉最喜欢玩具|萝莉系| 17084| +------------------------+------+----------+ only showing top 20 rows
cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.reduceByKey(lambda x,y:int(x)+int(y))
cat_play_count_rdd.take(10)
[('麻豆', 9647109), ('热门推荐', 140009898), ('不雅视频', 0), ('亚洲无码', 0), ('人气女优', 0), ('有码', 13473918), ('精品推荐', 0), ('国产专区', 0), ('中文字幕', 12101524), ('三级片', 10920151)]
cat_play_count_df = cat_play_count_rdd.toDF().toPandas()
cat_play_count_df.head()
_1 _2 0 麻豆 9647109.0 1 热门推荐 140009898.0 2 不雅视频 0.0 3 亚洲无码 0.0 4 人气女优 0.0
# 视频标签数量展示
bars=alt.Chart(cat_play_count_df).mark_bar().encode(
x=alt.X('_2', title='播放次数'),
y=alt.Y('_1', title='分类名称', sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)
from pyspark.sql.functions import mean, stddev, skewness, kurtosis
movie_cat_rdd= movie_cat_rdd.withColumn("play_count",col("play_count").cast("Integer"))
avg_rdd = cat_play_count_rdd = movie_cat_rdd.select('name','play_count').rdd.groupByKey() \
.mapValues(lambda x: sum(x) / len(x))
avg_df = avg_rdd.toDF().toPandas()
avg_df.head()
_1 _2 0 麻豆 267975.250000 1 热门推荐 176780.174242 2 不雅视频 0.000000 3 亚洲无码 0.000000 4 人气女优 0.000000
# 视频标签数量展示
bars=alt.Chart(avg_df).mark_bar().encode(
x=alt.X('_2', title='平均播放次数'),
y=alt.Y('_1', title='分类名称', sort='-x')
)
text = bars.mark_text(align='left', baseline='middle', dx=3).encode(text='_2')
(bars + text).properties(height=2000, width=800)
参考链接:
https://www.douban.com/group/topic/177255686/
https://www.douban.com/group/topic/185033610/
3 comments
看着文章封面,点进去,结尾,看着下一个封面更诱惑点击去,一下午了,都没有走出你这个网站 ,写个评论吧,旁边还扭来扭曲,身体不好,都坚持不到评论写完~
这么夸张的吗?哈哈